Saltar al menú principal
Saltar al contenido

Archivo de la web española

¿Qué es un archivo web?

Denominamos “archivo web” a la colección formada por la recolección automatizada de fragmentos de la web. Un archivo web está compuesto por páginas y sitios web cuyos contenidos han sido concebidos para su publicación en redes de comunicación. La finalidad de un archivo web es la preservación y difusión de estos recursos “nacidos digitales” para que puedan servir como herramienta de conocimiento para generaciones presentes y futuras.

El archivo web de la BNE

La BNE creó en 2009 el Archivo de la web española con objeto de conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet (webs, blogs, foros, listas de distribución, documentos, imágenes, vídeos, etc.), siguiendo la estela de dos proyectos predecesores que se ocupan del archivo del patrimonio digital catalán y vasco desde 2005 y 2007, respectivamente: PADICAT (Patrimonio Digital de Cataluña, creado en 2005) y ONDARENET (Archivo del Patrimonio Digital Vasco, en 2007).

Inspirándose en las Directrices para la preservación del patrimonio digital de la UNESCO (2003) y en la Recomendación de la Comisión Europea de 24 de agosto de 2006 sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital, la BNE captura páginas y sitios web españoles albergados en el dominio .es, así como en otros dominios y subdominios genéricos (.com; .edu; .gob; .org; .net; .biz, etc.).

En el marco de este proyecto, la BNE es miembro del Consorcio Internacional para la Preservación de Internet (International Internet Preservation Consortium –IIPC-) desde 2009, organización que aglutina las iniciativas más importantes a nivel mundial en el campo del archivado web y en la que se integran bibliotecas nacionales de todo el mundo así como instituciones patrimoniales como archivos y bibliotecas universitarias y de investigación.

El Archivo de la web española reúne más de 85 TB de información comprimida en formato WARC (Web ARChive file format, estándar internacional ISO 28500), un formato de archivo utilizado globalmente para estructurar, gestionar y almacenar objetos digitales. Para recopilar esta magnitud de datos la BNE ha contado con la colaboración de la Fundación Internet Archive, que archiva contenidos publicados en Internet desde 1996.

Desde que el proyecto de la BNE arrancó en 2009 hasta mediados de 2012 se han llevado a cabo siete recolecciones masivas del dominio .es y dos recolecciones selectivas. La primera selectiva tuvo como objetivo cubrir de forma monográfica las Elecciones Generales del 20 de noviembre de 2011 y la segunda se ocupó de reunir recursos españoles del ámbito de las Humanidades. Para el segundo trimestre de 2013 está previsto llevar a cabo una octava recolección masiva del dominio .es.

A la espera de la promulgación del Real Decreto que regule el Depósito Legal electrónico –que se encuentra en fase de tramitación-, la Biblioteca Nacional de España ha firmado un convenio con Red.es para la construcción de un repositorio digital que permita preservar el patrimonio documental en línea.