Saltar al menú principal
Saltar al contenido

Archivo de la web española

¿Qué es un archivo web?

Denominamos “archivo web” a la colección formada por la recolección automatizada de sitios web. Un archivo web está compuesto por páginas y sitios web cuyos contenidos han sido concebidos para su publicación en redes de comunicación. La finalidad de un archivo web es la preservación y difusión de estos recursos “nacidos digitales” para que puedan servir como herramienta de conocimiento para generaciones presentes y futuras.

El Archivo de la Web Española

La Biblioteca Nacional de España (BNE) creó en 2009 el Archivo de la Web Española con objeto de conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet (webs, blogs, foros, listas de distribución, documentos, imágenes, vídeos, etc.). En España PADICAT (Patrimonio Digital de Cataluña) y ONDARENET (Archivo del Patrimonio Digital Vasco) se ocupan del archivo del patrimonio digital catalán y vasco desde 2005 y 2007 respectivamente.

Inspirándose en las Directrices para la preservación del patrimonio digital de la UNESCO (2003) y en la Recomendación de la Comisión Europea de 24 de agosto de 2006 sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital, la BNE captura páginas y sitios web españoles albergados en el dominio .es, así como en otros dominios y subdominios genéricos (.com; .edu; .gob; .org; .net; .biz, etc.).

En el marco de este proyecto, la BNE es miembro del Consorcio Internacional para la Preservación de Internet (International Internet Preservation Consortium –IIPC-) desde 2010, organización que aglutina las iniciativas más importantes a nivel mundial en el campo del archivado web y en la que se integran bibliotecas nacionales de todo el mundo así como instituciones patrimoniales como archivos y bibliotecas universitarias y de investigación.

Desde que el proyecto de la BNE arrancó en 2009 hasta finales de 2013 se han llevado a cabo ocho recolecciones masivas del dominio .es y dos recolecciones selectivas. La primera selectiva tuvo como objetivo cubrir de forma monográfica las Elecciones Generales del 20 de noviembre de 2011 y la segunda se ocupó de reunir recursos españoles del ámbito de las Humanidades.

El Archivo de la web española reúne alrededor de 100 TB de información comprimida en formato WARC (Web ARChive file format, estándar internacional ISO 28500), un formato de archivo utilizado globalmente para estructurar, gestionar y almacenar objetos digitales. Para recopilar esta magnitud de datos la BNE ha contado con la colaboración de la fundación Internet Archive, que archiva contenidos publicados en Internet desde 1996.

A la espera de la promulgación del Real Decreto que regule el Depósito Legal electrónico –que se encuentra en fase de tramitación-, la BNE ha firmado un convenio con Red.es para la construcción de un repositorio digital que permita preservar el patrimonio documental en línea.