Archivo de la Web Española

El Archivo de la Web Española es la colección formada por los sitios web (incluidos blogs, foros, documentos, imágenes, vídeos, etc.) que se recolectan con el fin de preservar el patrimonio documental español en Internet y asegurar el acceso al mismo.

Debido al enorme tamaño de Internet y a los medios tecnológicos de los que disponemos actualmente, a día de hoy es imposible aspirar a la exhaustividad en el archivado web. Por eso, para intentar guardar la mayor cantidad posible de información web, la Biblioteca Nacional de España ha optado por un modelo mixto que combina recolecciones masivas y selectivas, como hacen otras bibliotecas nacionales del mundo.

Estas colecciones se pueden consultar tanto en la Biblioteca Nacional de España como en los Centros de Conservación de las diferentes Comunidades Autónomas

 

Sitios web archivados 

 

Historia de la colección

La recolección de páginas web se realiza con robots rastreadores que recorren las URL seleccionadas previamente y guardan todo lo que encuentran enlazado, con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones web son los archivos web, donde se guarda y se puede consultar lo recolectado.

En la Biblioteca Nacional de España para archivar la web se utiliza NAS (NetarchiveSuite), una herramienta de código abierto diseñada por la Biblioteca de Dinamarca, y que actualmente también utilizan para este propósito otras bibliotecas nacionales como la de Francia y la de Austria. Para rastrear incorpora el robot Heritrix, creado por Internet Archive, primera organización que empezó a rastrear y archivar la web en 1996.

Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión “viva”. Una vez completado el rastreo, las webs archivadas son visualizadas en la OpenWayback, una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.

Inspirándose en las Directrices para la preservación del patrimonio digital de la UNESCO (2003) y en la Recomendación de la Comisión Europea de 24 de agosto de 2006 sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital, la BNE comenzó a capturar páginas y sitios web españoles albergados en el dominio .es, así como en otros dominios y subdominios genéricos (.com, .edu, .gob, .org, .net, etc.).

Desde que el proyecto de la BNE arrancó en 2009 hasta finales de 2013 se llevaron a cabo ocho recolecciones masivas del dominio .es y dos recolecciones selectivas. La primera selectiva tuvo como objetivo cubrir de forma monográfica las Elecciones Generales del 20 de noviembre de 2011 y la segunda se ocupó de reunir recursos españoles del ámbito de las Humanidades. El resultado de estas recolecciones, hechas por Internet Archive para la BNE, fue trasladado a los servidores de la Biblioteca a finales de 2014, gracias a un convenio de colaboración firmado con Red.es. Red.es colabora activamente con la Biblioteca en el desarrollo tecnológico y de infraestructuras para la gestión del depósito legal de las publicaciones en línea.

En 2014 la Biblioteca instaló en un entorno de pruebas el paquete de herramientas de código abierto NetarchiveSuite para rastrear y archivar la web. Con este sistema propio la Biblioteca ha realizado desde entonces varias recolecciones selectivas sobre acontecimientos relevantes para la historia y la cultura españolas, como la muerte de Adolfo Suárez, la abdicación de Juan Carlos I, la proclamación de Felipe VI, , las elecciones europeas de 2014, las locales y autonómicas de 2015 y las Elecciones Generales de 2015-2016.

En 2015, y después de una larga tramitación, se publicó el Real Decreto 635/2015, de 10 de julio, por el que se regula el depósito legal de las publicaciones en línea, que entró en vigor el 26 de octubre de ese año. Este real decreto respalda la actividad en materia de preservación de publicaciones en línea que los centros de conservación han llevado a cabo en los últimos años, en particular en cuanto a los proyectos de archivado web.

En 2016 se llevó a cabo la primera recolección masiva del dominio .es con recursos propios, que duró 3 meses.
Durante ese año, además, se consolidó la cooperación entre los centros de conservación de las Comunidades Autónomas y la BNE para gestionar y construir un depósito legal de las publicaciones en línea colaborativo. Cada vez son más los centros que gestionan sus propias colecciones web, utilizando las herramientas que la BNE ha puesto a disposición de todos ellos.

    Subcolecciones

    Subcolecciones
    internet web linked data
    Masivas

    Las recolecciones masivas rastrean un dominio completo y ofrecen una foto estática del panorama de la web en un momento determinado.

    Temáticas Archivo web
    Temáticas

    Para capturar una selección de recursos sobre un tema o tipo de documento.

    Comunidades Autónomas Archivo Web
    Comunidades Autónomas

    Las Comunidades Autónomas tienen designados centros de conservación que seleccionan sitios web para enriquecer el patrimonio documental en línea sobre sus regiones.

    Eventos Archivo web
    Eventos destacados

    Selección de sitios web sobre acontecimiento de especial relevancia para la sociedad española.

    Elecciones Archivo web
    Elecciones

    En colaboración con las CC. AA. se seleccionan sitios web y redes sociales sobre los principales procesos electorales españoles desde 2015.

    Riesgo Web española
    Riesgo

    Recolecciones de emergencia que se realizan en el caso de riesgo de desaparición de un sitio web.