Saltar al menú principal
Saltar al contenido

Historia de la colección

Archivo de la Web Española

La recolección de páginas web se realiza con robots rastreadores que recorren las URL seleccionadas previamente y guardan todo lo que encuentran enlazado, con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones web son los archivos web, donde se guarda y se puede consultar lo recolectado.

En la Biblioteca Nacional de España para archivar la web se utiliza NAS (NetarchiveSuite), una herramienta de código abierto diseñada por la Biblioteca de Dinamarca, y que actualmente también utilizan para este propósito otras bibliotecas nacionales como la de Francia y la de Austria. Para rastrear incorpora el robot Heritrix, creado por Internet Archive, primera organización que empezó a rastrear y archivar la web en 1996.

Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión “viva”. Una vez completado el rastreo, las webs archivadas son visualizadas en la OpenWayback, una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.

Inspirándose en las Directrices para la preservación del patrimonio digital de la UNESCO (2003) y en la Recomendación de la Comisión Europea de 24 de agosto de 2006 sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital, la BNE comenzó a capturar páginas y sitios web españoles albergados en el dominio .es, así como en otros dominios y subdominios genéricos (.com, .edu, .gob, .org, .net, etc.).

Desde que el proyecto de la BNE arrancó en 2009 hasta finales de 2013 se llevaron a cabo ocho recolecciones masivas del dominio .es y dos recolecciones selectivas. La primera selectiva tuvo como objetivo cubrir de forma monográfica las Elecciones Generales del 20 de noviembre de 2011 y la segunda se ocupó de reunir recursos españoles del ámbito de las Humanidades. El resultado de estas recolecciones, hechas por Internet Archive para la BNE, fue trasladado a los servidores de la Biblioteca a finales de 2014, gracias a un convenio de colaboración firmado con Red.es. Red.es colabora activamente con la Biblioteca en el desarrollo tecnológico y de infraestructuras para la gestión del depósito legal de las publicaciones en línea.

En 2014 la Biblioteca instaló en un entorno de pruebas el paquete de herramientas de código abierto NetarchiveSuite para rastrear y archivar la web. Con este sistema propio la Biblioteca ha realizado desde entonces varias recolecciones selectivas sobre acontecimientos relevantes para la historia y la cultura españolas, como la muerte de Adolfo Suárez, la abdicación de Juan Carlos I, la proclamación de Felipe VI, , las elecciones europeas de 2014, las locales y autonómicas de 2015 y las Elecciones Generales de 2015-2016.

En 2015, y después de una larga tramitación, se publicó el Real Decreto 635/2015, de 10 de julio, por el que se regula el depósito legal de las publicaciones en línea, que entró en vigor el 26 de octubre de ese año. Este real decreto respalda la actividad en materia de preservación de publicaciones en línea que los centros de conservación han llevado a cabo en los últimos años, en particular en cuanto a los proyectos de archivado web.

En 2016 se llevó a cabo la primera recolección masiva del dominio .es con recursos propios, que duró 3 meses.
Durante ese año, además, se consolidó la cooperación entre los centros de conservación de las Comunidades Autónomas y la BNE para gestionar y construir un depósito legal de las publicaciones en línea colaborativo. Cada vez son más los centros que gestionan sus propias colecciones web, utilizando las herramientas que la BNE ha puesto a disposición de todos ellos.