Archivo de la Web Española

El Archivo de la Web Española es la colección formada por los sitios web (incluidos blogs, foros, documentos, imágenes, vídeos, etc.) que se recolectan con el fin de preservar el patrimonio documental español en Internet y asegurar el acceso al mismo.

Debido al enorme tamaño de Internet y a los medios tecnológicos de los que disponemos actualmente, a día de hoy es imposible aspirar a la exhaustividad en el archivado web. Por eso, para intentar guardar la mayor cantidad posible de información web, la Biblioteca Nacional de España ha optado por un modelo mixto que combina recolecciones masivas y selectivas, como hacen otras bibliotecas nacionales del mundo.

Estas colecciones se pueden consultar tanto en la Biblioteca Nacional de España como en los Centros de Conservación de las diferentes Comunidades Autónomas

 

Sitios web archivados 

 

Historia de la colección

Inspirándose en las Directrices para la preservación del patrimonio digital de la UNESCO (2003) y en la Recomendación de la Comisión Europea de 24 de agosto de 2006 sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital, la BNE comenzó a capturar páginas y sitios web españoles albergados en el dominio .es, así como en otros dominios y subdominios genéricos (.com, .edu, .gob, .org, .net, etc.).

Desde que el proyecto de la BNE arrancó en 2009 hasta finales de 2013 se llevaron a cabo ocho recolecciones masivas del dominio .es y dos recolecciones selectivas. La primera selectiva tuvo como objetivo cubrir de forma monográfica las Elecciones Generales del 20 de noviembre de 2011 y la segunda se ocupó de reunir recursos españoles del ámbito de las Humanidades. El resultado de estas recolecciones, hechas por Internet Archive para la BNE, fue trasladado a los servidores de la Biblioteca a finales de 2014, gracias a un convenio de colaboración firmado con Red.es. Red.es colabora activamente con la Biblioteca en el desarrollo tecnológico y de infraestructuras para la gestión del depósito legal de las publicaciones en línea.

En 2014 la Biblioteca instaló en un entorno de pruebas el paquete de herramientas de código abierto NetarchiveSuite para rastrear y archivar la Web. Con este sistema propio la Biblioteca ha realizado desde entonces varias recolecciones selectivas sobre acontecimientos relevantes para la historia y la cultura españolas, como la muerte de Adolfo Suárez, la abdicación de Juan Carlos I, la proclamación de Felipe VI, las elecciones europeas de 2014, las locales y autonómicas de 2015 y las Elecciones Generales de 2015-2016.

En 2015 se publicó el Real Decreto 635/2015, de 10 de julio, por el que se regula el depósito legal de las publicaciones en línea, que entró en vigor el 26 de octubre de ese año. Este real decreto respalda la actividad en materia de preservación de publicaciones en línea que los centros de conservación han llevado a cabo en los últimos años, en particular en cuanto a los proyectos de archivado web.

En 2016 se llevó a cabo la primera recolección masiva del dominio .es con recursos propios, que duró 3 meses.

Durante ese año, además, se consolidó la cooperación entre los centros de conservación de las Comunidades Autónomas y la BNE para gestionar y construir un depósito legal de las publicaciones en línea colaborativo. Cada vez son más los centros que gestionan sus propias colecciones web, utilizando las herramientas que la BNE ha puesto a disposición de todos ellos.

Qué son los archivos web

Un archivo web es el conjunto de recursos recolectados de la Web a lo largo del tiempo.   

Estos recursos forman colecciones de sitios web agrupados por una materia, una temática, un evento o por riesgo de desaparición. La recolección se realiza de forma automatizada mediante rastreadores o robots que escanean los sitios web, copiando y guardando toda la información. Esta información se almacena, preserva y difunde a través del Archivo de la Web Española.

Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión “viva”. Una vez completado el rastreo, las webs archivadas son visualizadas en la OpenWayback, una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.

Los sitios web son previamente seleccionados por personal bibliotecario especialista en la conservación del patrimonio digital. Los criterios de selección están definidos en el documento Política de desarrollo de colecciones.

Toda la información se guarda en un formato de archivo estandarizado denominado WARC (acrónimo de Web ARChive file format, ISO 28500), que comprime toda la información sobre los sitios web recolectados.

Para qué sirven los archivos web

Del mismo modo que cualquier otro material bibliográfico, la biblioteca archiva los sitios web por diferentes motivos que justifican su necesidad y utilidad para las generaciones futuras:

  • Los contenidos no almacenados en un archivo de la web desaparecerán de forma perpetua e irrecuperable.
  • Son testigos de la historia de internet y de la creación de sitios web.
  • Estudio de la sociedad y la evolución de las costumbres e ideas.
  • Conservación del patrimonio cultural y documental en línea de un país.
  • Guardado de contenidos efímeros con grandes posibilidades de desaparecer a corto plazo.
  • Herramienta de estudio e investigación de eventos con alta representación en Internet.
  • Recuperación del contenido de sitios web borrados o desaparecidos.
Estrategia de recolección

Debido al enorme tamaño de Internet y a los medios tecnológicos de los que disponemos actualmente, a día de hoy es imposible aspirar a la exhaustividad en el archivado web. Por eso, para intentar guardar la mayor cantidad posible de información web, la Biblioteca Nacional de España ha optado por un modelo mixto que combina recolecciones masivas y selectivas. Este modelo está en consonancia con otras políticas de colecciones web internacionales, como es el caso de otras bibliotecas nacionales.

Herramientas para archivar la Web

La herramienta que usa la Biblioteca Nacional de España para archivar la Web se llama NAS (NetArchiveSuite). Esta aplicación de código abierto fue diseñada en 2004 por la Biblioteca Real de Dinamarca, y actualmente la utilizan también para este propósito otras bibliotecas nacionales. Para rastrear utiliza el robot Heritrix, creado por Internet Archive, que fue la primera organización que rastreó y archivó la web desde 1996. Para visualizar lo archivado se utiliza OpenWayback, una aplicación creada por el Consorcio Internacional de Preservación de Internet (IIPC, por sus siglas en inglés), que ofrece al usuario la posibilidad de consultar un sitio web capturado en una fecha determinada.

Criterios generales de recolección

Los criterios generales de selección están basados en el artículo 3 del Real Decreto 635/2015, de 10 de julio, por el que se regula el depósito legal de las publicaciones en línea, según el cual los sitios web objeto de depósito legal son aquellos que:

  • contengan patrimonio bibliográfico, sonoro, visual, audiovisual o digital de las culturas de España;
  • estén bajo el dominio .es y subdominios asociados, así como otros dominios del territorio nacional;
  • estén albergados en otros dominios (.com, .net, .edu, .org, etc.), pero contengan patrimonio documental español;
  • estén en cualquiera de las lenguas oficiales del Estado;
  • estén en cualquier formato, incluyendo las publicaciones en ellos contenidas;
  • sean tanto de acceso libre como restringido.
Publicaciones en línea recolectables

Existen varias categorías de recursos web que es recomendable incluir en las selecciones de sitios web para que la muestra documental sea lo más representativa posible:

  • Medios de comunicación social: cabeceras de prensa, agencias de noticias, cadenas de radio y televisión.
  • Organismos administrativos: Ministerios, Comunidades Autónomas, Ayuntamientos.
  • Instituciones políticas: partidos políticos.
  • Instituciones culturales: Museos, Archivos, Bibliotecas, colegios, Universidades, Centros de investigación.
  • Instituciones científicas
  • Instituciones sanitarias
  • Instituciones deportivas
  • Sitios web centrados en patrimonio natural y artístico
  • Actos culturales, congresos, asambleas, jornadas…
  • Sitios web de empresas privadas
  • Asociaciones: profesionales, ONG.
  • Blogs y páginas web de personas relevantes relacionadas con el tema de la recolección.
  • Redes sociales: Twitter (actual X), Facebook.
  • Wikis: Wikipedia.
  • Grabaciones en vídeo: YouTube
Publicaciones en línea no recolectables

Existen algunas limitaciones relacionadas con aspectos legales y técnicos que afectan a la recolección de las publicaciones en línea.

En la vertiente legal, según el Real Decreto 635/2015, quedan excluidos de las recolecciones (art. 4):

  • Los correos y la correspondencia privada.
  • Los contenidos que estén albergados únicamente en una red privada.
  • Los datos personales a los que solo tiene acceso un grupo restringido de personas.

De conformidad con lo dispuesto en los artículos 6 y 7 del Real Decreto 635/2015, de 10 de julio, la BIBLIOTECA NACIONAL DE ESPAÑA, O.A., ejerce su función de captura y depósito de las publicaciones en línea que hayan sido objeto de comunicación pública y los sitios web accesibles a través de redes de comunicaciones. Esta captura y depósito se realiza sin alteración de los contenidos con el propósito de garantizar su integridad y trazabilidad histórica. En consecuencia, la BNE no se responsabiliza de aquellos contenidos que, formando parte de la captura y depósito realizado, sean contrarios a la ley, la moral o el orden público, siendo responsables de aquellos los titulares de dichas comunicaciones.

En el aspecto técnico, algunos contenidos, a pesar de estar en libre acceso en Internet, no se pueden recolectar con las condiciones tecnológicas actuales:

  • Bases de datos, repositorios, catálogos.
  • Visores de lectura interactivos.
  • Contenido en streaming.
  • Archivos en la nube.
  • Contenidos detrás de filtros, listas desplegables o casillas de verificación.

Subcolecciones

Subcolecciones
internet web linked data
Masivas

Las recolecciones masivas rastrean un dominio completo y ofrecen una foto estática del panorama de la web en un momento determinado.

Temáticas Archivo web
Temáticas

Para capturar una selección de recursos sobre un tema de forma periódica.

Comunidades Autónomas Archivo Web
Comunidades Autónomas

Las Comunidades Autónomas tienen designados centros de conservación que seleccionan sitios web para enriquecer el patrimonio documental en línea sobre sus regiones.

Eventos Archivo web
Eventos destacados

Selección de sitios web sobre acontecimientos de especial relevancia para la sociedad española.

Elecciones Archivo web
Elecciones

En colaboración con las CC. AA. se seleccionan sitios web y redes sociales sobre los principales procesos electorales españoles desde 2015.

Riesgo Web española
Riesgo

Recolecciones de emergencia que se realizan en el caso de riesgo de desaparición de un sitio web.