La BNE concluye la recolección masiva anual del dominio .es

Biblioteca digital
La BNE concluye la recolección masiva anual del dominio .es
21 de Junio, 2022
Un gran desafío a nivel técnico que, con recursos propios, ha logrado guardar cerca de 2 millones de dominios en 21 días

La Biblioteca Nacional de España acaba de concluir la séptima recolección masiva de sitios web pertenecientes al dominio .es, como parte de la memoria colectiva de nuestro país.

Se trata de un complejo desafío a nivel técnico que, realizado en su totalidad con recursos propios, ha supuesto guardar más de 1.984.794 dominios durante 21 días, rozando los 71 TB de información. El número de dominios .es desde 2016 ha aumentado en 180.000 y la infraestructura tecnológica usada ha mejorado su eficacia reduciendo el tiempo necesario para la descarga de la información, de los 92 días en 2016 a los 21 días en 2022.

Para guardar los contenidos, la BNE trabaja con un software de recolección automático, NetarchiveSuite, que utiliza 71 “arañas” que rastrean la web y guardan los contenidos pinchando y descargando la información de los enlaces que encuentra. El contenido se almacena en un formato específico, conocido como WARC, que permite la consulta de los sitios web tal como se haría navegando por Internet. A las recolecciones se les establece un límite de tamaño de descarga por cada sitio web para evitar la sobrecarga y saturación del sistema de recolección. La BNE establece un límite de 150 Megabytes por cada dominio, por lo que una vez llegado a este límite la recolección para, continuando con el siguiente dominio.

El Archivo de la Web española guarda el patrimonio documental en Internet

El Archivo de la Web Española complementa las recolecciones masivas con una selección de sitios web que recogen, con mayor profundidad y frecuencia, más de 50.000 sitios web en cualquier dominio (.com, .net, etc.) importantes por su valor histórico, social o cultural.

Esto no sería posible sin el apoyo del Consejo de Cooperación Bibliotecaria, que posibilita la colaboración de más de 30 conservadores web de diferentes comunidades autónomas, que seleccionan e incorporan contenidos específicos sobre sus regiones.

Con recursos propios la BNE aborda también temáticas específicas de plena actualidad, como el cambio climático, el feminismo o los videojuegos. Se siguen guardando contenidos sobre la pandemia del Coronavirus con más 7.000 sitios web guardados hasta la fecha; se cubren elecciones como las pasadas de Castilla y León o las actuales de Andalucía; sin dejar de lado celebraciones de importancia social y reivindicativa como el 8 de marzo, Día Internacional de la Mujer, o el Orgullo LGTBIQ+.

Sin este trabajo, muchos de los contenidos generados de forma masiva y continuada en Internet se perderían para siempre, lo que dificultaría el estudio de nuestra sociedad por los ciudadanos e investigadores, actuales y futuros.

Toda la información conservada en el Archivo de la Web Española se puede consultar a través de terminales informáticos situados en las diferentes salas de la BNE, así como desde las bibliotecas autonómicas, con la incorporación de nuevos puntos de acceso en Asturias, Canarias y Cataluña.

Contenidos relacionados
Colecciones
Archivo de la web española

Formada por los sitios web que se recolectan con el fin de preservar el patrimonio documental español en Internet