Masivas

Las recolecciones masivas tienen por objeto rastrear un dominio completo, sin exclusiones ni selección. El robot recolector, al que se le proporciona la lista de dominios registrados, los rastrea todos y archiva el contenido que encuentra a su paso, de acuerdo con una configuración predeterminada.

En las recolecciones masivas no hay una selección por parte de bibliotecarios, lo que elimina cualquier filtro, sesgo o subjetividad.

El Archivo de la Web Española guarda actualmente los cuatro dominios nacionales: .es, .gal, .cat, .eus. Lo hace una vez al año con la colaboración de los diferentes centros de conservación autonómicos. Se realiza, además, un guardado masivo al año de publicaciones seriadas en libre acceso en Internet.

La consulta de los contenidos guardados en las recolecciones masivas es sólo posible a través de URL.

 

Sitios web archivados 

 

Recolección del dominio .es

La recolección del dominio .es se realiza anualmente desde 2009 y pretende obtener un panorama global de la web del país cada año.

Entre 2009 y 2013 se llevaron a cabo 8 recolecciones masivas del dominio .es a través de la infraestructura de Internet Archive. Éstas recolecciones suponen la representación más antigua de los sitios web conservados en el Archivo de la Web Española.

En 2014, la Biblioteca Nacional de España adquiere su propia infraestructura de recolección y tras un periodo de prueba en 2016 ejecuta por primera vez la recolección masiva del dominio .es con medios propios. Para realizar esta recolección Red.es extrae previamente y suministra el listado de dominios sobre la base del listado completo de todos los dominios registrados en ESNIC. Esta primera recolección supuso el guardado de 800.000 dominios, con un límite de tamaño de 100 MB con un total de 28 TB de información.

Actualmente la masiva del dominio .es se realiza de manera anual, y guarda en torno a 2.000.000 de dominios, con un límite de tamaño de 150 MB y almacenando en torno a 70 TB de información, consiguiendo guardar más del 80% de los dominios de forma completa.

Recolección del dominio .gal

La recolección del dominio .gal se realiza anualmente desde 2017 en colaboración con la Biblioteca de Galicia, que suministra el listado de dominios gallegos que extrae de la entidad PuntoGal.

La primera recolección guarda más de 4.000 dominios, con 150 MB de profundidad y un total de 140 GB de memoria almacenados. Actualmente, recoge más de 6.000 dominios y 280 GB de información.

El Archivo de la Web Española guarda  capturas del primer sitio web que tuvo este dominio: http://www.dominio.gal

Recolección del dominio .cat

En 2022 la Biblioteca Nacional de España realiza la primera recolección del dominio .cat en colaboración con la Biblioteca de Cataluña, que suministra el listado de dominios catalanes extraídos de la Fundación puntCat.

La primera recolección del dominio .cat captura 44.000 dominios, con un límite de 150 MB de tamaño por dominio y consigue descargar el 77 % de ellos de manera completa, alcanzado los 2,5 TB de información almacenada.

Recolección .eus

En 2023 la Biblioteca Nacional de España realiza la primera recolección del dominio .eus en colaboración con la Biblioteca Digital de Euskadi, que suministra el listado de dominios a recolectar vascos extraídos de la asociación PuntuEUS, que mantiene este dominio.

La primera recolección masiva abarca más de 13.000 dominios y 750 GB de información, con un límite de tamaño de 150 MB por dominio.

Recolección masiva de publicaciones seriadas en acceso abierto

Las seriadas electrónicas, especialmente las revistas, son sin lugar a dudas, uno de los contenidos más efímeros en Internet. Todos los años se crean y desaparecen publicaciones seriadas, muchas de ellas sin un equivalente impreso, por lo que su desaparición es definitiva y su recuperación imposible.

El Archivo de la Web Española realiza, de manera masiva y sistemática, la recolección de los sitios web de estas publicaciones seriadas electrónicas en libre acceso, incluidos los ejemplares digitales que estos contienen, para que se conserven y sean accesibles en el futuro aun cuando desaparezcan de la web viva.

La BNE como Centro Nacional del ISSN incorpora a su catálogo todas las publicaciones seriadas electrónicas españolas que reciben este número internacional y es de aquí de donde extrae las URL y dominios para lazar esta recolección masiva.

El primer guardado de seriadas se realizó en 2020 con más de 8.000 URL de seriadas que abarcaban más de 3.700 dominio y con un límite de tamaño de un 1 GB por dominio. Actualmente se guardan más de 10.000 sitios web de seriadas, pertenecientes a 7.000 dominios superando los 5 TB de información almacenada.