La BNE supera los dos millones de sitios web guardados en la recolección masiva del dominio .es
La Biblioteca Nacional de España lleva a cabo por octavo año consecutivo la recolección masiva de sitios web pertenecientes al dominio .es.
Las recolecciones masivas tienen por objetivo rastrear un dominio completo sin exclusiones, ni selecciones. De esta forma, se obtiene un panorama global de la web en nuestro país en un momento dado.
Esto se realiza gracias a un robot recolector, conocido como Heritrix, que se encarga de rastrear la web, en base a unos parámetros y configuración determinada, a partir de un listado de dominios proporcionado por Red.es, empresa pública encargada de mantener el dominio.
En esta edición, la BNE ha mejorado los procedimientos y la calidad de las recolecciones masivas, por medio de la utilización de nuevas técnicas de recolección y la automatización de procesos.
Por primera vez, el dominio .es supera los dos millones de dominios recolectados, lo que incluye un número muy superior de sitios web. El aumento de dominios ha sido de un 1 % en comparación a 2022, pero gracias a las mejoras llevadas a cabo, se ha guardado tres veces más de contenidos que en ediciones anteriores, superando los 300 TB de información descargada. Esto ha permitido guardar en torno a 156 MB de media por dominio, alcanzando un límite mucho mayor en aquellos dominios que por su tamaño y extensión lo necesitaban, adaptando el guardado de manera casi personalizada en cada situación. De esta forma, se ha guardado completamente el 94 % de los dominios, porcentajes mucho más altos que en ediciones anteriores.
Estos cambios han conllevado también triplicar el tiempo de realización, alcanzando los 100 días, el cual se irá reduciendo presumiblemente en los próximos años.
Toda la información conservada en el Archivo de la Web Española, a pesar de encontrase libre en Internet, tiene derechos de autor vigentes, por lo que sólo es consultable a través de terminales informáticos situados en las diferentes salas de la Biblioteca Nacional de España, así como desde las bibliotecas regionales de las Comunidades Autónomas. No obstante, desde Internet, accediendo a la página de búsqueda, se pueden comprobar los sitios web que han sido guardados y con qué frecuencia.
Nuevas colecciones creadas este año en el Archivo de la Web Española.
El fallecimiento del maestro del tebeo español, Francisco Ibáñez, el 15 de julio de 2023, motivó la creación de la nueva colección sobre el cómic, en la que, además de las noticias, se están incluyendo principalmente cómics nacidos para su lectura en un entorno web, pertenecientes a autores que utilizan plataformas gratuitas para darse a conocer, páginas de asociaciones del cómic y editoriales.
Por último, se sigue trabajando en la colección que cubre las elecciones generales de 2023 con más de 1.000 sitios web guardados, seleccionadas gracias al apoyo de los centros de conservación de las CC. AA., y que permitirá su estudio para las futuras generaciones.