De la nube al olvido: el archivo de las revistas electrónicas

27 de Mayo de 2022

¿Alguna vez has publicado un artículo en una revista electrónica que ha desaparecido de Internet? ¿Te has preguntado dónde podrías encontrar aquel blog que tanto te gustaba y ya no aparece por ningún sitio?

Desde 2020, la BNE lanza cada año sus redes, como si de pesca de arrastre se tratase, para capturar todas las revistas electrónicas registradas con ISSN en España.

El Real Decreto 635/2015, de 10 de julio, establece que las publicaciones en línea forman parte del patrimonio bibliográfico y, por tanto, deben ser conservadas en beneficio de las generaciones presentes y futuras. Dentro de esta amplia categoría se encuentran las «publicaciones seriadas en soporte electrónico no tangible» o lo que comúnmente llamamos revistas electrónicas.

Con base en este mandato legal, el Archivo de la Web Española prepara cada año una recolección masiva de revistas con objeto de recolectar todos aquellos sitios web que tienen alojadas revistas electrónicas sobre cualquier materia, incluidas las revistas científicas o técnicas: fruticultura, música, arquitectura, literatura, medicina, veterinaria, fotografía, turismo rural, masonería o incluso tupper-sex son ejemplos de la variedad de temáticas que se pueden capturar en Internet.

Este año se han recolectado 12.848 enlaces.

El lanzamiento requiere la coordinación de varios equipos: la Unidad de Coordinación Informática, el Servicio de Control Bibliográfico Publicaciones Seriadas y el Servicio de Gestión del Depósito de Publicaciones en Línea.

Desde el punto de vista del trabajo bibliotecario, la recolección masiva se puede resumir en cuatro fases:

Trabajos previos

Los trabajos previos comienzan con la extracción de datos del catálogo. Esto se realiza mediante un lenguaje informático o script que envía una pregunta a la base de datos, y esta devuelve un listado con las URL de miles de publicaciones seriadas registradas en la base de datos del Centro Nacional Español del ISSN del que la BNE es centro nacional asociado.

Tras la extracción se aborda el filtrado de errores antes del lanzamiento mediante un programa informático para la validación de enlaces. Técnicamente se lanzan miles de peticiones a los servidores, que nos devuelven mensajes en forma de códigos, algunos bastante conocidos por cualquier curtido internauta: servidor no encontrado, página no encontrada, acceso denegado, etcétera.

Después de eliminar duplicados y otros enlaces no recolectables que se excluyen por diversos motivos técnicos, el Servicio de Control Bibliográfico Publicaciones Seriadas de la BNE realiza otra depuración manual de los errores arriba mencionados. Con esto se obtiene un listado de URL preparadas para el lanzamiento de la recolección masiva.

Lanzamiento

La herramienta que usa la Biblioteca Nacional de España para recolectar las revistas se llama NetArchiveSuite, diseñado por la Biblioteca Real de Dinamarca y utilizado en la actualidad por otras bibliotecas nacionales. Para rastrear la Web utiliza el robot Heritrix, creado por Internet Archive, que fue la primera organización que rastreó y archivó la Web desde 1996.

Durante la recolección, el equipo informático de la Biblioteca Nacional monitorea el comportamiento de las arañas que salen a recorrer la Red en busca de las revistas. La recolección suele durar entre tres y cuatro días. Con la evolución de la infraestructura tecnológica y los trabajos de depuración estas recolecciones han pasado de una semana de duración a tres o cuatro días actualmente.

Control de calidad

Finalmente, después de la recolección comienza la revisión manual de aquellas URL cuyo número de objetos guardados es demasiado bajo. Para comprobar estas URL recolectadas se utiliza OpenWayback, una aplicación que ofrece al usuario la posibilidad de consultar un sitio web capturado en una fecha determinada.

La casuística de los errores es muy variada pero, en líneas generales, los podríamos resumir en errores del servidor, páginas no encontradas porque han dejado de existir, hojas de estilo desconfiguradas, redirecciones a otras URL, páginas que dejaron de actualizarse o cuyo responsable abandonó el dominio, contenido con JavaScript que no puede capturar el robot, páginas con registro previo o revistas de suscripción, revistas alojadas en la nube, sitios web en mantenimiento en el momento de la captura, blogs eliminados, enlaces que abren siempre el mismo número de la revista, o falta de profundidad en la captura, por mencionar unos cuantos.

El diseño del sitio web es fundamental para que la recolección tenga éxito. Por ejemplo, con la tecnología de rastreo actual no se pueden guardar los archivos en libre acceso que se encuentran dentro de secciones desplegables, visores interactivos embebidos, documentos alojados en la nube, formularios de búsqueda de números anteriores, etc.

Las revistas que no se han podido capturar se seleccionan para un lanzamiento posterior con el fin de analizar el error y, siempre que la tecnología lo permita, corregirlo y completar la captura.

Difusión

Respecto a la difusión, las publicaciones depositadas solo se pueden consultar desde ordenadores protegidos contra la copia o descarga, sin acceso a Internet, cumpliendo la legislación actual sobre propiedad intelectual. Cualquier persona puede acceder a estos ordenadores en la BNE y en los centros de conservación de las comunidades autónomas que tienen instalado actualmente un punto de acceso.

Las recolecciones masivas son una fotografía fija de la producción editorial en un momento determinado. Como decíamos al comienzo, la finalidad del depósito legal es la conservación de nuestra memoria, es decir, el depósito es una garantía de que siempre quedará una copia de cualquier publicación en línea —y de forma gratuita para el editor— en la BNE. En otras palabras, cuando un editor de una revista solicita el ISSN se asegura de que su trabajo no desaparecerá entre la miríada de bytes que inunda Internet, así como el trabajo de sus autores, lo que sucede con más frecuencia de la que cabe imaginar.

Por ejemplo, un investigador podrá en un futuro no muy lejano navegar en un océano de revistas nacidas digitales, incluyendo las desaparecidas; otro recuperará un artículo del que ya no conserva copia en su ordenador; o un usuario en el año 2030 leerá —quién sabe si lo hará desde el incipiente metaverso— un blog completo que desapareció tras la muerte de su autor o porque lo abandonó hace años o incluso décadas. Cada cual encontrará sus razones legítimas para disfrutar de un legado intelectual que los bibliotecarios seguimos cuidando y velando para las generaciones futuras.

No está de más recordar que los bibliotecarios no seleccionamos las revistas que se recolectan ni juzgamos lo que entra en las recolecciones. Al contrario, nuestra labor es asegurar la preservación de toda la producción editorial.

En definitiva, gracias a estas recolecciones masivas, empezamos a encontrar revistas que han desaparecido sin dejar rastro en Internet. Sería un error pensar que no son importantes. Solo el tiempo y los usuarios del futuro decidirán qué es relevante para su época, y es nuestra misión ofrecer esa posibilidad cuando llegue el momento.

Escrito por: