Batalla contra la obsolescencia: al rescate de la información atrapada

Batalla contra la obsolescencia: al rescate de la información atrapada
7 de Noviembre de 2024

¿Qué podemos hacer cuando alguien quiere consultar un documento que está en un soporte que ya no se puede leer en ningún equipo? Disponemos de un gran número de documentos que están en medios que han caído en desuso y cuyos reproductores han dejado de comercializarse. Para cumplir con uno de nuestros principales objetivos, debemos ser capaces de continuar dando acceso a la información que se originó y grabó en esos medios que actualmente están obsoletos. Y es que, la tecnología nos permite avanzar, pero a veces también nos trae muchos quebraderos de cabeza.

Llevamos más de 15 años digitalizando nuestros fondos, principalmente, material librario: manuscritos, incunables, libros antiguos, modernos, material gráfico y cartográfico… Y seguimos haciéndolo para poder ofrecer las colecciones más allá de nuestra sede física. Pero somos conscientes de que los esfuerzos en digitalización deben centrarse ahora cada vez más en materiales cuya obsolescencia impide acceder a los contenidos.

Ya son varios los proyectos que hemos realizado para digitalizar audio y vídeo en soporte magnético: VHS, Beta, casestes y cartuchos. Y desde 2023, en el marco del Plan de Recuperación, Transformación y Resiliencia de la Unión Europea, se está llevando a cabo un proyecto que pretende rescatar y preservar los contenidos de soportes ópticos e informáticos: disquetes (3 ½ y 5 ¼), memorias USB, CD-Rom, CD-Audio, etc.

""
Diferentes soportes abordados en el proyecto

Son varios los desafíos que debemos afrontar para recuperarlos. Por un lado, la mayoría de estos soportes ya no se pueden leer en los ordenadores actuales. Resulta muy difícil encontrar equipos con lectores de CD-Rom, más aún, con disqueteras. Por otro lado, el software que se utilizó para crear estos contenidos es probable que ya no exista o sea incompatible con las herramientas actuales. Y, por último, nos encontramos con que los contenidos fueron desarrollados para ser leídos en sistemas operativos que ya no existen, por lo que, será necesario emular aquellos sistemas o utilizar equipos de la época.

El fondo a digitalizar

Estos fondos son el reflejo de la tecnología de una época fronteriza muy determinada. Tuvieron su importancia justo antes de que se consolidara la nueva tecnología disruptiva y dominante, Internet, que acabó barriéndolos. No es solo importante conservar la información que contienen, sino que debemos preservar su legado: tienen una forma especial de estructurar y mostrar el conocimiento, son historia de los soportes y de la informática, más allá de su contenido.

Para conocer la magnitud de la colección que tenía la Biblioteca hicimos una primera consulta al catálogo que nos devolvió un listado de cerca de 500 000 ejemplares. El proyecto en marcha solo nos permitía abordar la digitalización del alrededor de 100 000 por lo que hubo que determinar cuáles serían los ejemplares prioritarios. Se decidió comenzar por los que presentaban mayor grado de obsolescencia y los que contenían información que no existía en otros soportes.

""
Ejemplares en CD-Rom

En la mayoría de los casos, estas publicaciones habían ingresado en la Biblioteca a través del depósito legal, un mandato que exige a los editores y productores de publicaciones entregar a la Biblioteca varias copias de cada obra publicada. Esto nos permitía disponer de más de una copia en el caso de que la primera de ellas fallara. Hay que tener en cuenta que estos soportes tienen una alta probabilidad de presentar errores de lectura y pueden haberse degradado por el paso del tiempo, a pesar de haber sido conservado en condiciones ambientales controladas.

El proceso de digitalización

En realidad, no deberíamos denominarlo “proceso de digitalización” porque la información, en origen, ya está en formato digital. Se trataría, por lo tanto, de un proceso de volcado o trasbase. Se suele denominar “ripear”, españolizando el término en inglés rip, y que, básicamente, consiste en copiar la información de un soporte óptico o informático a otro soporte de datos digital. Como resultado, se obtiene un archivo que contiene un duplicado exacto con la estructura y los contenidos completos del dispositivo de origen.

Hay que resaltar que no es tan sencillo como copiar los ficheros de un lugar a otro, sino que se debe reproducir de manera exacta la estructura, particiones y contenidos que había en el objeto físico, con el fin de obtener una copia fiel del original.

Para hacer esto ha sido necesario contar con el equipamiento adecuado e incluso recurrir a dispositivos antiguos. Algunos soportes daban problemas de lectura con equipos de fabricación moderna y, sin embargo, se han podido leer utilizando aparatos de la época.

Por otro lado, la información en estos soportes no se guardaba siempre de la misma manera, ya que existían diversos estándares informáticos. Si no se identifican bien pueden bloquear el acceso a los datos por eso es importante, en el proceso de ripeado, elegir un formato de salida que sea compatible con toda la tipología de sistemas existentes.

""
Controladora USB GreaseWeazle V4.1. Permite la lectura y escritura de disquetes informáticos de diferentes formatos

El resultado será, pues, un fichero con toda la información:

  • En el caso de disquetes y memorias USB, el formato utilizado es .IMG, un archivo binario que almacena la imagen de disco en bruto.

  • En el caso de los discos ópticos (CD-Rom, DVD-Rom, CD-A, etc.) se estableció, en un primer momento, el formato .ISO como el más adecuado. Sin embargo, durante el proyecto empezaron a aparecer discos, como los CDI (Compact Disc Interative) o CD Mixto, que no podían volcarse a este formato. Finalmente se optó por transferir la información a un archivo más universal que pudiera contener la mayoría de los tipos de sistemas de ficheros que podríamos encontrar, un formato “en crudo” denominado RAW, que suele ir acompañado de un fichero .TOC con la tabla de contenidos.

El proceso se completaba con el escaneado del propio soporte y el material complementario (librillos, folletos, etc.); y con la obtención de una serie de metadatos que nos ayudarán a identificar los ejemplares y preservarlos digitalmente con todas las garantías. Éstos recogen información a tres niveles:

  • Nivel 1: información del soporte.

  • Nivel 2: información del proceso de volcado (características del hardware utilizado).

  • Nivel 3: información del contenido del soporte.

¿Y después? Garantizar el acceso a largo plazo

Este proyecto es solo la primera fase de uno de mayor envergadura: ahora mismo se trata de desvincular el contenido de su soporte físico para evitar perder la información. El volcado genera una nueva colección digital ya sin soporte, pero todavía queda hacerla accesible y velar por su preservación a largo plazo.

Tendremos que analizar los contenidos recuperados para ver cuáles de ellos necesitarán emulación y cuáles se deberán migrar a formatos más modernos que puedan ser leídos con los medios que contamos actualmente. De otro modo, no podríamos asegurar el acceso al contenido, solo estaríamos guardando bits y la información estaría igualmente atrapada.

También debemos trabajar para garantizar la preservación de estos contenidos a largo plazo: chequear periódicamente su integridad y la autenticidad de la información, es decir, auditarla, protegerla de pérdidas fortuitas y gestionar una migración de formatos de archivos en los casos en que se queden obsoletos. En definitiva, tenemos que asegurar la preservación digital de estos fondos a largo plazo.

En definitiva, hemos afrontado la crucial misión de salvarlos. Ahora queda un desafiante camino para asegurar que “estas voces del pasado” sean legibles en el futuro y perduren en la memoria.

 

Comentarios

Texto sin formato

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.