Memorias del siglo XXI: el archivo de la web española

13 de Diciembre de 2012

¿Cómo se enfrenta nuestra biblioteca a contrasentidos como el de que en la época de mayor tecnificación que ha conocido la Humanidad corramos el riesgo de perder todo el conocimiento que hemos generado? ¿Qué hace la BNE para proteger el patrimonio digital, la quintaesencia del mundo en que vivimos? ¿Cómo impedimos día a día desde nuestro edificio en el Paseo de Recoletos que páginas y sitios web que hoy funcionan pero mañana pueden haber desaparecido de la red se pierdan en un agujero negro de bits destruidos?

Desde 2009 la biblioteca se ha preocupado por tejer la urdimbre de la memoria de la contemporaneidad: el archivo web de la BNE permitirá que generaciones venideras accedan a las versiones archivadas de páginas y sitios web de contenido español (dominio .es y otros dominios y subdominios asociados, como el .com, .gob., .edu, .org, etc.). ¡Claro está que hasta que el archivo no esté públicamente accesible, nuestra imaginación apenas logrará trascender la abstracción y contagiarse de entusiasmo…! Pero el lanzamiento de una herramienta tan novedosa y colosal debería tener una enorme repercusión sobre nuestra manera de contemplar el presente: solemos zambullirnos en el océano de información que encontramos en Internet con despreocupación, dando por hecho que la información que está disponible hoy seguirá estándolo mañana. Y no es así.

Bien lo saben los ingenieros del Internet Archive, una fundación sin ánimo de lucro y enorme cornucopia que alberga webs, libros, películas, música, juegos de ordenador, y cualquier otro artefacto cultural pensable (de hecho, si contabilizásemos en bytes su colección, ésta alcanzaría una cifra impresionante:¡10.000.000.000.000.000 bytes archivados, tal y como puede leerse en su blog!).

La Biblioteca Nacional de España eligió al Internet Archive para que llevase a cabo cuatro recolecciones masivas y dos recolecciones selectivas desde 2009, una verdadera apuesta institucional contra la amnesia colectiva. Quizás preguntarnos “¿cómo ha evolucionado la web española desde 2009 hasta 2012?”, habiendo transcurrido tan sólo tres años de capturas, pueda parecer hoy día poco relevante. Pero, ¿acaso no será un patrimonio apreciable históricamente dentro de, pongamos, cincuenta años? Casi seguro: comprobar cómo era la web de la BNE en 1996, por ejemplo, resulta apasionante 16 años después.

¿Cómo se inicia un archivo web? ¿Qué clase de cimientos técnicos hacen falta?

En cada recolección se recorren y se guardan todas las páginas y sitios web alojados en los dominios y subdominios programados con antelación. Heritrix (“la heredera”) es el nombre de la aplicación de software de código abierto creada por el Internet Archive para actuar como robot de captura o “rastreador”. Transitando por las distintas páginas y sitios web, el robot procede a recolectar todos los elementos que componen el site (texto, ficheros de audio, imágenes, vídeos, etc.), para a continuación comprimir las versiones resultantes en un formato que permita su almacenamiento (en nuestro caso se archivan en formato WARC, norma ISO 28500:2009).

Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión “viva”. Una vez completado el rastreo, las webs archivadas son visualizadas en la Wayback Machine del Internet Archive, una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.

Y todo ello, en definitiva, para recordar el tiempo en que vivimos, usando la información que nos rodea para extraer de ella valioso conocimiento con el que seguir avanzando como especie.

Leer la primera parte

Leer la segunda parte

Escrito por: