Memorias del siglo XXI: el archivo de la web española

Memorias del siglo XXI: el archivo de la web española
13 de Diciembre de 2012

¿Cómo se enfrenta nuestra biblioteca a contrasentidos como el de que en la época de mayor tecnificación que ha conocido la Humanidad corramos el riesgo de perder todo el conocimiento que hemos generado? ¿Qué hace la BNE para proteger el patrimonio digital, la quintaesencia del mundo en que vivimos? ¿Cómo impedimos día a día desde nuestro edificio en el Paseo de Recoletos que páginas y sitios web que hoy funcionan pero mañana pueden haber desaparecido de la red se pierdan en un agujero negro de bits destruidos?

 

Desde 2009 la biblioteca se ha preocupado por tejer la urdimbre de la memoria de la contemporaneidad: el archivo web de la BNE permitirá que generaciones venideras accedan a las versiones archivadas de páginas y sitios web de contenido español (dominio .es y otros dominios y subdominios asociados, como el .com, .gob., .edu, .org, etc.). ¡Claro está que hasta que el archivo no esté públicamente accesible, nuestra imaginación apenas logrará trascender la abstracción y contagiarse de entusiasmo…! Pero el lanzamiento de una herramienta tan novedosa y colosal debería tener una enorme repercusión sobre nuestra manera de contemplar el presente: solemos zambullirnos en el océano de información que encontramos en Internet con despreocupación, dando por hecho que la información que está disponible hoy seguirá estándolo mañana. Y no es así.

 

Bien lo saben los ingenieros del Internet Archive, una fundación sin ánimo de lucro y enorme cornucopia que alberga webs, libros, películas, música, juegos de ordenador, y cualquier otro artefacto cultural pensable (de hecho, si contabilizásemos en bytes su colección, ésta alcanzaría una cifra impresionante:¡10.000.000.000.000.000 bytes archivados, tal y como puede leerse en su blog!).

La Biblioteca Nacional de España eligió al Internet Archive para que llevase a cabo cuatro recolecciones masivas y dos recolecciones selectivas desde 2009, una verdadera apuesta institucional contra la amnesia colectiva. Quizás preguntarnos “¿cómo ha evolucionado la web española desde 2009 hasta 2012?”, habiendo transcurrido tan sólo tres años de capturas, pueda parecer hoy día poco relevante. Pero, ¿acaso no será un patrimonio apreciable históricamente dentro de, pongamos, cincuenta años? Casi seguro: comprobar cómo era la web de la BNE en 1996, por ejemplo, resulta apasionante 16 años después.

¿Cómo se inicia un archivo web? ¿Qué clase de cimientos técnicos hacen falta?

En cada recolección se recorren y se guardan todas las páginas y sitios web alojados en los dominios y subdominios programados con antelación. Heritrix (“la heredera”) es el nombre de la aplicación de software de código abierto creada por el Internet Archive para actuar como robot de captura o “rastreador”. Transitando por las distintas páginas y sitios web, el robot procede a recolectar todos los elementos que componen el site (texto, ficheros de audio, imágenes, vídeos, etc.), para a continuación comprimir las versiones resultantes en un formato que permita su almacenamiento (en nuestro caso se archivan en formato WARC, norma ISO 28500:2009).

Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión “viva”. Una vez completado el rastreo, las webs archivadas son visualizadas en la Wayback Machine del Internet Archive, una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.

Y todo ello, en definitiva, para recordar el tiempo en que vivimos, usando la información que nos rodea para extraer de ella valioso conocimiento con el que seguir avanzando como especie.

Leer la primera parte

Leer la segunda parte

Contenidos relacionados
Entradas de blog
De vuelta a la Edad Oscura Digital (I)

La falta de fuentes que permitan recomponer el pasado oscurece ciertos periodos, desvaneciendo los contornos del espejo histórico en el que observa

Entradas de blog
De vuelta a la Edad Oscura Digital (II)

Tom Chatfield, periodista experto en reportajes tecnológicos de la BBC, recogía el pasado septiembre en la web de la cadena inglesa algunos ejemplo

Comentarios

Miembro desde hace

3 años 10 meses
Nombre
Jaime
Apellidos
Olalla
Enlace permanente

Emilio Munoz I Marketing On line

Un reto difícil, saber al mismo tiempo la información tan valiosa que se tiene en Internet, los navegantes de las redes con malas intencios y posibles fallos de Internet no tiene que ser muy tranquilizador.

Miembro desde hace

3 años 10 meses
Nombre
Jaime
Apellidos
Olalla
Enlace permanente

Nosferatu

Gracias por explicarnos tan clarito lo que hacen los rastreadores. Y por tranquilizarnos respecto al futuro de la información digital

Miembro desde hace

3 años 10 meses
Nombre
Jaime
Apellidos
Olalla
Enlace permanente

Agencia adwords

Queda muy claro de lo que es capaz internet. Gracias por compartir.

Texto sin formato

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.