Arquivo da Web Española

O Arquivo da Web Española é a colección formada polos sitios web (incluídos blogues, foros, documentos, imaxes, vídeos, etc.) que se colleitan co fin de preservar o patrimonio documental español en Internet e asegurar o acceso ao mesmo.

Debido ao enorme tamaño de Internet e aos medios tecnolóxicos dos que dispomos actualmente, a día de hoxe é imposible aspirar á exhaustividad na arquivado web. Por iso, para tentar gardar a maior cantidade posible de información web, a Biblioteca Nacional de España optou por un modelo mixto que combina recoleccións masivas e selectivas, como fan outras bibliotecas nacionais do mundo.

 

Acceder ao Buscador de URLs colleitadas 

Historia da colección

La recolección de páginas web se realiza con robots rastreadores que recorren las URL seleccionadas previamente y guardan todo lo que encuentran enlazado, con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones web son los archivos web, donde se guarda y se puede consultar lo recolectado.

Na Biblioteca Nacional de España para arquivar a web utilízase NAS (NetarchiveSuite), unha ferramenta de código aberto deseñada pola Biblioteca de Dinamarca, e que actualmente tamén utilizan para este propósito outras bibliotecas nacionais como a de Francia e a de Austria. Para rastrexar incorpora o robot Heritrix, creado por Internet Arquive, primeira organización que empezou a rastrexar e arquivar a web en 1996.

As recoleccións buscan reproducir con detalle o aspecto do sitio e as funcionalidades do mesmo dispoñibles durante a captura, de tal forma que a réplica do sitio web sexa tan navegable como a súa versión “viva”. Unha vez completado o rastrexo, as webs arquivadas son visualizadas na OpenWayback, unha aplicación que ofrece ao usuario a posibilidade de seleccionar que versión concreta dunha web determinada desexa consultar.

Inspirándose nas Directrices para a preservación do patrimonio dixital da UNESCO (2003) e na Recomendación da Comisión Europea do 24 de agosto de 2006 sobre a dixitalización e a accesibilidade en liña do material cultural e a conservación dixital, a BNE comezou a capturar páxinas e sitios web españois albergados no dominio .es, así como noutros dominios e subdominios xenéricos (.com, .edu, .gob, .org, .net, etc.).

Desde que o proxecto da BNE arrincou en 2009 ata finais de 2013 levaron a cabo oito recoleccións masivas do dominio .es e dúas recoleccións selectivas. A primeira selectiva tivo como obxectivo cubrir de forma monográfica as Eleccións Xerais do 20 de novembro de 2011 e a segunda ocupouse de reunir recursos españois do ámbito das Humanidades. O resultado destas recoleccións, feitas por Internet Arquive para a BNE, foi trasladado aos servidores da Biblioteca a finais de 2014, grazas a un convenio de colaboración asinado con Rede.es. Rede.es colabora activamente coa Biblioteca no desenvolvemento tecnolóxico e de infraestruturas para a xestión do depósito legal das publicacións en liña.

En 2014 a Biblioteca instalou nunha contorna de probas o paquete de ferramentas de código aberto NetarchiveSuite para rastrexar e arquivar a web. Con este sistema propio a Biblioteca realizou desde entón varias recoleccións selectivas sobre acontecementos relevantes para a historia e a cultura españolas, como a morte de Adolfo Suárez, a abdicación de Juan Carlos I, a proclamación de Felipe VIN, , as eleccións europeas de 2014, as locais e autonómicas de 2015 e as Eleccións Xerais de 2015-2016.

En 2015, e despois dunha longa tramitación, publicouse o Real Decreto 635/2015, do 10 de xullo, polo que se regula o depósito legal das publicacións en liña, que entrou en vigor o 26 de outubro dese ano. Este real decreto apoia a actividade en materia de preservación de publicacións en liña que os centros de conservación levaron a cabo nos últimos anos, en particular en canto aos proxectos de arquivado web.

En 2016 levou a cabo a primeira recolección masiva do dominio .es con recursos propios, que durou 3 meses.
Durante ese ano, ademais, consolidouse a cooperación entre os centros de conservación das Comunidades Autónomas e a BNE para xestionar e construír un depósito legal das publicacións en liña colaborativo. Cada vez son máis os centros que xestionan os seus propias colecciones web, utilizando as ferramentas que a BNE puxo a disposición de todos eles.

  Subcolecciones

  Subcolecciones
  internet web linked data
  Recoleccións masivas

  As recoleccións masivas recollen unha mostra representativa do panorama da web no momento en que se fai a recolección.

  Temáticas Archivo web
  Recoleccións temáticas

  Para capturar una selección de recursos sobre un tema o tipo de documento.

  Comunidades Autónomas Archivo Web
  Recoleccións de webs de Comunidades Autónomas

  As Comunidades Autónomas teñen designados centros de conservación para a xestión do depósito legal de publicacións en liña e elaboran coleccións temáticas cos recursos que consideran necesario conservar como parte do depósito legal do seu ámbito competencial.

  Eventos Archivo web
  Recoleccións de eventos destacados

  Sobre acontecementos de especial relevancia para a sociedade española

  Elecciones Archivo web
  Recoleccións de eventos: eleccións

  Especial relevancia polo seu valor social e político para a sociedade española de hoxe e do futuro.

  Riesgo Web española
  Recoleccións de risco

  Trátase de recoleccións de emerxencia realízanse no caso de risco de desaparición de sitios web.