Arquivo da Web Española
O Arquivo da Web Española é a colección formada polos sitios web (incluídos blogues, foros, documentos, imaxes, vídeos, etc.) que se colleitan co fin de preservar o patrimonio documental español en Internet e asegurar o acceso ao mesmo.
Debido ao enorme tamaño de Internet e aos medios tecnolóxicos dos que dispomos actualmente, a día de hoxe é imposible aspirar á exhaustividad na arquivado web. Por iso, para tentar gardar a maior cantidade posible de información web, a Biblioteca Nacional de España optou por un modelo mixto que combina recoleccións masivas e selectivas, como fan outras bibliotecas nacionais do mundo.
Historia da colección
La recolección de páginas web se realiza con robots rastreadores que recorren las URL seleccionadas previamente y guardan todo lo que encuentran enlazado, con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones web son los archivos web, donde se guarda y se puede consultar lo recolectado.
Na Biblioteca Nacional de España para arquivar a web utilízase NAS (NetarchiveSuite), unha ferramenta de código aberto deseñada pola Biblioteca de Dinamarca, e que actualmente tamén utilizan para este propósito outras bibliotecas nacionais como a de Francia e a de Austria. Para rastrexar incorpora o robot Heritrix, creado por Internet Arquive, primeira organización que empezou a rastrexar e arquivar a web en 1996.
As recoleccións buscan reproducir con detalle o aspecto do sitio e as funcionalidades do mesmo dispoñibles durante a captura, de tal forma que a réplica do sitio web sexa tan navegable como a súa versión “viva”. Unha vez completado o rastrexo, as webs arquivadas son visualizadas na OpenWayback, unha aplicación que ofrece ao usuario a posibilidade de seleccionar que versión concreta dunha web determinada desexa consultar.
Inspirándose nas Directrices para a preservación do patrimonio dixital da UNESCO (2003) e na Recomendación da Comisión Europea do 24 de agosto de 2006 sobre a dixitalización e a accesibilidade en liña do material cultural e a conservación dixital, a BNE comezou a capturar páxinas e sitios web españois albergados no dominio .es, así como noutros dominios e subdominios xenéricos (.com, .edu, .gob, .org, .net, etc.).
Desde que o proxecto da BNE arrincou en 2009 ata finais de 2013 levaron a cabo oito recoleccións masivas do dominio .es e dúas recoleccións selectivas. A primeira selectiva tivo como obxectivo cubrir de forma monográfica as Eleccións Xerais do 20 de novembro de 2011 e a segunda ocupouse de reunir recursos españois do ámbito das Humanidades. O resultado destas recoleccións, feitas por Internet Arquive para a BNE, foi trasladado aos servidores da Biblioteca a finais de 2014, grazas a un convenio de colaboración asinado con Rede.es. Rede.es colabora activamente coa Biblioteca no desenvolvemento tecnolóxico e de infraestruturas para a xestión do depósito legal das publicacións en liña.
En 2014 a Biblioteca instalou nunha contorna de probas o paquete de ferramentas de código aberto NetarchiveSuite para rastrexar e arquivar a web. Con este sistema propio a Biblioteca realizou desde entón varias recoleccións selectivas sobre acontecementos relevantes para a historia e a cultura españolas, como a morte de Adolfo Suárez, a abdicación de Juan Carlos I, a proclamación de Felipe VIN, , as eleccións europeas de 2014, as locais e autonómicas de 2015 e as Eleccións Xerais de 2015-2016.
En 2015, e despois dunha longa tramitación, publicouse o Real Decreto 635/2015, do 10 de xullo, polo que se regula o depósito legal das publicacións en liña, que entrou en vigor o 26 de outubro dese ano. Este real decreto apoia a actividade en materia de preservación de publicacións en liña que os centros de conservación levaron a cabo nos últimos anos, en particular en canto aos proxectos de arquivado web.
En 2016 levou a cabo a primeira recolección masiva do dominio .es con recursos propios, que durou 3 meses.
Durante ese ano, ademais, consolidouse a cooperación entre os centros de conservación das Comunidades Autónomas e a BNE para xestionar e construír un depósito legal das publicacións en liña colaborativo. Cada vez son máis os centros que xestionan os seus propias colecciones web, utilizando as ferramentas que a BNE puxo a disposición de todos eles.