Arquivo da Web Española

O Arquivo da Web Española é a colección formada polos sitios web (incluídos blogues, foros, documentos, imaxes, vídeos, etc.) que se colleitan co fin de preservar o patrimonio documental español en Internet e asegurar o acceso ao mesmo.

Debido ao enorme tamaño de Internet e aos medios tecnolóxicos dos que dispomos actualmente, a día de hoxe é imposible aspirar á exhaustividad na arquivado web. Por iso, para tentar gardar a maior cantidade posible de información web, a Biblioteca Nacional de España optou por un modelo mixto que combina recoleccións masivas e selectivas, como fan outras bibliotecas nacionais do mundo.

 

Acceder ao Buscador de URLs colleitadas 

Historia da colección

La recolección de páginas web se realiza con robots rastreadores que recorren las URL seleccionadas previamente y guardan todo lo que encuentran enlazado, con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones web son los archivos web, donde se guarda y se puede consultar lo recolectado.

Na Biblioteca Nacional de España para arquivar a web utilízase NAS (NetarchiveSuite), unha ferramenta de código aberto deseñada pola Biblioteca de Dinamarca, e que actualmente tamén utilizan para este propósito outras bibliotecas nacionais como a de Francia e a de Austria. Para rastrexar incorpora o robot Heritrix, creado por Internet Arquive, primeira organización que empezou a rastrexar e arquivar a web en 1996.

As recoleccións buscan reproducir con detalle o aspecto do sitio e as funcionalidades do mesmo dispoñibles durante a captura, de tal forma que a réplica do sitio web sexa tan navegable como a súa versión “viva”. Unha vez completado o rastrexo, as webs arquivadas son visualizadas na OpenWayback, unha aplicación que ofrece ao usuario a posibilidade de seleccionar que versión concreta dunha web determinada desexa consultar.

Inspirándose nas Directrices para a preservación do patrimonio dixital da UNESCO (2003) e na Recomendación da Comisión Europea do 24 de agosto de 2006 sobre a dixitalización e a accesibilidade en liña do material cultural e a conservación dixital, a BNE comezou a capturar páxinas e sitios web españois albergados no dominio .es, así como noutros dominios e subdominios xenéricos (.com, .edu, .gob, .org, .net, etc.).

Desde que o proxecto da BNE arrincou en 2009 ata finais de 2013 levaron a cabo oito recoleccións masivas do dominio .es e dúas recoleccións selectivas. A primeira selectiva tivo como obxectivo cubrir de forma monográfica as Eleccións Xerais do 20 de novembro de 2011 e a segunda ocupouse de reunir recursos españois do ámbito das Humanidades. O resultado destas recoleccións, feitas por Internet Arquive para a BNE, foi trasladado aos servidores da Biblioteca a finais de 2014, grazas a un convenio de colaboración asinado con Rede.es. Rede.es colabora activamente coa Biblioteca no desenvolvemento tecnolóxico e de infraestruturas para a xestión do depósito legal das publicacións en liña.

En 2014 a Biblioteca instalou nunha contorna de probas o paquete de ferramentas de código aberto NetarchiveSuite para rastrexar e arquivar a web. Con este sistema propio a Biblioteca realizou desde entón varias recoleccións selectivas sobre acontecementos relevantes para a historia e a cultura españolas, como a morte de Adolfo Suárez, a abdicación de Juan Carlos I, a proclamación de Felipe VIN, , as eleccións europeas de 2014, as locais e autonómicas de 2015 e as Eleccións Xerais de 2015-2016.

En 2015, e despois dunha longa tramitación, publicouse o Real Decreto 635/2015, do 10 de xullo, polo que se regula o depósito legal das publicacións en liña, que entrou en vigor o 26 de outubro dese ano. Este real decreto apoia a actividade en materia de preservación de publicacións en liña que os centros de conservación levaron a cabo nos últimos anos, en particular en canto aos proxectos de arquivado web.

En 2016 levou a cabo a primeira recolección masiva do dominio .es con recursos propios, que durou 3 meses.
Durante ese ano, ademais, consolidouse a cooperación entre os centros de conservación das Comunidades Autónomas e a BNE para xestionar e construír un depósito legal das publicacións en liña colaborativo. Cada vez son máis os centros que xestionan os seus propias colecciones web, utilizando as ferramentas que a BNE puxo a disposición de todos eles.

    Subcolecciones

    Subcolecciones
    internet web linked data
    Masivas

    As recoleccións masivas rastrexan un dominio completo e ofrecen unha foto estática do panorama da web nun momento determinado.

    Temáticas Archivo web
    Temáticas

    Para capturar una selección de recursos sobre un tema o tipo de documento.

    Comunidades Autónomas Archivo Web
    Comunidades Autónomas

    As Comunidades Autónomas teñen designados centros de conservación que seleccionan sitios web para enriquecer o patrimonio documental en liña sobre as súas rexións.

    Eventos Archivo web
    Eventos destacados

    Selección de sitios web sobre acontecemento de especial relevancia para a sociedade española.

    Elecciones Archivo web
    Eleccións

    En colaboración cos CC. AA. selecciónanse sitios web e redes sociais sobre os principais procesos electorais españois desde 2015.

    Riesgo Web española
    Risco

    Recoleccións de emerxencia que se realizan no caso de risco de desaparición dun sitio web.