Masivas

As recoleccións masivas teñen por obxecto rastrexar un dominio completo, sen exclusións nin selección. O robot recolector, ao que se lle proporciona a lista de dominios rexistrados, rastréxaos todos e arquiva o contido que atopa ao seu paso, de acordo con unha configuración predeterminada.

Nas recoleccións masivas non hai unha selección por parte de bibliotecarios, o que elimina calquera filtro, rumbo ou subxectividade.

O Arquivo da Web Española garda actualmente o catro dominios nacionais: .es, .gal, .cat, .eus. Faino unha vez ao ano coa colaboración dos diferentes centros de conservación autonómicos. Realízase, ademais, un gardado masivo ao ano de publicacións seriadas en libre acceso en Internet.

A consulta dos contidos gardados nas recoleccións masivas é só posible a través de URL.

 

Sitios web arquivados 

 

Recolección do dominio .es

A recolección do dominio .es realízase anualmente desde 2009 e pretende obter un panorama global da web do país cada ano.

Entre 2009 e 2013 levaron a cabo 8 recoleccións masivas do dominio .es a través da infraestrutura de Internet Arquive. Estas recoleccións supoñen a representación máis antiga dos sitios web conservados no Arquivo da Web Española.

En 2014, a Biblioteca Nacional de España adquire a súa propia infraestrutura de recolección e tras un período de proba en 2016 executa por primeira vez a recolección masiva do dominio .es con medios propios. Para realizar esta recolección Rede.es extrae previamente e fornece a listaxe de dominios sobre a base da listaxe completa de todos os dominios rexistrados en ESNIC. Esta primeira recolección supuxo o gardado de 800.000 dominios, cun límite de tamaño de 100 MB cun total de 28 TB de información.

Actualmente a masiva do dominio .es realízase de maneira anual, e garda ao redor de 2.000.000 de dominios, cun límite de tamaño de 150 MB e almacenando ao redor de 70 TB de información, conseguindo gardar máis do 80% dos dominios de forma completa.

Recolección do dominio .gal

A recolección do dominio .gal realízase anualmente desde 2017 en colaboración coa Biblioteca de Galicia, que fornece a listaxe de dominios galegos que extrae da entidade PuntoGal.

A primeira recolección garda máis de 4.000 dominios, con 150 MB de profundidade e un total de 140 GB de memoria almacenados. Actualmente, recolle máis de 6.000 dominios e 280 GB de información.

O Arquivo da Web Española garda  capturas do primeiro sitio web que tivo este dominio: http://www.dominio.gal

Recolección do dominio .cat

En 2022 a Biblioteca Nacional de España realiza a primeira recolección do dominio .cat en colaboración coa Biblioteca de Cataluña, que fornece a listaxe de dominios cataláns extraídos da Fundación puntCat.

A primeira recolección do dominio .cat captura 44.000 dominios, cun límite de 150 MB de tamaño por dominio e consegue descargar o 77 % deles de maneira completa, alcanzado os 2,5 TB de información almacenada.

Recolección .eus

En 2023 a Biblioteca Nacional de España realiza a primeira recolección do dominio .eus en colaboración coa Biblioteca Dixital de Euskadi, que fornece a listaxe de dominios a colleitar vascos extraídos da asociación PuntuEUS, que mantén este dominio.

A primeira recolección masiva abarca máis de 13.000 dominios e 750 GB de información, cun límite de tamaño de 150 MB por dominio.

Recolección masiva de publicacións seriadas en acceso aberto

As seriadas electrónicas, especialmente as revistas, son sen dúbida, un dos contidos máis efémeros en Internet. Todos os anos créanse e desaparecen publicacións seriadas, moitas delas sen un equivalente impreso, polo que a súa desaparición é definitiva e a súa recuperación imposible.

O Arquivo da Web Española realiza, de maneira masiva e sistemática, a recolección dos sitios web destas publicacións seriadas electrónicas en libre acceso, incluídos os exemplares dixitais que estes conteñen, para que se conserven e sexan accesibles no futuro aínda cando desaparezan da web viva.

A BNE como Centro Nacional do ISSN incorpora ao seu catálogo todas as publicacións seriadas electrónicas españolas que reciben este número internacional e é de aquí de onde extrae o URL e dominios para lazar esta recolección masiva.

O primeiro gardado de seriadas realizouse en 2020 con máis de 8.000 URL de seriadas que abarcaban máis de 3.700 dominio e cun límite de tamaño dun 1 GB por dominio. Actualmente gárdanse máis de 10.000 sitios web de seriadas, pertencentes a 7.000 dominios superando os 5 TB de información almacenada.