Massives

Les recol·leccions massives tenen per objecte rastrejar un domini complet, sense exclusions ni selecció. El robot recol·lector, al que se li proporciona la llista de dominis registrats, els rastreja tots i arxiva el contingut que troba al seu pas, d'acord amb una configuració predeterminada.

En les recol·leccions massives no hi ha una selecció per part de bibliotecaris, la qual cosa elimina qualsevol filtre, biaix o subjectivitat.

L'Arxiu de la Web Espanyola guarda actualment els quatre dominis nacionals: .és, .gal, .cat, .eus. Ho fa una vegada a l'any amb la col·laboració dels diferents centres de conservació autonòmics. Es realitza, a més, un guardat massiu a l'any de publicacions seriades en lliure accés en Internet.

La consulta dels continguts guardats en les recol·leccions massives és només possible a través d'URL.

 

Llocs web arxivats 

 

Recol·lecció del domini .és

La recol·lecció del domini .és es realitza anualment des de 2009 i pretén obtenir un panorama global de la web del país cada any.

Entre 2009 i 2013 es van dur a terme 8 recol·leccions massives del domini .és a través de la infraestructura d'Internet Arxivi. Aquestes recol·leccions suposen la representació més antiga dels llocs web conservats en l'Arxiu de la Web Espanyola.

En 2014, la Biblioteca Nacional d'Espanya adquireix la seva pròpia infraestructura de recol·lecció i després d'un període de prova en 2016 executa per primera vegada la recol·lecció massiva del domini .és amb mitjans propis. Per realitzar aquesta recol·lecció Red.es extreu prèviament i subministra el llistat de dominis sobre la base del llistat complet de tots els dominis registrats en ESNIC. Aquesta primera recol·lecció va suposar el guardat de 800.000 dominis, amb un límit de grandària de 100 MB amb un total de 28 TB d'informació.

Actualment la massiva del domini .és es realitza de manera anual, i guarda entorn de/entorn de 2.000.000 de dominis, amb un límit de grandària de 150 MB i emmagatzemant entorn de/entorn de 70 TB d'informació, aconseguint guardar més del 80% dels dominis de forma completa.

Recol·lecció del domini .gal

La recol·lecció del domini .gal es realitza anualment des de 2017 en col·laboració amb la Biblioteca de Galícia, que subministra el llistat de dominis gallecs que extreu de l'entitat PuntoGal.

La primera recol·lecció guarda més de 4.000 dominis, amb 150 MB de profunditat i un total de 140 GB de memòria emmagatzemats. Actualment, recull més de 6.000 dominis i 280 GB d'informació.

L'Arxiu de la Web Espanyola guarda  captures del primer lloc web que va tenir aquest domini: http://www.domini.gal

Recol·lecció del domini .cat

En 2022 la Biblioteca Nacional d'Espanya realitza la primera recol·lecció del domini .cat en col·laboració amb la Biblioteca de Catalunya, que subministra el llistat de dominis catalans extrets de la Fundació puntCat.

La primera recol·lecció del domini .cat captura 44.000 dominis, amb un límit de 150 MB de grandària per domini i aconsegueix descarregar el 77 % d'ells de manera completa, aconseguit els 2,5 TB d'informació emmagatzemada.

Recol·lecció .eus

En 2023 la Biblioteca Nacional d'Espanya realitza la primera recol·lecció del domini .eus en col·laboració amb la Biblioteca Digital d'Euskadi, que subministra el llistat de dominis a recol·lectar bascos extrets de l'associació PuntuEUS, que manté aquest domini.

La primera recol·lecció massiva abasta més de 13.000 dominis i 750 GB d'informació, amb un límit de grandària de 150 MB per domini.

Recol·lecció massiva de publicacions seriades en accés obert

Les seriades electròniques, especialment les revistes, són sense cap dubte, un dels continguts més efímers en Internet. Tots els anys es creen i desapareixen publicacions seriades, moltes d'elles sense un equivalent imprès, per la qual cosa la seva desaparició és definitiva i la seva recuperació impossible.

L'Arxiu de la Web Espanyola realitza, de manera massiva i sistemàtica, la recol·lecció dels llocs web d'aquestes publicacions seriades electròniques en lliure accés, inclosos els exemplars digitals que aquests contenen, perquè es conservin i siguin accessibles en el futur tot i que desapareguin de la web viva.

La BNE com a Centre Nacional de l'ISSN incorpora al seu catàleg totes les publicacions seriades electròniques espanyoles que reben aquest nombre internacional i és d'aquí d'on extreu les URL i dominis per lazar aquesta recol·lecció massiva.

El primer guardat de seriades es va realitzar en 2020 amb més de 8.000 URL de seriades que abastaven més de 3.700 domini i amb un límit de grandària d'un 1 GB per domini. Actualment es guarden més de 10.000 llocs web de seriades, pertanyents a 7.000 dominis superant els 5 TB d'informació emmagatzemada.