Informazio teknikoa
Bilketa prozesua
Web bilketak (web crawls, ingelesez) robot miatzaileekin (web crawlers) egiten dira; hauek URL zehatz batzuetatik (ingelesez seeds izenekoak, hau da, haziak) abiatu eta webgunean zehar aritzen dira. Crawler-ek abiapuntu gisa hartzen dituzte URL horiek bilketa egiteko, eta identifikatzen duten edozein orri edo webgune automatikoki gordetzen doaz; bidean aurkitzen dituzten hiperesteka guztiak hartu eta URL zerrendara gehitzen dituzte, honela horiek ere miatuko dituzte. URL guztietan ordenan gordeko dituzte esteka bakoitzean dauden dokumentuak, bideoak, irudiak, etab. Gero eduki horiek indexatzen dira, testu osoan bilaketak egin ahal izateko.
Web-arduradunentzako informazioa
Heritrix Internet Archive-k diseinatutako software programa bat da, web orriak eta webguneak arakatzeko munduko erakunde gehienek erabiltzen dutena. Heritrix bilketek web orriaren ohiko funtzionamenduan duten eragin aztoratzailea murrizteko diseinatu zen. Programaren arakatze-erritmoa zenbait parametroren arabera egokitu daiteke.
Heritrix-en hirugarren bertsioa erabiltzen da gaur egun. Web-bilketen inguruko ekintza guztiak burutzeko, robot miatzailea honako ikur hauekin identifikatzen da:
- userAgentTemplate: Mozilla/5.0 (bateragarria; bne.es_bot; +@OPERATOR_CONTACT_URL@)
- operatorFrom: archivoweb@bne.es
- operatorContactUrl: http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html
- organization: Biblioteca Nacional de España
BNEk duen lege-gordailuaren gaineko lege-agindua dela eta, robotak robots.txt fitxategiak baztertzen ditu.
Informazio gehiago jasotzeko, jarri harremanetan archivoweb@bne.es



