Saltar al menú principal
Saltar al contenido

Información técnica

Proceso de recolección

Las recolecciones de la web (web crawls en inglés) se llevan a cabo con robots de rastreo (web crawlers), que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas. Los crawlers toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente, almacenando de forma ordenada los documentos, vídeos, imágenes, etc. que se ocultan tras cada vínculo. Estos contenidos son indexados posteriormente con el fin de poder realizar búsquedas sobre ellos.

Información para webmasters

Heritrix es un programa de software diseñado por Internet Archive y que usan la mayoría de instituciones en el mundo que rastrean y archivan páginas y sitios web. Heritrix fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web. El ritmo de rastreo del programa se puede ajustar según determinados parámetros.
La versión de Heritrix que se utiliza actualmente es la 3. Para llevar a cabo todas las acciones relativas a la recolección web, el robot rastreador se identifica con los siguientes atributos:

Por el mandato legal que tiene la BNE en materia de depósito legal, el robot ignora los ficheros robots.txt.

Para más información diríjase a archivoweb@bne.es