Archivo de la web española

Proyectos
Nacional
Archivo de la web española
Imagen
recurso internet web

El objetivo del Archivo de la Web Española es conservar y facilitar el acceso futuro a todos los contenidos españoles publicados en Internet (webs, blogs, foros, listas de distribución, documentos, imágenes, vídeos, etc.). Para ello, la Biblioteca captura páginas y sitios web españoles albergados en el dominio .es, así como en otros dominios y subdominios genéricos (.com; .edu; .gob; .org; .net; .biz, etc.).

Proceso de recolección

Las recolecciones de la web (web crawls en inglés) se llevan a cabo con robots de rastreo (web crawlers), que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas. Los crawlers toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente, almacenando de forma ordenada los documentos, vídeos, imágenes, etc. que se ocultan tras cada vínculo. Estos contenidos son indexados posteriormente con el fin de poder realizar búsquedas sobre ellos.

Información para webmasters

Heritrix es un programa de software diseñado por Internet Archive y que usan la mayoría de instituciones en el mundo que rastrean y archivan páginas y sitios web. Heritrix fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web. El ritmo de rastreo del programa se puede ajustar según determinados parámetros.
La versión de Heritrix que se utiliza actualmente es la 3. Para llevar a cabo todas las acciones relativas a la recolección web, el robot rastreador se identifica con los siguientes atributos:

  • userAgentTemplate: Mozilla/5.0 (compatible; bne.es_bot; +@OPERATOR_CONTACT_URL@)
  • operatorFrom: archivoweb@bne.es
  • operatorContactUrl: Contacto
  • organization: Biblioteca Nacional de España

Por el mandato legal que tiene la BNE en materia de depósito legal, el robot ignora los ficheros robots.txt.

Para más información diríjase a archivoweb@bne.es

Contenidos relacionados
Colecciones
Archivo de la web española

Formada por los sitios web que se recolectan con el fin de preservar el patrimonio documental español en Internet