Saltar al menú principal
Saltar al contenido

Información técnica

Proceso de recolección

Las recolecciones de la web (web crawls en inglés) se llevan a cabo con robots de rastreo (web crawlers), que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas. Los crawlers toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente, almacenando de forma ordenada los documentos, vídeos, imágenes, etc. que se ocultan tras cada vínculo. Estos contenidos son indexados posteriormente con el fin de poder realizar búsquedas a texto completo en la colección.

Información para webmasters

Heritrix es un programa de software diseñado por el Internet Archive para el rastreo y captura de páginas y sitios web. Heritrix fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web: el ritmo de rastreo del programa es adaptable y puede ajustarse según parámetros escogidos para tal fin. La versión actual de Heritrix utilizada es la v.3.1.1. Para llevar a cabo todas las acciones relativas a la recolección automática del dominio .es, el robot rastreador se identifica con el nombre archive.org_bot.

Esta identidad es distinta a la del robot que habitualmente se asocia con el Alexa Internet Archive, designado como ia_archiver. El robot recolector está programado para respetar las recomendaciones de los ficheros tipo robots.txt y de las etiquetas robots META tags, según lo especificado en el sitio web robotstxt.org. En este mismo site se proporciona también información sobre aquellos casos excepcionales en los que para las búsquedas se empleará el agente especial de rastreo img+css-bot y la referencia (referrer) mostrará la URL contenida en los registros. Para detener el robot rastreador, se debe especificar el agente mencionado en el párrafo anterior y modificar el fichero robots.txt, como en el ejemplo que figura a continuación:

User-agent: archive.org_bot
Disallow: /

Hay que tener en cuenta que el robot rastreador volverá a comprobar el fichero robots.txt cada 24 horas. Si el rastreo se quiere detener antes, hay que enviar un mensaje al buzón del Internet Archive o al equipo de la Biblioteca Nacional de España encargado del proyecto:

Dirección1

 

Dirección-2