Archivo de la web española: aviso para webmasters
Esta página está siendo recolectada automáticamente por la Biblioteca Nacional de España, en virtud del Real Decreto 635/205, de 10 de julio, por el que se regula el depósito legal de las publicaciones en línea, para preservar todos aquellos contenidos que son objeto de depósito legal, tal y como se explicita en el artículo 3 del mencionado real decreto.
Si este proceso afecta al funcionamiento de su web, envíe lo antes posible un mensaje a archivoweb@bne.es.
Información para webmasters
Heritrix es un programa de software diseñado por Internet Archive y que usan la mayoría de instituciones en el mundo que rastrean y archivan páginas y sitios web. Heritrix fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web. El ritmo de rastreo del programa se puede ajustar según determinados parámetros.
La versión de Heritrix que se utiliza actualmente es la 3. Para llevar a cabo todas las acciones relativas a la recolección web, el robot rastreador se identifica con los siguientes atributos:
- userAgentTemplate: Mozilla/5.0 (compatible; bne.es_bot; +@OPERATOR_CONTACT_URL@)
- operatorFrom: archivoweb@bne.es
- operatorContactUrl: Contacto
- organization: Biblioteca Nacional de España
Por el mandato legal que tiene la BNE en materia de depósito legal, el robot ignora los ficheros robots.txt.
Para más información diríjase a archivoweb@bne.es
Recomendaciones para desarrolladores
Con la finalidad de facilitar el archivado de los sitios web, se proponen algunas recomendaciones generales para desarrolladores web:
- Proporciona un sitemap XML actualizado y bien estructurado que incluya todas las páginas importantes del sitio. Esto facilita la indexación y ayuda a los crawlers a encontrar fácilmente el contenido relevante.
- Utiliza enlaces permanentes (URLs amigables) en lugar de parámetros dinámicos. Los crawlers tienden a preferir URL legibles y estructuradas.
- Utiliza adecuadamente las etiquetas de encabezado HTML (h1, h2, h3, etc.) para organizar jerárquicamente el contenido de la página. Esto ayuda a los crawlers a comprender la estructura y relevancia del contenido.
- Asegúrate de que las metaetiquetas de descripción y título sean informativas y relevantes. Esto no solo beneficia a los usuarios, sino que también ayuda a los crawlers a entender el contenido de la página.
- Minimiza el uso de contenido generado dinámicamente a través de JavaScript o AJAX, ya que los crawlers pueden tener dificultades para indexar este tipo de contenido. Si es necesario, proporciona alternativas accesibles.
- Monitoriza y corrige enlaces rotos regularmente. Los crawlers pueden tener dificultades cuando se encuentran con enlaces rotos, lo que afecta negativamente la calidad del archivado.
- Limita el uso de redirecciones, ya que pueden complicar el proceso de crawling y afectar el rendimiento. Las redirecciones innecesarias pueden aumentar el tiempo que lleva indexar el contenido.
- Etiqueta correctamente el contenido multimedia, como imágenes y videos, con descripciones y metadatos relevantes. Esto mejora la comprensión del contenido por parte de los crawlers.
- Actualiza regularmente el contenido del sitio para que las versiones archivadas reflejen con precisión la evolución del contenido a lo largo del tiempo.