Using the Robots.txt and Robots Meta tags to implement online copyright and a related amendment
Chyan Yang, Hsien-Jyh Liao
Library Hi Tech, Vol. 28, n. 1, 2010
Los robots de búsqueda (en inglés software robots, spiders, crawlers, web robots, etc.) son programas que atraviesan la web para recopilar datos estructurados de acuerdo con el protocolo HTTP. Los motores de búsqueda, como Google, utilizan estos robots para indizar la web, aunque también se pueden utilizar para otros propósitos. Quienes emplean estos robots lo hacen en un proceso de 3 pasos: 1)Acceso: los robots recopilan la información; 2) Proceso: los robots ofrecen los datos recopilados para un proceso posterior, por ejemplo, de indización; 3) Distribución: Se proporcionan los datos procesados a otros usuarios, como en el caso de los motores de búsqueda. Este último paso es opcional. En ocasiones, los webmasters no desean que los robots de búsqueda accedan a sus sitios web por dos razones: 1) Los robots pueden alterar las operaciones diarias del sitio web sobrecargando el servidor; 2) La utilización de los datos recopilados puede conllevar agravios contra las leyes de copyright. Actualmente, el método más utilizado por los webmasters para evitar el acceso de los robots a los sitios web son los llamados Robots.txt y Robots Meta Tags. El Robots.txt es un fichero que debe residir en el directorio raiz del sitio web. A veces, los creadores de páginas web no administran su propio sitio web (por ejemplo, un profesor de una universidad puede crear su página web personal como una pequeña parte del sitio web). En estos casos, los creadores de la página web no tienen autorización para acceder al directorio raiz, por lo que, en lugar del Robots.txt pueden utilizar las Robots Meta Tags, que se incluyen dentro de los códigos de la página. La función originaria de los Robost.txt y Robots Meta Tags era simplemente la de incluir de forma voluntaria un código que avisaba a los robots, pero nadie era castigado por infringir la política de acceso. En los últimos años han tenido lugar diversas sentencias judiciales, especialmente en EEUU, que han sentado un precedente según el cual el uso o no uso de estos recursos puede conllevar ciertas implicaciones legales. A grandes rasgos, estas implicaciones legales suponen que si un webmaster adopta la directiva "Disallow" o la etiqueta "Noindex", está expresando explícitamente su deseo de excluir a los robots. Si, pese a ello, los robots acceden a ese sitio web, estarán infringiendo el copyright del webmaster. Por el contrario, si un webmaster no usa conscientemente estos recursos, supondrá que está otorgando a los robots una "licencia implícita" para acceder al sitio web. Los Robots.txt y las Robots Meta tags presentan, no obstante, algunas deficiencias que el autor del artículo sugiere subsanar con algunas sugerencias.
Resumen elaborado por : Mayte Blasco Bermejo