Indización por materias automatizada: una visión general
Automated subject indexing: an overview
Koraljka Golub
Cataloging & classification quarterly, ISSN 1544-4554, Vol. 59, n. 8, 2021, p. 702-719
Debido al incremento del volumen documental, bibliotecas de todo el mundo están explorando sistemas automáticos y semiautomáticos de indización por materias. Esto ayuda a sostener los objetivos bibliográficos, al enriquecimiento de los metadatos y a establecer más conexiones entre documentos de varias colecciones, mejorando la recuperación y el acceso a la información.
Este artículo busca proporcionar una visión general de los principios básicos de los sistemas más usados para la indización por materias automatizada, centrándose en la indización asignada a sistemas de organización del conocimiento (KOSs), tales como sistemas de encabezamiento de materia, tesauros de recuperación de la información o sistemas de clasificación. La indización por materia implica tres pasos: determinar la materia de un contenido; hacer un análisis conceptual para decidir qué aspectos del contendido deben representarse; y traducir estos conceptos a KOS. La indización por materias automatizada está basada pues en un proceso basado en la máquina que implica que la participación humana sea reemplazada por técnicas basadas en la lingüística computacional y en las estadísticas. La primera parte del proceso resultará en la representación de un documento que comprenda una lista de componentes extractados. El siguiente paso supone que a cada componente se le asigne un número que indique el peso que tiene dicho componente en el tema del documento. La estrategia más común para la aplicación de la indización automatizada es la aplicación de algoritmos supervisados de aprendizaje de máquina. Esto requiere la existencia de un relativamente amplio número de documentos de entrenamiento para cada término o clase de componente indizado. En los años 90 hubo varios proyectos que tuvieron como objetivo clasificaciones de materia, especialmente la Library of Congress Classification (LCC) y la Dewey Decimal Classification (DDC). Después se realizaron proyectos en diferentes países. Otro sistema fueron los tesauros para la recuperación de la información, como los programas Inspec y Engineering Index (Ei). Estos métodos se aplicaron a diferentes campos, como las matemáticas o la agricultura. La indización automatizada todavía no se ha adoptado de manera extensa en los sistemas de información de las bibliotecas. Existen soluciones comerciales, pero tienen limitaciones como el coste o la falta de mantenimiento para los KOSs. Las alternativas de acceso abierto son desarrollos más o menos específicos de algoritmos individuales que dependen del contexto y pueden no ser fácilmente interoperables con otros sistemas. Al indizar, las personas cometen errores que pueden estar relacionados con la exhaustividad (asignación de demasiadas o de demasiadas pocas materias), especificidad u omisión. Una estrategia global implica la revisión de expertos para su evaluación.
https://www.tandfonline.com/doi/full/10.1080/01639374.2021.2012311