Annif y Finto AI: desarrollo e implementación de la indexación temática automatizada

Annif y Finto AI: desarrollo e implementación de la indexación temática automatizada
1 de Junio de 2022

Annif and Finto AI: Developing and Implementing Automated Subject Indexing

 

Osma Suominen, Juho Inkinen, Mona Lehtinen

JLIS.it, ISSN 20381026-5224, v. 13, n.1, 2022, p. 265–282

La indexación manual de documentos para el acceso por materias es un proceso que requiere mucho trabajo y que puede automatizarse con la tecnología de IA. Los algoritmos de clasificación de textos deben entrenarse y probarse con ejemplos de documentos indexados, que pueden obtenerse de las bases de datos bibliográficas y las colecciones digitales existentes. La Biblioteca Nacional de Finlandia ha creado Annif

, un conjunto de herramientas de código abierto para la indexación y clasificación automatizada de materias. Annif es multilingüe, independiente del vocabulario de indización y modular. Integra muchos algoritmos de clasificación de textos, como Maui, fastText, Omikuji y un modelo de red neuronal basado en TensorFlow. Los mejores resultados suelen obtenerse combinando varios algoritmos. Se han utilizado muchos corpus de documentos para el entrenamiento y la evaluación de Annif. Encontrar los algoritmos y las configuraciones que dan la mejor calidad es un esfuerzo continuo. En mayo de 2020, lanzamos Finto AI, un servicio de indexación temática automatizada basado en Annif. Ofrece un sencillo formulario web para obtener sugerencias de temas para el texto. La funcionalidad también está disponible como una API REST. Muchos depósitos de documentos y el sistema de catalogación de publicaciones electrónicas de la Biblioteca Nacional de Finlandia lo utilizan para integrar la indexación temática semiautomática en sus flujos de trabajo de metadatos. En el futuro, vamos a ampliar Annif con más algoritmos y nuevas funcionalidades, y a integrar Finto AI con otros flujos de trabajo de gestión de metadatos.

https://www.jlis.it/index.php/jlis/article/view/437

Traducción del resumen de la propia publicación

Comentarios

Texto sin formato

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.