Un análisis de BERT (NLP) para la indización asistida de materias para el Proyecto Gutenberg
An Analysis of BERT (NLP) for Assisted Subject Indexing for Project Gutenberg
Cataloging & classification quarterly, ISSN 1544-4554, Vol. 60, n. 8, 2022, p. 807-835
En 2018 el equipo de Google AI Language creó y publicó BERT (Bidirectional Encoder Representations from Transformers) una técnica de aprendizaje automático basado en transformadores para el entrenamiento previo del procesamiento del lenguaje natural (PNL). Google introdujo BERT en su motor de búsqueda en 2019 y aplicó BERT a las consultas de búsquedas en inglés que mejoraron, especialmente los resultados de las consultas complicadas que dependen del contexto. BERT ha hecho contribuciones significativas al PNL porque es más capaz de comprender el contexto de las palabras y ha mejorado ciertas tareas del lenguaje natural. El trabajo pionero de BERT sobre contextualización ha llevado a muchos estudiosos a investigar más a fondo los modelos de herramientas relacionados con BERT. Durante décadas, en las bibliotecas las herramientas de clasificación e indización de materias han incluido vocabularios controlados como los encabezamientos de materias de la Library of Congress (LCSH, en sus siglas en inglés), junto con las tablas de clasificación como la clasificación de la Library of Congress (LCC), para la búsqueda por materias y clasificación en catálogos en línea o en plataformas de descubrimiento. Con el rápido incremento de los recursos digitales, la indización temática automatizada ha sido un tema de investigación importante en los últimos años. Este estudio exploró varias colecciones digitales y decidió utilizar el Proyecto Gutenberg como principal plataforma para una prueba BERT/PNL para indización automática de materias. La colección de libros electrónicos de este Proyecto es una biblioteca de más de 60.000 libros electrónicos gratuitos, disponibles en texto completo en diez formatos de datos para descargar por lotes y probar, además, cada libro tiene metadatos bibliográficos con etiquetas de subclase LCC y encabezamientos de materia LC. El objetivo de la investigación es saber si los modelos BERT (AI/PNL contextual) podrían ayudar en la indización automática por materias de la colección Gutenberg indicando encabezamientos de materias LC precisos. El resultado de la prueba mostro que las herramientas BERT recomendaron encabezamientos de materia de la LC correctos, con altos índices de precisión. También se preguntaron cómo podían diseñar un proceso que aprovechase los modelos BERT para sugerir encabezamientos de materias LC. Se vio que se pueden aprovechar las incrustaciones de BERT para realizar búsquedas de elementos afines con el fin de encontrar libros relacionados para recomendaciones de encabezamientos de materia. Para evaluar la eficacia y el rendimiento de los modelos del proceso utilizaron la precisión, la recuperación y la puntuación F1 como métricas cuantitativas y se evaluaron las recomendaciones de encabezamientos de materias de la LC con un anotador humano. Los autores del estudio encontraron que la clasificación de la LC y los encabezamientos de materia incluidos en los metadatos bibliográficos de los libros digitalizados apoyaban la evolución de los resultados de las pruebas de la herramienta BERT. Las pruebas se centraron en la indización automática por materias en el ámbito contextual y los encabezamientos de materia de la LC permiten evaluar los resultados de forma más precisa y objetiva. Aunque tuvieron que realizar tareas adicionales para hacerlos funcionar con condiciones definidas. Los principales obstáculos son las complejas estructuras/sintaxis de las subdivisiones de LCSH y los niveles de subclases de LCC.
https://www.tandfonline.com/doi/abs/10.1080/01639374.2022.2138666