Experiencia de clasificación automática de documentos sobre Ciencias de la Vida y Biomedicina obtenidos del Web of Science
Luis Roberto, Polo Bautista, Israel Polo Bautista
Investigación Bibliotecológica, ISSN: 0187-358X, Vol. 36, n. 93, 2022, p. 13-32
Este artículo habla de cómo la clasificación de los materiales, siempre ha sido una tarea ardua para los profesionales de la documentación y de la información. En un principio, los trabajadores tenían que hacer manualmente esta tarea a través de áreas temáticas y sistemas alfanuméricos de clasificación, que conllevaban crear palabras claves y encabezamientos para facilitar la búsqueda y recuperación de la información, evidentemente, esto obligaba a los profesionales a conocer y entender la materia con la que estaban realizando esta tarea. Con la llegada de las nuevas tecnologías y por lo tanto de los nuevos soportes, creció de forma masiva la documentación digital a clasificar y, por ende, no se podía realizar todo ello de forma manual, por eso, se crearon métodos para organizar y clasificar estos documentos de manera automática a través de diversos algoritmos matemáticos computacionales, facilitando también la entrada de toda clase de materiales y elaborando servicios especializados. En este trabajo de investigación, se estudia un algoritmo en concreto, el Multinomial de Naïve Bayes o NB multinomial, que es un modelo de aprendizaje automático probabilístico, que se encarga de clasificar automáticamente varias áreas, pero la autora se decantó por la de Ciencias de la Vida y Biomedicina de la Web Of Science porque es un área de investigación poco utilizada en este tipo de aplicaciones computacionales, y porque es el campo de conocimiento que tiene más categorías (76) dentro de las áreas de investigación. A lo largo de la investigación se muestra distintas tablas y fórmulas matemáticas que nos ayudan a comprender en profundidad el algoritmo estudiado, para evaluar el rendimiento general, estudia una serie de métricas: la de exactitud, exhaustividad, precisión y valor-F. Para finalizar, los autores afirman la eficacia de este algoritmo para clasificar automáticamente la documentación, y aseguran, que puede ser utilizado como alternativa a los métodos tradicionales de clasificación, aportando los beneficios que eso conlleva: ampliar la catalogación de grandes cantidades de documentos, facilitar la tarea a los trabajadores, y proporcionar servicios especializados.