“Buenas noches, buenos días, buena suerte”. Aplicar modelos estadísticos de temas a las transcripciones de chats de referencia
“Good Night, Good Day, Good Luck”. Applying Topic Modeling to Chat Reference Transcripts
Megan Ozeran, Piper Martin
Information Technology and Libraries, ISSN 2163-5226, Vol. 38, N. 2, 2019, p. 49-57
La biblioteca de la University of Illinois implantó un servicio de chat de referencia en 2001. Las consultas en mostrador son más numerosas, pero las virtuales son más complejas. Este servicio se ha sometido a un continuo proceso de mejora y evaluación, además de servir como base para valorar su efectividad y planificar la formación laboral. Durante muchos años se han utilizado las transcripciones del chat para entrenar a nuevos asistentes. El análisis del chat también incluye el número de interacciones, chats por hora, duración o complejidad de las preguntas, lo que ayuda a mejorar la toma de decisiones sobre su desarrollo.
Sin embargo, hasta ahora no se había analizado su historial para detectar los temas más habituales. Estos datos podrían ofrecer información útil más allá de las preguntas más frecuentes. Por ejemplo, si aumentan las consultas sobre citas bibliográficas, se podría considerar necesario ofrecer un curso sobre la materia, y muestras de confusión respecto a un servicio pueden indicar que no está bien explicado en la web. Este artículo explica los resultados de un proyecto piloto que analizó las estadísticas ofrecidas por el chat. El objetivo era detectar los temas más habituales en un semestre y si los datos obtenidos podían ser útiles para mejorar las preguntas más frecuentes, programar cursos o hacer más clara la web de la biblioteca. Después de repasar la bibliografía, se implementaron cuatro modelos de algoritmos estadísticos usando el código Python: (1) latent Dirichlet allocation (LDA), (2) phrase-LDA (LDA aplicado a frases en lugar de a palabras), (3) biterm topic modeling (BTM), (4) Dirichlet mixture modeling (DMM), y (5) non-negative matrix factorization (NMF).El análisis de los diez temas principales de cada algoritmo indicó que LDA, pashe-LDA y NMF eran los más prometedores para futuros análisis de grandes conjuntos de datos (para tres semestres o más) y para examinar diferentes facetas de los datos (semestre de primavera frente al otoño, diferente hora del día, solo la parte de la conversación del usuario). Con estos valiosos resultados se demostró que todavía había mucho camino por explorar, como conocer si hay grandes diferencias entre los semestres, o si los usuarios usan unos términos diferentes a los de los bibliotecarios, lo que llevaría a cambiar el lenguaje de la web para reducir la confusión. Este proyecto ha demostrado que el modelo estadístico es una manera de emplear métodos automatizados para analizar el chat de referencia. Considerar la frecuencia con la que los usuarios utilizan el chat es importante para que las bibliotecas exploren y asuman los métodos que las ayuden a evaluar y mejorar sus servicios.
Resumen elaborado por Antonio Rodríguez Vela