Usar el aprendizaje de la máquina y el procesamiento de lenguaje natural para analizar las transcripciones del chat bibliotecario de referencia
Using machine learning and natural language processing to analyze library chat reference transcripts
Yongming Wang
Information technology and libraries, ISSN 2163-5226, Vol. 41, n. 3, 2022
El uso de la inteligencia artificial (IA) y el aprendizaje de la máquina (AM) se ha convertido en un estándar tecnológico para predecir el futuro. Recientemente, la comunidad bibliotecaria ha comenzado a buscar maneras de mejorar sus servicios aplicando la AI y el AM. Este estudio usa el método de procesamiento del lenguaje natural (PLM) a través del AM para analizar las transcripciones del chat de una biblioteca académica durante ocho años. El modelo de AM intenta clasificar las preguntas del chat en las categorías de preguntas de referencia o no-referencia. El propósito es predecir la categoría en futuras preguntas. El PLM es un campo multidisciplinar que involucra la lingüística, la ciencia computacional y el AM. Al usar algoritmos computacionales, el PLM intenta construir un modelo de AM que se aplica a una gran cantidad de datos para ayudar a hacer predicciones y tomar decisiones. En general, hay dos tipos de AM: supervisado y no supervisado. En el primero, el conjunto de datos que alimenta el modelo es etiquetado por anticipado para clasificar los datos o predecir los resultados fielmente. Por su parte, el aprendizaje no supervisado es un tipo de algoritmo que aprende patrones de datos sin etiquetar. Tanto el AM como el PLM conllevan una serie de pasos generales: recolección de datos, procesamiento de datos, extracción de características, vectorización del texto, construcción de modelos e implementación. Para este proyecto AM/PLM, los datos sin tratar se obtuvieron de las transcripciones del repositorio de la biblioteca de 20014 a 2021, un total de 8.000 transacciones descargadas. Para su realización, se usaron dos modelos populares: “bosques aleatorios” y “potenciación del gradiente”. El primer modelo construye muchos árboles de decisión y los computa al mismo tiempo. La decisión final se toma por la mayoría de los votos. Es más eficiente y rápido. El modelo de potenciación del gradiente construye un árbol cada vez, y cada uno ayuda a hacer correcciones y se optimiza por el sistema de penalización y recompensa. Los resultados muestran que los dos modelos tienen un buen desempeño, situándose por encima del 90% de efectividad, aunque el modelo de bosques aleatorios tiene mejore resultados. Un uso potencial de este modelo es implementarlo como un accesorio o un medio de enriquecimiento para la aplicación de chat en línea. El modelo puede funcionar como filtro para dirigir las preguntas ya sea al bibliotecario de referencia o a otros empleados de la biblioteca.