NewsEye
Proyecto de la Unión Europea incluido en el programa de investigación e innovación Horizonte 2020. Además de permitir el acceso en línea a los documentos, con las conocidas facilidades para realizar búsquedas textuales, la digitalización permite llevar a cabo operaciones de análisis automatizado que no habrían sido posibles en la biblioteca tradicional, en particular en el caso de los periódicos digitalizados: análisis de redes, de patrones y tendencias, de discurso, topic modelling (detección de la repetición de combinaciones de palabras dentro de un artículo para establecer la probable temática del mismo), data mining, análisis cuantitativos, identificación de patrones lingüísticos, estudio de fenómenos distribuidos geográficamente y, en resumen, cualquier aproximación que haga uso de herramientas digitales sobre el caudal de información representada en los documentos digitalizados.
NewsEye reúne diversas de estas iniciativas basadas en el tratamiento de los periódicos digitalizados, desde el proceso del OCR para obtener textos de calidad hasta la aplicación de NER (Named Entity Recognition), clasificación automática o NLP (Natural Language Processing). Estas herramientas permitirán enriquecer los datos bibliográficos de los periódicos facilitando la separación de artículos y el reconocimiento de texto completo a nivel de artículo, así como llevar a cabo un análisis semántico avanzado del texto y el desarrollo de métodos para encontrar automáticamente temas, tendencias, puntos de vista, etc.