Bootstrapping Web Archive Collections of Stories from Micro-collections in Social Media
Alexander C. Nwala
Bulletin of the IEEE Technical Committee on Digital Libraries, ISSN 1937-7266, vol. 15, n. 1, 2019
Las colecciones de archivos web creadas por humanos son caras de crear, pero proporcionan una fuente fundamental de información para los investigadores que estudian sucesos históricos. Las colecciones seleccionadas a manos de páginas web acerca de eventos compartidas por los usuarios en redes sociales ofrecen la oportunidad de crear colecciones archivadas con pocos recursos. Investigamos si las colecciones generadas automática o semiautomáticamente desde redes sociales como Storify, Reddit, Twitter y Wikipedia son similares a las creadas por Archive-It.
Comparar colecciones es una tarea desafiante, ya que hay muchas posibles medidas que usar como base para la comparación de colecciones: ¿cómo limitar la lista a métricas que reflejen si dos colecciones son similares o diferentes? Identificamos fuentes de redes sociales que podían proporcionar colecciones similares a las creadas por humanos en Archive-It en dos pasos principales. Primero, exploramos la comparación de colecciones y definimos un conjunto de siete medidas (Collection Characterizing Suite - CCS) para describir las colecciones individuales. Después, calculamos las distancias entre los vectores CSS de las colecciones Archive-It y los vectores CCS de las colecciones generadas automática y semiautomáticamente desde fuentes de redes sociales, para identificar colecciones más similares a las de Archive-It. La comparación de distancia de CCS fue realizada para tres temas, el virus Ébola, el huracán Harvey y el tiroteo de 2016 en el Pulse Nightclub. Los resultados muestran que las fuentes de redes sociales como Reddit, Storify, Twitter y Wikipedia producen colecciones que son similares a las de Archive-It. Consecuentemente, los conservadores pueden considerar extraer URIs de estas fuentes para comenzar o aumentar colecciones sobre varios temas nuevos.
Traducción del resumen de la propia publicación