Web Archive Profiling for Efficient Memento Aggregation

Web Archive Profiling for Efficient Memento Aggregation
22 de Enero de 2018

Sawood Alam

 

Bulletin of the IEEE Technical Committee on Digital Libraries, ISSN 1937-7266, vol. 14, n. 2, 2017

Con la proliferación de archivos web públicos, cada vez es más importante resumir mejor sus contenidos, tanto para entender sus inmensos almacenamientos como para ayudar a guiar las peticiones del Memento Aggregator (un servicio de agregación archivística que usa un marco Memento). Para ahorrar recursos, Memento Aggregator debería obtener solo los archivos que probablemente tengan una copia en Uniform Resource Identifier (URI). Al usar el Crawl Index (CDX) se pueden generar perfiles de los archivos que resumen su contenido y pueden ser usados para guiar la petición de la URI de Memento Aggregator.

Trabajos previos en la creación de rangos de perfiles usando URis totales (no falsos positivos, sino con perfiles amplios) para usar solo dominios de alto nivel (TLDs) (perfiles más pequeños, pero con muchos falsos positivos). Este trabajo explora estrategias entre estos dos extremos y algunas otras dimensiones de perfiles como tiempo e idioma. En mis primeros experimentos con varias políticas de perfiles basadas en URI, tuve éxito en identificar alrededor del 78% de los URIs que no estaban presentes en el archivo con menos de un 1% de coste relativo comparado con el perfil de conocimiento completo y un 94% URIs con menos de un 10% de coste relativo sin ningún falso negativo. En otro experimento encontré que podemos guiar correctamente el 80% de las peticiones manteniendo alrededor de un 0.9 de memoria descubriendo solo el 10% del almacenamiento del archivo y generando unos costes de perfil de menos de un 1% del perfil de conocimiento completo. Quiero ampliar los fundamentos de mis primeros trabajos incluyendo tiempo y perfiles de tipo-constante y analizar la compensación entre precisión y memoria de guía ente los archivos mientras se utilizan varios tipos de perfiles separadamente o juntos. También quiero generar perfiles de archivos con la ayuda de muestras y búsquedas a texto completo. Este marco de perfilado y análisis permitirá crear servicios que predicen y ordenan los archivos en los que los deseados Mementos de un URI solicitado probablemente estén presentes.

Traducción del resumen de la propia publicación

Comentarios

Texto sin formato

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.