Proyecto: Datos enlazados en la BNE

Proyectos de investigación
Nacional
Proyecto: Datos enlazados en la BNE
Imagen
internet web linked data

La colaboración entre BNE y Ontology Engineering Group (OEG) se inicia en 2010, materializándose como Convenio de Colaboración en Octubre de ese mismo año. El primer conjunto de datos enlazados se obtuvo en abril de 2011, y un conjunto muy representativo en diciembre de 2011, en que se presentó la primera versión de datos.bne.es

El proyecto fue acogido con interés por la comunidad científica y profesional. Los resultados iniciales del proyecto fueron presentados como una de las iniciativas de referencia en la sesión del Grupo de Interés sobre Web semántica de IFLA en el 77º Congreso Mundial de Bibliotecas e Información, organizado por IFLA en Puerto Rico, y reseñado y analizado en diversos foros de expertos.

datos.bne.es 2.0

La nueva versión del portal de datos incorpora bastantes novedades y mejoras respecto a su predecesora:

  • Sobre la base de los mismos datos, actualizados a 2014, se ha construido una interfaz visual, con un buscador, que persigue explotar las relaciones de los datos y experimentar con nuevos modos de presentación de datos bibliográficos para el usuario final, incluyendo enriquecimiento con datos de fuentes externas. No obstante, se mantienen las características anteriores de acceso mediante Sparql para desarrolladores y expertos, y las descargas totales de los datos.
  • Se ha ampliado el rango y el número de registros bibliográficos y de autoridad, de modo que en esta versión cubre la práctica totalidad de los materiales de la biblioteca, incluyendo libros antiguos y modernos, manuscritos, música escrita y grabada, videograbaciones, fotografías, dibujos y mapas.
  • Se han incluido los enlaces a ejemplares digitalizados en la Biblioteca Digital Hispánica, de manera que se da a acceso desde el portal a los fondos digitales de la biblioteca.
  • Para desarrolladores y expertos, los datos se encuentran descritos mediante una ontología propia de BNE, que reutiliza propiedades de diferentes vocabularios. 
Fuentes de datos

Los datos se han tomado de los catálogos bibliográficos y de autoridades de la Biblioteca Nacional de España. Se han extraído más de 4 millones de registros de recursos bibliográficos, pertenecientes a monografías modernas, antiguas, recursos electrónicos, manuscritos, publicaciones periódicas, mapas, grabados, fotografías, música impresa, grabaciones sonoras y audiovisuales.

También se han extraído más de 4 millones de registros de autoridad de personas, entidades, congresos, obras, expresiones, materias, nombres geográficos y términos de género/forma que son utilizados en los registros bibliográficos. Ambos conjuntos de registros están codificados originalmente de acuerdo al formato MARC21.

También se han tomado datos de las digitalizaciones de obras existentes en la Biblioteca Digital Hispánica.

Los datos correspondientes a ciertos elementos (autores, materias, obras..) se enriquecen con conexiones a sus equivalentes en otras fuentes de datos. En el caso de autores, se proveen enlaces, si están disponibles, con Library of Congress, Biblioteca Nacional de Alemania, Biblioteca Nacional de Francia, Sudoc, Biblioteca Nacional de Suecia, VIAF e ISNI. Los registros de materias, geográficos y género/forma tienen enlaces a Library of Congress.

Descarga de ficheros

Acceso directo a los datadump de los ficheros en formato RDF

Fecha de extracción: 21 de enero de 2021

Modelo de datos

Los datos contenidos en los registros bibliográficos y de autoridad han de ordenarse siguiendo un modelo, que especifique las unidades básicas que los componen (entidades), las características o atributos que tienen (propiedades), y las relaciones que se establecen entre ellos.

Para poder representar los recursos en RDF, se han utilizado ontologías o modelos consensuados por la comunidad de bibliotecas y propuestos por IFLA, la Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas. Los datos del catálogo de la Biblioteca Nacional de España se han modelado de acuerdo a las entidades y relaciones descritas en el modelo FRBR, publicado por IFLA en 1999. Este modelo conforma un marco teórico de referencia en el que tienen cabida los datos que contienen los catálogos bibliográficos y su relación con las necesidades de los usuarios. En este modelo se enumeran las entidades que aparecen en el universo bibliográfico, sus propiedades y las relaciones que se establecen entre ellos:

Modelo de datos

Figura 1. Esquema básico de entidades y relaciones primarias de FRBR

FRBR ha sido utilizado como modelo conceptual de referencia y como modelo de datos. Provee una descripción completa y ordenada del mundo bibliográfico, permitiendo agrupar objetos comunes, y expresar relaciones entre ellos, permitiendo su relación con otros modelos teóricos de otras disciplinas similares.

RDF MARC

 

Figura 2. Esquema conceptual del uso de los modelos de IFLA 

Las entidades, relaciones y propiedades de estas ontologías han sido publicados por IFLA en RDF en el OMR (Open Metadata Registry) están en estado aprobado, y han sido reconocidos por W3C como estándares válidos de Web Semántica. Paralelamente, y en colaboración con IFLA, se tradujeron al español las labels de dichas clases y propiedades. (http://metadataregistry.org/schemaprop/list/schema_id/5.html)

Para las descripciones bibliográficas propiamente dichas, se ha seguido el modelo y atributos propios de ISBD (International Standard for Bibliographic Description), declarados en RDF en http://metadataregistry.org/schemaprop/list/schema_id/25.html.

No obstante, para un mayor control del vocabulario en la descripción de los objetos, para esta nueva versión de datos.bne.es se ha implementado una ontología propia BNE, conectada con todos estos vocabularios. Además de propiedades de FRBR e ISBD, se han utilizado como referencia otras de otros vocabularios, como RDA, Dublin Core, o Bibo, y, en algún caso, se han descrito propiedades únicas dentro de la ontología.

Los registros MARC21 de autoridades y bibliográficos han sido mapeados con las propiedades de la ontología. Se realizaron diversos mapeos:

  • Un mapeo para, dado un campo y una combinación de subcampos, determinar de qué entidad FRBR se trata (Persona, Entidad Corporativa, Obra, Expresión). Este mapeo se ha realizado desde los registros de autoridad.
  • Un mapeo para deducir relaciones entre entidades, mediante las variaciones en la combinación de campo/subcampos entre dos registros de autoridad, y entre un registro de autoridad y un bibliográfico.
  • Un mapeo, desde cada combinación campo/subcampo, tanto en registros bibliográficos como en autoridades, con las propiedades de la ontología
Tecnologías empleadas

En la transformación de los datos se ha utilizado la herramienta marimba.

Marimba, desarrollada por el Ontology Engineering Group, es una herramienta para bibliotecarios que soporta todo el proceso de generación de RDF a partir de registros MARC 21 y su posterior enlazado tanto a nivel interno (registros bibliográficos, de autoridad, encabezamientos de materia e información de BDH) como a nivel externo con datasets como VIAF o DBpedia. Asimismo, marimba enriquece los datos de origen con datos externos a través de los enlaces generados durante el proceso de enlazado, por ejemplo en datos.bne.es extrae y añade enlaces a fotografías y biografías de autor de DBpedia. La herramienta permite, de un modo sencillo y transparente, utilizar cualquier vocabulario (en este caso la ontología BNE) y simplifica el proceso de asignación de correspondencias entre los vocabularios elegidos y MARC 21. Como resultado de este proceso se han generado alrededor de treinta millones de tripletas en español con datos de gran calidad y valor cultural, incrementando sustancialmente la presencia del idioma español en la nube de datos.

En cuanto al portal de datos, se han utilizado tecnologías abiertas y punteras, basadas en estándares Web que permiten a la solución dar unos tiempos de respuesta óptimos y facilitan la usabilidad tanto para aplicaciones como para usuarios finales. Se ha configurado un motor de búsqueda que permite explotar el modelo de datos (la ontología BNE) para: (1) asignar una relevancia a las distintas entidades en función de sus conexiones con otras entidades, y (2) presentar al usuario resultados relevantes y estructurados de manera que sea más sencillo encontrar la información.

La datos se encuentran alojados en un servidor Virtuoso, al que se accede mediante un terminal de Sparql, con un interface Linked Data construido con la herramienta gratuita Pubby.

Créditos

  • Tanto el portal como la solución marimba que da soporte a todo el sistema han sido diseñados y desarrollados por el Ontology Engineering Group.

    El diseño gráfico, la usabilidad y experiencia de usuario han sido desarrollados por Amélie Viallet.
     

 

Contenidos relacionados
Catálogos
Datos enlazados en la BNE

Proyecto experimental que busca proponer un acercamiento y una exploración de los datos bibliográficos totalmente distinto a los catálogos tradicionales.

Contenidos genéricos
Consultar Datos enlazados BNE

Datos.bne.es propone al usuario un nuevo modo de acercarse a las colecciones y recursos de la BNE.

Documentos / Enlaces de interés