Mi amigo el lanzador de los Baltimore Orioles o El lado oscuro de los datos enlazados
Todo catalogador tiene un ejemplo fetiche, ese registro al que acude siempre que quiere probar alguna funcionalidad nueva del sistema o algún cambio en la política de catalogación. Mi ejemplo fetiche para los registros de autoridad es Cabrera, Daniel (1981-). No es el mejor registro ni el más completo, pero es el registro de Cabrera, Daniel, y Cabrera, Daniel es amigo mío desde hace varios años.
Así que cuando me pidieron que probara la versión beta de datos.bne.es no dudé un segundo y escribí mi Cabrera, Daniel en la caja de búsqueda. Allí aparecieron las 45 obras de las que es autor, y las otras 30 en las que ha participado. Allí aparecieron sus versiones y sus ediciones (expresiones y manifestaciones, hablando en lenguaje FRBR). Y allí apareció la foto de un tipo lanzando una bola de béisbol en un estadio.
En un primer momento dudé de haber hecho bien la búsqueda. Pero sus obras estaban ahí delante, sin posibilidad de confusión. Entonces pensé en llamar a mi amigo y preguntarle por qué me había estado mintiendo todos estos años, por qué cuando le llamaba para jugar al fútbol me decía que no le gustaba el deporte y por qué demonios yo lo recordaba blanco si quedaba claro que era de raza negra.
Dime con quién andas…
Daniel Cabrera en un partido con los Baltimore Orioles (Keith Allison, Flickr)
Afortunadamente, cada registro de datos.bne tiene sus fuentes especificadas, de manera que pude acudir a las mismas para confirmar que todo estaba en orden. Para averiguar más sobre la doble vida de mi amigo iba a tener que acudir a los enlaces, a esos otros conjuntos de datos cuyo Cabrera, Daniel, se ha vinculado al del catálogo de autoridades de la BNE.
Datos.bne obtiene de Wikipedia la foto que ilustra el registro del autor, por lo que mi búsqueda debería empezar ahí. El registro de Daniel Cabrera en Wikipedia es, efectivamente el de un fantástico lanzador de béisbol, dominicano de nacimiento, que hizo carrera en los Baltimore Orioles y ahora apura sus últimos años en activo en la liga japonesa. Y que, por descontado, ni es periodista, ni es español, ni escribe guías de viaje ni, aunque me gustaría que fuera de otra manera, es mi amigo.
Investigando el resto de enlaces pronto vi que el error se había extendido a otros conjuntos de datos y, por tanto, a otros catálogos de autoridades. Seguramente la capacidad de VIAF para integrar tantos conjuntos de datos diferentes esté en el origen de estos errores puntuales, como también lo está en el origen de tantos enlaces correctos. En cualquier caso, el hecho nos hace tomar conciencia de que enlazar datos, incluso aquellos perfectamente construidos y validados en origen, puede dar como resultado nuevos datos no tan válidos.
Una web no tan semántica
Cada día me impresiona más datos.bne. Es un auténtico prodigio haber podido sacar toda esa información enclaustrada durante años en un sistema estanco a la inmensidad del océano web, y hacerlo de una manera ordenada y normalizada. Sin duda se trata de un salto de similares dimensiones, si no mayores, al que supuso la automatización de los catálogos.
Pero a la web semántica, si no es capaz de distinguir a un escritor de guías de viajes en España de un lanzador dominicano en Estados Unidos, le queda mucho para ser realmente semántica. Quizás estos errores puntuales tengan su origen en la especial ambigüedad de esta web semántica, cuyo público son tanto las máquinas como los humanos. En cualquier caso creo que se impone rebajar un poco el discurso etéreo y rimbombante de los nuevos retos, de las infinitas posibilidades y demás abstracciones que llenan prezis y ponencias por todo el mundo, y bajar un poco más al barro, a donde enlazan los datos los que enlazan los datos.
Los datos enlazados han de construirse sobre los dos núcleos semánticos de su propia formulación: los datos y los enlaces. Tanto unos como otros han de ser de calidad. Respecto a los primeros, las bibliotecas tenemos mucho trabajo hecho. Al fin y al cabo, nadie tiene la riqueza, uniformidad y normalización que nosotros le damos a los datos bibliográficos. Ahora, en BNE, también nos esforzamos en conseguir esa misma calidad en los enlaces.
El caso de Daniel Cabrera no deja de ser una rareza en datos.bne. Un garbanzo negro (la confusión de identidades, no mi amigo) dentro de un sistema de información que multiplica sus aplicaciones y utilidades. Pero nos sirve para ilustrar la necesidad de controlar, en la medida de lo posible, el proceso de enlazado tanto o más que el proceso de creación. Igual que el dato enlazado se convierte en un dato global, el dato enlazado de manera errónea se convierte así en un error global.
Tomando el símil paternofilial con el que se suele ilustrar la conectividad de los datos de una institución, queremos que nuestros datos salgan de casa y se independicen, sí. Pero no para vagar por el mundo sin oficio ni beneficio. Queremos que salgan y se relacionen, y no nos importa incluso que a veces anden en malas compañías. Pero, a ser posible, que esas relaciones sean sanas. También, claro, queremos invitar a casa a otros datos. Queremos grandes fiestas de datos bien avenidos que se entienden a la perfección. Pero, a ser posible, que no nos dejen el salón hecho unos zorros.
Etiqueta de Solera Base Ball (Ephemera, Biblioteca Digital Hispánica)
Exacto, pero estamos dando por bueno que los contenidos de los distintos campos son equivalentes (p.e. un campo apellidos vs un campo apellido 1 apellido 2 como ejemplo simple). Incluso sin errores en los mismos registros sería imposible enlazar ¿Cuantos de éstos garbanzos negros no habrá a lo largo de las distintas bases de datos?