1023-Texto Del Artículo (Necesario) - 5187-1-10-20181121

Revista Española de Documentación Científica
41(4), octubre-diciembre 2018, e217

ISSN-L:0210-0614. https://doi.org/10.3989/redc.2018.4.1535
ESTUDIOS / RESEARCH STUDIES
La publicación en Linked Data de registros bibliográficos:

modelo e implementación
Jose A. Senso*, Wenceslao Arroyo Machado*

*Universidad de Granada, Departamento de Información y Comunicación
Correo-e:[email protected] | ORCID iD: https://orcid.org/0000-0002-6553-6522
Correo-e: [email protected] | ORCID iD: https://orcid.org/0000-0001-9437-8757
Recibido: 06-11-2017; 2ª versión: 14-02-2018; Aceptado: 16-02-2018.
Cómo citar este artículo/Citation: Senso, J. A.; Arroyo Machado, W. (2018). La publicación en Linked Data de registros
bibliográficos: modelo e implementación. Revista Española de Documentación Científica, 41 (4): e217. https://doi.org/10.3989/
redc.2018.4.1535
Resumen: Las bibliotecas se encuentran muy vinculadas a Linked Data (LD) debido al alto nivel de estructuración de
sus datos, aunque los proyectos relacionados con ello son elaborados principalmente por grandes bibliotecas. En el
presente trabajo se ha determinado su estado de la cuestión, analizando algunos de los proyectos referentes, ciclos de
vida y herramientas que intervienen durante el proceso, estableciendo tras ello una metodología y llevando acabo su
implementación al completo, convirtiendo registros bibliográficos en Linked Data, enriqueciéndolos por medio de otros
conjuntos de datos y poniéndolos al alcance de todo el mundo. De este modo, se ha realizado un estudio de caso usando
para ello un conjunto de registros extraídos de la Biblioteca Universitaria de Granada con el fin de conocer, de primera
mano, algunos de los problemas que se puede encontrar cualquier centro que desee convertir sus registros a Linked Data
sin necesidad de tener que cambiar de sistema de automatización de bibliotecas.
Palabras clave: Linked Data; Linked Open Data; Open Data; registros bibliográficos; MARC 21; Bibframe; conver-
sión; migración.
Publishing bibliographic records on Linked Data: model and implementation
Abstract: Libraries are closely related to Linked Data (LD) due to the high level of structuring of their data, although
the projects related to it are elaborated mainly by large libraries. In the present work, the state of the question has been
determined, analyzing some of the referring projects, life cycles and tools that intervene during the process, establishing
a methodology and carrying out its full implementation, converting bibliographic records into Linked Data, enriching
them by means of other data sets and making them available to everyone. In this way, a case study has been carried out
using a set of bibliographic records from the library of the University of Granada in order to know, firsthand, some of the
problems that can be found by any Information Unit that wishes to convert its records to LD without having to change
their library automation system.
Keywords: Linked Data; linked Open Data; Open Data; bibliographic records; MARC 21; Bibframe; conversion; migration.
Copyright: © 2018 CSIC. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia de uso y distribución
Creative Commons Reconocimiento 4.0 Internacional (CC BY 4.0).
1
Jose A. Senso y Wenceslao Arroyo Machado
1. INTRODUCCIÓN terconectar descripciones, lo cierto es que con el

paso del tiempo se ha demostrado que no son una
Desde que la Biblioteca del Congreso de los Es-
vía válida para lograr la interoperabilidad deseada.
tados Unidos anunciase, en 2011, su intención de
Principalmente porque muchos de los problemas
profundizar en entornos abiertos y compartidos en
antes comentados no se terminan de solucionar, y
el trabajo bibliotecario hasta la actualidad (Marcum,
es fácil encontrarse con una complicada gestión en
2011), las bibliotecas están viendo cómo se están
el control de autoridades o de materias (Stumpf,
transformando la mayoría de herramientas, lengua-
2003; Marais, 2009; Wolverton, 2005).
jes y sistemas que emplean para realizar su trabajo
y que hasta ahora parecían inamovibles. Sin duda El objetivo de lograr la interoperabilidad que per-
alguna es envidiable observar la capacidad que tie- mita compartir datos, recursos, en definitiva, es-
ne el mundo de las bibliotecas para adaptarse a los fuerzos, pasa inexorablemente por dos principios:
nuevos avances si se contempla que estos pueden no abandonar la web, ya que es el entorno ideal
repercutir directamente en un mejor servicio y una (está normalizado, ya existen multitud de proyec-
ampliación en los productos que ofrecen. tos a los que es posible sumarse, el usuario se ha
acostumbrado a trabajar principalmente ahí…, los
Evidentemente, esta adaptación lleva un tiempo motivos son infinitos) y aprovecharse de las bases
–más o menos largo- ya que estos procesos no sólo tecnológicas y filosóficas que de ella emanan. Por
deben madurar desde el punto de vista tecnológi- ese motivo, un mecanismo que facilite la publica-
co, sino que además deben calar en los profesiona- ción de datos de manera normalizada y sencilla,
les que los deben llevar a la práctica. Pero parece y que permita seguir formando parte de la web,
claro que los conceptos de datos abiertos, Linked huyendo de formatos propietarios, parece que no
Data y RDF son la base (tanto filosófica como téc- solo es un deseo, sino una realidad. Y eso es preci-
nica) de los modelos, lenguajes y mecanismos para samente lo que propone Linked Data.
describir y catalogar en el futuro.
En este sentido cabría la opción de pensar en
Entendemos esta última actividad, la cataloga- el formato MARC como posible solución. Este for-
ción, como el paradigma del trabajo bibliotecario mato, ahora denostado por muchos e incluso dado
(Snow, 2011; Carbonero y Dolendo, 2013). Cata- por muerto (Tennant, 2002; Beastall, 2016), ha
logar es un proceso complejo y arduo que, si se servido durante muchos años como el principal
hace de manera concienzuda, requiere de mucho mecanismo para el intercambio de registros biblio-
esfuerzo y profesionalidad por parte de las per- gráficos en los centros de todo el mundo. Pero lo
sonas encargadas de llevarlo a cabo. Sin embar- cierto es que arrastra una serie de problemas tan-
go, en la actualidad, el producto de ese trabajo se to de índole técnico, perfectamente descritos por
guarda en catálogos que, inexorablemente, pasan Tennant (2002), entre otros, como de filosofía, que
a formar parte de la Internet invisible o profun- lo convierten en inviable en este nuevo entorno. Y
da. Esto implica que sea necesario que alguien se es que una cosa es intercambiar registros y otra
moleste en realizar una consulta determinada en datos. Aunque pudiera parecer lo mismo, lo cierto
una interfaz concreta para acceder a ese registro es que un registro bibliográfico está constituido por
tan bien catalogado. Por si además fuera poco, la innumerables datos (autor, título, lugar, editorial,
búsqueda en esa interfaz está plagada de conti- fecha…) que vinculados con diferentes datos de
nuos obstáculos (control de autoridades, norma- otros datasets podrían aportar información indivi-
lización de materias, operadores booleanos) que dual de cada uno de ellos, ofreciendo al usuario un
el usuario medio desconoce y que, posiblemente, sinfín de nueva información (dónde nació ese au-
tampoco tenga la obligación de conocer. Si bien es tor, historia local de ese lugar, datos coetáneos…)
cierto que en la actualidad los OPACs han logrado y, a la biblioteca, la posibilidad de ampliar sus hori-
implementar opciones muy interesantes, como las zontes más allá del catálogo. Y eso es algo que con
herramientas de descubrimiento, estas también el formato MARC no se puede hacer.
evidencian problemas recurrentes (Ávila-García y
Si conseguimos ofrecer los datos de las bibliote-
otros, 2015). Además, el hecho de que ese regis-
cas de manera abierta, vinculada y vinculable es
tro entre a formar parte de un catálogo concreto
posible que se puedan reutilizar, aumentando el
–generalmente en formato propietario- impide que
valor de las bibliotecas, ya que tendrían mucho que
se pueda compartir de una forma limpia, transpa-
ofrecer puesto que tienen mucho camino andado.
rente y automática, obstaculizando el intercambio
No debemos olvidar que el ámbito bibliotecario,
de información y limitando su acceso a un número
archivero y museístico está muy acostumbrado a
reducido de personas.
realizar su trabajo en un entorno normalizado. El
Si hace unos años los catálogos colectivos apa- papel que pueden desempeñar este tipo de cen-
rentaban ser una posible opción que permitiera in- tros de información es fundamental, por el uso de
2 Rev. Esp. Doc. Cient., 41(4), octubre-diciembre 2018, e217. ISSN-L: 0210-0614. https://doi.org/10.3989/redc.2018.4.1535
La publicación en Linked Data de registros bibliográficos: modelo e implementación
programas y la calidad del trabajo que realizan sus La importancia de Linked Data dentro del ámbito
profesionales (Peset y otros, 2011). Los documen- de las bibliotecas se incrementó en 2004, cuan-
tos y metadatos que estas instituciones tienen en- do el Consorcio WWW recomendó que éstas publi-
tre sus manos alcanzan un gran nivel de estructu- casen sus datos utilizando tecnologías de la Web
ración, suponiendo, en especial las bibliotecas, un Semántica para incrementar su impacto digital y
terreno idóneo para iniciativas de este tipo (Sulé utilidad social (Hallo y otros, 2016). En 2010 surge
y otros, 2016), siendo muchos los trabajos sobre el W3C Library Linked Data Incubator Group para
proyectos basados en esta idea (Deliot, 2014; Ha- “ayudar a aumentar la interoperabilidad global de
llo y otros, 2014; Taylor y otros, 2013; Vila-Suero datos de las bibliotecas en la web”, que concluyó
y otros, 2012), así como los que analizan el estado un año más tarde (Bermès y otros, 2011), coinci-
de la cuestión de Linked Data en el mundo de las diendo con el anuncio de la Biblioteca del Congreso
bibliotecas (MacKenzie y otros, 2017; Torre-Bas- de Bibframe (Bibliographic Framework), planteado
tida y otros, 2015; Peset y otros, 2011). Si mira- como la evolución del formato MARC 21 a la Web
mos con una perspectiva más amplia, lo que puede Semántica y el Linked Data (Kroeger, 2013).
aportar el uso de Linked Data está perfectamente
Desde entonces, cada vez son más los proyec-
definido tanto dentro de nuestra área, con reposi-
tos realizados en el entorno de las bibliotecas con
torios (Subirats y otros, 2012), museos (Wang y
Linked Data como principal protagonista. La Bi-
otros, 2008) y archivos (Hidalgo-Delgado y otros,
blioteca Nacional de España, la British Library, La
2016), como en otras disciplinas como la educa-
Bibliothèque National de Francia, Europeana o la
ción, la medicina y un largo etcétera.
propia Biblioteca del Congreso son constantes que
Emplear este mecanismo para vincular los da- aparecen en todos los estados de la cuestión (Ha-
tos que aparecen en los registros bibliográficos con llo y otros, 2016; Papadakis y otros, 2015; Torre-
otros datasets con el fin de interconectar informa- Bastida y otros, 2015; Wenz, 2013; Peset y otros,
ción aporta, tanto a los usuarios como a las biblio- 2011), así como en estudios de caso (Deliot, 2014;
tecas, una mejora en la visibilidad (del dato y de la Hallo y otros, 2014; Vila-Suero y otros, 2012;
institución que lo ofrece), permite reaprovechar los Wenz, 2013).
datos de los registros publicados y añadir nuevos,
La mayoría de estos proyectos tienen dos cons-
establece vínculos con otros servicios y favorece
tantes. Por un lado, son llevados a cabo por gran-
el desarrollo de mashups, además de facilitar el
des instituciones que, en muchas ocasiones, han
modelado de “cosas de interés” relacionadas con
necesitado de la ayuda de un tercero (empresa o
un recurso bibliográfico, como personas, lugares,
universidad) para finalizar con éxito sus implemen-
eventos y temas. Y todo eso sin afectar a los mo-
taciones. Por otro, no se puede observar una meto-
delos de la fuente de datos.
dología clara y uniforme para la transformación de
Los principios sobre los que se sustenta el sis- los registros bibliográficos a Linked Data.
tema de publicación denominado Linked Data se
Los motivos que justifican la primera constante
establecieron en 2010 (Berners-Lee, 2010) sobre
parecen evidentes: la mayoría de instituciones has-
un mecanismo que aporta hasta un máximo de 5
ta ahora mencionadas carecen del potencial (eco-
estrellas en función a cómo se compartan los da-
nómico, tecnológico y/o humano) para realizar una
tos. Una estrella se asigna si tan solo se publican
tarea tan especializada y que se adentra tan clara-
los datos con licencia abierta, independientemente
mente dentro del entorno informático. La segunda
del formato; las dos estrellas las tienen los conjun-
constante requiere tener en cuenta más ítems a va-
tos de datos (también llamados datasets) que se
lorar, y todos ellos se pueden aglutinar en las fuen-
publiquen como datos estructurados, aunque fue-
tes de datos. De su calidad, licencias, vocabularios
ran propietarios; tres estrellas significa que se em-
y ontologías empleados, datasets usados para su
plean formatos no propietarios; se añade una es-
enriquecimiento a través del enlazado, su método
trella más si a ese dataset se le incluyen URIs que
de publicación y las tecnologías empleadas durante
permiten identificar y apuntar hacia esos datos, y
este proceso –entre otros aspectos- dependen va-
las cinco estrellas se consiguen si los datos que se
riables que pueden hacer cambiar el transcurrir de
ofrecen ya están enlazados a otros, con el fin de
un proyecto concreto. Todo esto hace que puedan
que tengan un contexto más claro. En 2014 surgió
ser múltiples los caminos a elegir, impidiendo esta-
una propuesta que ampliaba hasta siete estrellas
blecer una única metodología.
este método de puntuar la calidad de los datos que
se comparten (Hyvönen y otros, 2014), teniendo Tantas opciones ofrecen ciclos de vida diferentes,
en cuenta si en el dataset se añadían vocabularios que se suelen definir sobre la base de objetivos y
y si, además, se valoraban otros criterios relacio- necesidades a cubrir. No obstante en la mayoría
nados con los datos aportados. de los casos es posible encontrar un común deno-
Rev. Esp. Doc. Cient., 41(4), octubre-diciembre 2018, e217. ISSN-L: 0210-0614. https://doi.org/10.3989/redc.2018.4.1535 3
minador, que viene determinado por aquellas fa- las posibles deficiencias que este método pueda
ses que se repiten, y que podríamos entender que tener, así como determinar las principales dificul-
forman parte del ciclo de vida común a la mayoría tades que conlleva este proceso de transformación.
de proyectos Linked Data y Linked Open Data que
tengan como objetivo tanto la publicación de datos 2. MATERIALES Y MÉTODOS
como su posterior enriquecimiento.
Teniendo en cuenta el doble objetivo del trabajo,
En un entorno ideal, lo lógico sería que el propio por un lado, crear un modelo de transformación
programa de automatización de bibliotecas fuera de registros bibliográficos, y, por otro, la creación
capaz de publicar los datos catalogados en Linked de un piloto que permita averiguar si ese modelo
Data. De esa manera, este proceso sería total- es factible, es necesario aplicar diferentes meto-
mente transparente y actualizado conforme se dologías. Así, para la primera fase, se procederá
pone al día el catálogo de la biblioteca con sus in- a un estudio bibliográfico con el fin de determinar
corporaciones, eliminaciones, etc. Es más, lo ideal el estado de la cuestión de Linked Data en biblio-
sería que en el mismo proceso de catalogación tecas, prestando especial atención a la forma en
se pudiera escoger qué datos del registro con el la que han procedido los principales proyectos a
que se está trabajo son susceptibles de ser vin- nivel internacional.
culados con otros datasets, ya precargados en el
sistema, y que desde él se realizara ese vínculo. Una vez realizada esa fase se obtendrá tanto
Sin embargo, en la actualidad esto no sucede, ya una visión global de cómo se han desarrollado
que son muy pocos los sistemas integrados que dichos proyectos como los elementos necesarios
permiten realizar este tipo de tareas o similares. para realizar una propuesta metodológica. Los au-
El mercado ofrece pocas soluciones, entre las que tores son plenamente conscientes de que uno de
destacan la española DigiBIB (con variantes para los factores que determinan, en mayor o menor
archivos, DigiArch, y para museos, DigiMus), de manera, el éxito de una metodología se encuen-
la empresa Digibis, y el servicio Innovative Linked tra en que existan suficientes herramientas en el
Data de la norteamericana Innovative Interfaces mercado que faciliten su implementación. Por ese
Inc.; que se ofrece como un extra a sus progra- motivo entendemos necesario realizar un estudio
mas Sierra y Polaris. Posiblemente en los nuevos de las principales aplicaciones que se puedan em-
requisitos funcionales para este tipo de progra- plear en cada una de las etapas del ciclo de vida
mas deberían incluirse varios ítems que valoraran de ese conjunto de datos, con el fin de saber si
positivamente aquel software que fuera capaz de esta propuesta puede ser asumible por cualquier
realizar estas funciones. institución que desee aplicarla.
Esto nos lleva a un escenario poco homogéneo, Una vez diseñado el modelo de conversión de
que obliga a procesar todos los registros bibliográ- registros, se procederá a realizar una pequeña im-
ficos en un hábitat diferente del programa de au- plementación, a modo de piloto, que permita de-
tomatización, y en entornos tan diferentes como terminar tanto la viabilidad de la propuesta como
bibliotecas, datasets y sistemas de gestión biblio- los principales problemas encontrados durante su
tecaria existan. De esa forma es fácil entender que puesta en marcha, así como las posibles soluciones
no se pueda contar con una metodología única y que se puedan plantear.
clara que pueda adaptase, de manera flexible, a
Con el fin de trabajar dentro de un entorno lo
todas las bibliotecas que quieran compartir sus
más cercano posible a la realidad, y conocer así
datos a través de Linked Data. Esa es la principal
las dificultades más comunes a las que se pueda
motivación de este trabajo: establecer un modelo
enfrentar cualquier centro que desee realizar este
que ayude a las bibliotecas a definir un flujo de
proceso, se han empleado un conjunto de registros
trabajo que facilite el proceso de publicar en Linked
bibliográficos procedentes de la Biblioteca General
Data los registros bibliográficos que almacenan en
de la Universidad de Granada, empleando para el
sus catálogos automatizados. Por lo tanto esta-
trabajo inicial todos los formatos de exportación
blecemos como objetivo principal el elaborar una
que ofrece el software de automatización que allí
metodología que sirva para convertir registros dis-
se emplea. De esa manera, además, se obtendrá
ponibles en cualquier biblioteca, y en cualquier for-
información fidedigna sobre cuál es el mejor punto
mato, en Linked Data, enriqueciéndolos por medio
de partida del dataset. Dado que no se trata de un
de otros conjuntos de datos con el fin de ponerlos
trabajo exhaustivo, se ha optado por escoger los
a disposición de la comunidad.
datos de autor, título, publicación, materia e ISBN
Tras la elaboración de dicho modelo de transfor- de cada registro. Los autores entienden que este
mación se procederá a su implementación en un subconjunto aporta la información necesaria como
conjunto de datos pequeño, con el fin de observar para determinar la idoneidad del método, además
de suministrar los datos necesarios que se requie- con el software Marimba (Vila-Suero y Gómez-
ren para conocer la fiabilidad del sistema. Emplear Pérez, 2013), permitiendo el descubrimiento
otros campos no añadiría información complemen- de enlaces hacia otros datasets por medio
taria a la que aporten los escogidos. de otros programas, como Silk (Volz y otros,
2009). La publicación y consulta de sus datos
Dada la gran cantidad de registros con los que
es posible gracias al repositorio RDF Virtuoso
cuenta esta biblioteca, se optó por trabajar con
(OpenLink, 2015) y la interfaz Pubby (Cyga-
una muestra (nunca inferior a los 1.000 registros)
niak y Bizer, 2011). El ciclo de vida de los re-
y centrados en una única temática. De esa ma-
gistros está compuesto por siete pasos, donde
nera sería más sencillo apreciar las posibles des-
destaca principalmente la fase de limpieza de
viaciones que se produjeran durante el proceso de
datos y el desarrollo de aplicaciones (Vila-Sue-
conversión. Dado que en esta fase del trabajo no
se ha realizado aún ningún estudio sobre las he- ro y otros, 2012).
rramientas disponibles, los autores entienden que • La British Library (BL) cuenta con la British Na-
no deberían de tener predisposición alguna a este tional Bibliography en Linked Open Data (The
respecto, por lo que salvo el uso de aplicaciones British Library, 2014). Los registros no los
específicas para el trabajo con ficheros bibliográfi- transforma de MARC21 a RDF, sino que prime-
cos (MarcEdit o MARC Editor), será la fase de eva- ro identifica “objetos de interes” (incluyendo
luación de herramientas la que determinara el con- conceptos y abstracciones) y los declara por
junto de ellas con las que llevar a cabo el proceso medio de URIs propias. Tras eso, se describen
de transformación de registros. las clases y sus relaciones entre sí, para lo cual
definieron sus propias clases y propiedades,
3. DISEÑO DEL MODELO documentadas en el British Library Terms RDF
Schema (Deliot, 2014). Los datos enlazados de
Como ya se ha comentado con anterioridad, la
la BL siguen dos modelos diferenciados, ya que
mayoría de proyectos de ámbito internacional se
uno es para libros (British Library data model
han centrado en el ámbito de las grandes bibliote-
for books) y otro para publicaciones seriadas
cas. Y aunque es cierto que existen aportaciones de
(Brisith Library data model for serials).
otro tipo de instituciones, tal y como lo demuestra
el trabajo del Library Linked Data Incubator Group • La Bibliothèque Nationale de France ha traba-
(Isaac y otros, 2011), la mayoría de ellos no apor- jado con diferentes bases de datos vinculando
tan la gran cantidad de información adicional que metadados de documentos en papel con su
sí ofrecen los Centros Nacionales y que facilitan versión digitalizada. El producto final se puede
mucho la labor de conocer cómo se ha realizado el visualizar desde su portal de datos (Bibliothè-
proceso de conversión. que National de France, 2014). Aquellas bases
Si se analizan las diferentes aportaciones enfo- de datos que eran no interoperables las han
cadas al análisis de la situación actual de Linked transformado en datos estructurados e inter-
Data en bibliotecas (Hallo y otros, 2016; Papadakis cambiables empleando principalmente RDF. A
y otros, 2015; Torre-Bastida y otros, 2015; Peset los recursos que han ido generando se les ha
y otros, 2011), se observa que todas ellas coinci- asignado un identificador permanente deno-
den al hablar de un conjunto de proyectos que se minado ARK (Archival Resource Key) (Wenz,
pueden considerar paradigmáticos dentro de este 2013).
entorno. De esta manera, un análisis de los pro- • La reciente remodelación de la página de da-
cesos llevados a cabo en la Biblioteca Nacional de tos de Europeana (Europeana, 2017) permite
España, la Brisith Library, la Bibliothèque Nationa- acceder a gran cantidad de información espe-
le de France, Europeana y la Library of Congress cífica, tanto de su modelo de datos EDM (Eu-
aporta el conocimiento necesario para saber cuáles ropeana Data Model), como de los procesos
son las metodologías más empleadas en la actua- llevados a cabo para su transformación en
lidad para llevar a cabo la conversión de registros Linked Data. EDM incluye conexiones a fuen-
bibliográficos a Linked Data. Entre las principales tes externas y reutiliza elementos procedentes
características de dichos proyectos destacamos:
de vocabularios ya establecidos,como Dublin
• La Biblioteca Nacional de España ofrece, a tra- Core, OAI-ORE, Skos y CIDOC-CRM. Los datos
vés de su portal (Biblioteca Nacional de Espa- que se pueden encontrar para cada clase de
ña, 2016a), acceso al catálogo bibliográfico y recurso son la propia representación del obje-
de autoridades en Linked Open Data. Para ello to, sus datos descriptivos, los datos referen-
se han transformado registros desde MARC21 tes al proveedor y los metadatos descriptivos
a RDF por medio de un proceso automatizado asignados tanto por éste como por Europeana.
• Posiblemente, el proyecto que más vínculos 4. CASO DE ESTUDIO

establece con otros datasets sea el capita-
Con el fin de conocer si las fases propuestas son
neado por la Biblioteca del Congreso (Library
viables se ha realizado un estudio piloto sobre un
of Congress, 2016b). En realidad, el hecho
conjunto de registros bibliográficos. A continuación
de poder contar con Bibframe como modelo
de datos de descripción bibliográfica facilitó se muestra su desarrollo dentro de cada una de las
mucho el proceso de convertir los registros 6 fases del modelo propuesto.
MARC 21 de los que disponía esta biblioteca
(Library of Congress, 2012). 4.1. Determinar los datos
Tras el análisis exhaustivo de los pasos que han Teniendo en cuenta que la mayoría de bibliotecas
seguido estas bibliotecas, junto al estudio de la hoja que desearan emplear este método contarían con
de ruta establecida en el proyecto BIBLOW (Mac- registros ya creados, se partió de la idea de trabajar
Kenzie y otros, 2017) y considerando los métodos con un conjunto de datos homogéneo, y por ello
empleados en otros trabajos (Hallo y otros, 2014), se optó por extraerlos de la misma fuente. Por ese
consideramos que tenemos la información suficien- motivo se emplearon los almacenados en el Catá-
te como para proponer un modelo uniforme que logo General de la Biblioteca de la Universidad de
permita realizar la transformación de registros bi- Granada (BUGR en adelante). También se consideró
bliográficos a Linked Data independientemente del que no era necesario trabajar con todos los campos
software o del entorno en el que estos se encuen- que ofrecía cada registro. Primero, porque el objeti-
tren. Dicho modelo se muestra en la tabla I. vo de probar el modelo se podía llevar a cabo con un
Al mismo tiempo se ha obtenido una visión global conjunto de datos suficientemente representativo;
de los programas más utilizados y que se podrían segundo, porque se partía del hecho de que los pro-
emplear en el desarrollo y puesta en marcha de cada blemas significativos aparecerían al gestionar esos
una de esas etapas. Sin el ánimo de ser un listado campos, y los siguientes serían meras repeticiones;
exhaustivo, nos hemos centrado en la agrupación y tercero, porque de esa manera se facilitaba la eta-
de herramientas open source o gratuitas que más pa de limpieza de datos, lo que agilizaría su poste-
se emplean en la actualidad. De esa forma aumenta rior carga en el sistema. Por esos motivos se optó
la posibilidad de que este modelo pueda ser llevado por emplear los datos de autor, título, publicación,
a la práctica. La tabla II muestra dicho listado. materias e ISBN. En una primera fase de este es-
Tabla I. Propuesta de metodología para publicar registros bibliográficos como Linked Data
Etapa Descripción Tareas

a. Identificar y analizar los datos y fuente de
datos (software, formato, base de datos…)
1. Determinar Identificación y descripción de los datos
b. Identificar su licencia
c. Determinar una licencia
2. Limpiar Almacenamiento y corrección de los datos a. Data curation
a. Seleccionar los vocabularios
Desarrollo de un vocabulario para describir
3. Modelar b. Creación de mapa
los datos en formato RDF
c. Asignar URIs
d. Seleccionar las tecnologías para la generación
de RDF
4. Generar Generación de los recursos RDF
e. Transformar los datos fuente en RDF
f. Validarlo
a. Buscar datasets relevantes
Conectar el dataset a otros que lo b. Descubrir relaciones

5. Enlazar
enriquezca c. Enlazar
d. Verificar los enlaces
a. Escoger el formato y plataforma
6. Publicar Publicación del dataset b. Publicar el dataset
c. Publicar sus metadatos
Tabla II. Herramientas más empleadas en cada uno de los procesos

Almacenamiento y gestión de datos
Nombre URL Descripción Licencia Plataforma
Apache Hadopp http://hadoop.apache. Framework de software Apache License 2.0 Multiplataforma
org/ open-source para
el almacenamiento
distribuido de conjuntos
de datos muy grandes
en clusters de
ordenadores.
Cloudera http://www.cloudera. Distribución de Apache Apache License 2.0 Linux
Distributed com orientada al mundo
Hadoop (CDH) empresarial
MongoDB https://www.mongodb. Base de datos NoSQL GNU AGPL 3.0 Multiplataforma
com
Extracción y limpieza de datos
Spoon - http://community. Herramienta Apache License 2.0 Multiplataforma
Pentaho’s Data pentaho.com/projects/ open-source para
Integration data-integration/ la extracción,
transformación,
transporte y carga de
datos (ETL)
Virtuoso https://virtuoso. Se trata de un GNU General Public Multiplataforma
Sponger openlinksw.com/ componente middleware License 2.0
dataspace/doc/dav/wiki/ de Virtuoso Open-
Main/VirtSponger Source (VOS) que
permite importar datos
en diversos formatos
(CSV, RSS, vCard…) y
transformarlos en RDF
D2RQ http://d2rq.org Sistema open-source Apache License 2.0 Multiplataforma
que permite acceder
a bases de datos
relacionales como grafos
RDF virtuales, pudiendo
lanzar consultas SPARQL
en bases de datos no
RDF, así como exportar
la base de datos en RDF
OpenRefine http://openrefine.org Herramienta ETL BSD Multiplataforma
(Extraer, Transformar
y Cargar) enfocada
a la limpieza,
transformación,
exploración y enlazado
de datos procedentes de
diversos formatos. Sus
funciones se pueden
expandir con el uso de
extensiones, destacando
RDF Refine extension o
DBpedia extension
GraphDB Free http://ontotext.com Se trata de un Licencia libre tipo Multiplataforma

Edition repositorio semántico, RDBMS
un sistema de base
de datos NoSQL que
permite almacenar,
consultar y gestionar
datos estructurados.
Utiliza ontologías
para razonar
automáticamente sobre
los datos.
Modelización
Protégé http://protege.stanford. Herramienta open- FreeBSD Multiplataforma
edu/ source que permite
la construcción de
modelos de dominio y
aplicaciones basadas
en el conocimiento con
ontologías. Cuenta con
una versión web y otra de
escritorio. Es compatible
con la última versión del
Lenguaje de ontologías
OWL 2 y especificaciones
RDF de la World Wide
Web Consortium (W3C)
CmapTools http://cmap. Versión de CmapTools, - Multiplataforma
Ontology Editor ihmc.us/coe/test/ herramienta para los
(COE) v401ReleaseNotes.html# mapas conceptuales,
orientada a construir,
compartir y visualizar
ontologías OWL
OntoWiki http://ontowiki.net/ Esta herramienta GNU General Public Multiplataforma
open-source permite la License 2.0
edición del contenido
de archivos RDF de una
forma muy visual, del
mismo modo que un
editor WYSIWIG para
documentos de texto.
OOPS! http://oops.linkeddata. Se trata de una - Online
es/ herramienta online de
validación que permite
detectar algunos de los
errores más comunes
que aparecen al
desarrollar ontologías
W3C RDF https://www.w3.org/ Herramienta online de - Online
Validation RDF/Validator/ W3C para la validación y
Service visualización de documentos
RDF (RDF/XML).
Enlazado
Limes http://aksw.org/ Framework que GNU General Public Multiplataforma
Projects/LIMES.html implementa métodos License
eficientes en tiempo
para el descubrimiento
de enlaces a gran
escala basados en las
características de los
espacios métricos
Silk http://silkframework. Open-source framework Apache License 2.0 Multiplataforma
org/ para combinar fuentes
de datos heterogéneas,
permitiendo generar
enlaces entre elementos
de datos contenidos en
distintas fuentes
Publicación
Virtuoso https://virtuoso. Servidor multiplataforma Apache License 2.0 Multiplataforma
openlinksw.com/ escalable para el acceso
a datos, integración y
gestión de bases de datos
relacionales, RDF y XML con
un servidor de aplicaciones,
de servicios Web
tudio se planteó la importancia que tendría, de cara En consecuencia, el formato escogido fue MARC
a establecer posteriores relaciones, el empleo de por contener toda la información bruta existente
los campos 76X-78X (campos de enlace), sin em- acerca de todos esos registros y de la manera más
bargo, y para que esta información fuera relevante, normalizada y limpia posible, así como por ser un
era necesario que un elevado número de registros formato que, gracias al programa MarcEdit 6, po-
contaran con esta información. En este caso en con- día fácilmente transformarse en CSV con aquellos
creto, menos del 1% de registros cumplimentaban campos y subcampos que quisiera.
esos campos, por lo que carecía de sentido su uso.
Algo similar sucede con los ejemplares. Para que su Antes de proceder a su extracción, y también a
empleo aporte algo desde el punto de vista semán- través de la herramienta anteriormente citada, se
tico es preciso contar con suficiente información. En elaboró un informe en el que se observó la fre-
nuestro caso tan solo disponíamos del campo 945, cuencia de aparición de los diferentes campos y
con la signatura topográfica como único dato. A subcampos de MARC 21 (Biblioteca Nacional de
continuación se realizó, de manera consecutiva, la España, 2016b) para determinar si se contaba
descarga de registros para proceder, después, a la con una cantidad mínima de información en aque-
evaluación de la información, la selección de cam- llos campos con los que se pensaba trabajar de
pos de interés y la extracción de datos. cada registro (autor, título, publicación, materias
e ISBN). Al mismo tiempo, y en función de la can-
Para su descarga, la BUGR dispone de una base
tidad de información de la que se disponía, este
de datos en la que se encuentran almacenados to-
dos los registros bibliográficos, pudiendo acceder proceso sirvió para determinar qué campos 6XX
a ellos a través de dos catálogos web, por me- (encabezamiento de materia) se emplearían. En
dio de dos motores de búsqueda Adrastea (http:// consecuencia, se estableció el uso del campo 650
adrastea.ugr.es) y VELETA (http://bencore.ugr. (punto de acceso adicional de materia - término
es), o vía servidor Z39.50. No obstante, el hecho de materia) por aparecer en el 99% de los re-
de que este último servidor limitara la cantidad de gistros y ser términos controlados, frente al si-
registros recuperados a 500 obligó a que se tuvie- guiente con mayor frecuencia que era el campo
ra que desestimar su uso. 655 (término de indización - género/forma) con
presencia en un 52% de ellos.
Con el fin de conocer mejor las limitaciones del
modelo se decidió emplear un conjunto de regis- El uso de este formato permitió que se pudiera
tros que fuese de temática familiar a estos autores, trabajar con algunos campos que, en un princi-
por lo que se optó por recopilar todos los que tu- pio, no se habían contemplado. Así, la cabecera
vieran asignadas las materias “Biblioteconomía” o de cada registro, los campos 001 (número de con-
“Documentación”. De esa manera, y al contar con trol) y 008 (códigos de información de longitud
información a priori de la fuente con la que se tra- fija) aportaban información que podría permitir
baja (conocimiento de las series, los autores, las agilizar procesos posteriores. En algunos casos
editoriales, etc.), se podría tener un mayor control fue necesario realizar alguna modificación en los
sobre los resultados y tener criterio suficiente para ficheros originales ya que, por ejemplo, el campo
conocer si los posibles errores futuros se debían al 001 sólo estaba presente en 195 registros y, ade-
dato o a la aplicación del método. En total se re- más, no con valores consecutivos. Se optó por eli-
cuperaron 1.251 registros. Estos registros se des-
minarlos todos y se generaron de nuevo, enume-
cargaron empleando el OPAC tradicional, Adrastea,
rándolos desde el 1 hasta al 1.251. Para finalizar,
al ser el único que permite realizar este proceso
se exportaron todos los registros delimitados por
de forma masiva y, además, exportar a diferentes
tabuladores a través de MarcEdit 6, seleccionan-
formatos (pantalla completa, presentación abre-
do los diferentes campos y subcampos (tabla III)
viada, ProCite, Endnote-Refworks y MARC) todos
para exportarlos en CSV, fijando como delimitador
ellos como un archivo de texto plano.
de campos la coma, como delimitador dentro de
Para decidir con qué formato se trabajaría en campo el punto y coma (;) y delimitador contex-
las siguientes fases se realizó un análisis de cómo tual la línea vertical (|).
estaban construido cada fichero, buscando aquél
que no solo facilitara la información lo más clara La última de las tareas relacionadas con esta se
posible, sino que además permitiera la posterior centraba en la identificación de la licencia con la
gestión de los datos. De esa manera se buscaba que contaban los registros obtenidos y, en función
un formato lo más parecido a CSV (Comma-Sepa- de ella, determinar la que se emplearía en adelan-
rated Values), TSV (Tab-Separated Values) u otro te. Lamentablemente, ni el sitio web de la BUGR
con una delimitación similar que permita separar ni las personas consultadas aportaron información
los registros por filas y los campos por columnas. al respecto.
Tabla III. Campos y subcampos de MARC 21 escogidos para su exportación en formato CSV
Información Campo Subcampo Registros
100 – Punto de acceso principal-Nombre de $a – Nombre de persona 624

Autor
persona $d – Fechas asociadas al nombre 52
$a – Título 1.251
$b – Resto del título 583
Título 245 – Mención de título
$c – Mención de responsabilidad,
653
etc.
$a – Lugar de publicación,
1.243
distribución, etc.
$b – Nombre del editor, distribuidor,
Publicación 260 – Publicación, distribución, etc. 1.251
etc.
$c – Fecha de publicación,
1.183
distribución, etc.
650 – Punto de acceso adicional de materia $a – Término de materia 1.244

Materia
-Término de materia $x – Subdivisión de materia general 195
ISBN 020 – ISBN $a – ISBN 1.015
Cabecera Cabecera 1.251
Número 001 – Número de control 1.251
Información 008 – Códigos de información de longitud fija 1.251
4.2. Limpieza de datos tanto a poder establecer relaciones como garantizar

que otros puedan consumirlos de misma manera.
Como se puede apreciar en la tabla II, existen
varias herramientas que facilitan este proceso. Para ello, en primer lugar, se fueron revisando
Tras un estudio de las posibilidades de todas ellas cada una de las columnas a través de la opción de
nos decantamos por emplear GraphDB, en su ver- búsqueda facetada que ofrece el GraphDB, obser-
sión gratuita 8.0.1. Es una aplicación muy similar vando rápidamente la existencia y frecuencia de
a OpenRefine, pero con opciones muy interesan- fallos, como variaciones entre términos que de-
tes, como el poder lanzar consultas sobre los datos berían aparecer recogidos bajo una misma faceta
almacenados o externos mediante SPARQL. Esta pero que no lo hacen.
característica fue determinante para que se optara
Una vez localizados, se realizaron las diferentes
por ella, ya que facilitaría mucho llevar a cabo al-
modificaciones a través de funciones en GREL (Ge-
guna de las fases posteriores del modelo.
neral Refine Expression Language) aplicables a las
Se procedió a la importación del archivo crea- cadenas de texto de todas las filas de una colum-
do en el proceso anterior, obteniendo una fila para nas (Morris, 2015), usando además expresiones
cada registro bibliográfico y una columna para cada regulares con la sintaxis de JAVA, además de agru-
campo y subcampo. El objetivo que se persiguió en paciones por clusters. En definitiva, se ha llevado a
esta fase fue corregir al máximo los posibles erro- cabo una modificación de la manera lo más amplia
res que tuvieran los registros, con el fin de obtener posible debido a la considerable cantidad de datos.
“datos limpios y de alta calidad” (Montalvillo Men- En este proceso se ha observado cómo la mayo-
dizábal, 2012). ría de registros suelen repetir los mismos errores
en los mismos campos, por lo que la búsqueda de
Sin duda alguna esta es la fase donde se encuen-
esos patrones ha sido clave para automatizar el
tra el grueso del trabajo, la que más esfuerzos y
proceso de corrección. En ocasiones estos proble-
tiempo requiere pero, al mismo tiempo, la que de-
mas eran debidos a una mala catalogación y, en
terminará si el resto del proceso de conversión de
otros, por problemas ocasionados en la conversión
registros culmina correctamente o no. Del éxito de
de registros de la propia BUGR.
esta etapa se encuentra el poder desarrollar el res-
to, en especial la de enlazado, donde al cruzar los A decir verdad, la mayoría de errores estaban
datos con los de otros datasets es crucial que estos relacionados con el control de autoridades (lo que
se encuentren en el mejor estado posible, de cara impediría que los registros resultantes se pudieran
conectar con, por ejemplo, VIAF), los puntos de sobre las materias “Biblioteconomía” o “Documen-
acceso, los encabezamientos de materia (impidien- tación” y realizando los pasos anteriormente cita-
do su vinculación con la Lista de Encabezamientos dos. El resultado de este pequeño estudio permitió
de Materia para Bibliotecas Públicas) y la ausencia determinar que, si bien es cierto que los registros
de guiones en el ISBN, elemento que también se de la BNE también presentaban problemas de ca-
suele emplear para el proceso de vinculación con lidad en sus datos (especialmente en el control de
otros datasets. En definitiva, se tuvieron que rea- autoridades), el acceso y estructura de lo extraí-
lizar una gran cantidad de transformaciones con do presenta una información más estructurada y
el fin de dejar en cada celda el dato en bruto y lo homogénea que los de la BUGR, por lo que nos
más normalizado posible. La tabla IV muestra un decantamos por pensar que los problemas no son
ejemplo de cómo se ha transformado un registro y principalmente de índole técnico o achacables al
cómo queda el resultado después de este proceso. sistema de automatización allí empleado.
A los autores les llamó poderosamente la aten-

4.3. Modelación de datos
ción la gran cantidad de datos con mala calidad
que se obtuvieron de la primera etapa del modelo, Entendemos el proceso de modelación como la
por lo que se realizó un proceso similar pero con selección del conjunto de herramientas conceptua-
una muestra de datos procedentes de la Biblioteca les que permiten describir los datos, sus relaciones,
Nacional de España (en adelante BNE). La idea era significado y restricciones de cualquier tipo. Siguien-
conocer si este tipo de problemas son producto del do el modelo propuesto, se trató de localizar aque-
proceso de exportación de registros desde el OPAC llos vocabularios que permitieran, con la mayor pre-
o si, por el contrario, se deben a cuestiones propias cisión, realizar este proceso. Para ello se emplearon
de cada biblioteca. Para eso se realizó un proceso los buscadores vocab (Ontology Engineering Group,
similar, capturando en formato MARC los registros 2017) y Linked Open Vocabularies (LOV, 2016).
Tabla IV. Ejemplo de transformación de datos

Col. Valor original Resultado
Nuevo
000 00526nam a2200205 i 4500 Textual
mono
001 1 1
090512s1930\\\\uk\\\\\\\\\\\\000\|\
008 eng
eng\d
Kenyon, Frederic George

100$a Kenyon, Frederic George,
Frederic George Kenyon
100$d 1863-1952. 1863-1952
245$a LIS education in developing countries : LIS education in developing countries
245$b the road ahead / the road ahead
edited on behalf of IFLA by Ismail

edited on behalf of IFLA by Ismail Abdullahi, A.Y. Asundi and
245$c Abdullahi, A.Y. Asundi and C.R.
C.R. Karisiddappa
Karisiddappa
260$a [Jaén] : Jaén

260$b [Mundaneum], Mundaneum
260$c c2010. 2010
Unión Europea
\4$aUnión Europea.;\4$aDocumentació Documentación—Publicaciones periódicas

650
n$xPublicaciones periódicas. Documentación
Publicaciones periódicas
1843340534 (paperback);1843340542 1843340534

020$a
(hardback) 1843340542
El principal vocabulario escogido para convertir A continuación se muestran los namespaces em-
los datos obtenidos de la anterior fase en Linked pleados para la construcción de dicha red:
Data fue Bibframe 2.0 (Library of Congress,
• bf: <http://id.loc.gov/ontologies/bibframe/>
2017b). El hecho de contar con el respaldo de la
Biblioteca del Congreso de los Estados Unidos y • madsrdf: <http://www.loc.gov/mads/rdf/v1#>
de que, a pesar de ser un proyecto de ámbito in- • bflc: <http://id.loc.gov/ontologies/bflc/>
ternacional, apenas esté documentado para este
• rdfs: <http://www.w3.org/2000/01/rdf-sche-
tipo de procesos, parecieron motivos de suficiente
ma#>
peso para su elección. Por otra parte, entendemos
que no es práctica la idea de construir un modelo • rdf: http://www.w3.org/1999/02/22-rdf-syn-
específico, ni para esta metodología en concre- tax-ns#
to ni para cada biblioteca en particular. Por ese Como URI base para el modelado se empleó
motivo tiene mucho sentido el empleo de Bibfra- <http://example.org/>, asignándose las siguien-
me. De hecho, si las bibliotecas nacionales que tes para estas entidades:
se describen en el epígrafe 3 hubieran contando
• Work – <http://example.org/numero-de-
con un modelo de datos de Bibframe posiblemen-
control#Work>
te no tendrían que haber desarrollado sus propias
metodologías. Para complementarlo se emplearon • Instance – <http://example.org/numero-
también LC Bibframe 2.0 Vocabulary Extension de-control#Instance>
(Library of Congress, 2016a) y MADS/RDF Primer • Topic – <http://example.org/#Topic650-
(Library of Congress, 2015). Una vez establecidos nombre-de-materia>
los vocabularios a usar se desarrolló un mapa o • ComplexSubject – <http://example.
red de las diferentes clases y subclases, propie- org/#Topic650-nombre-de-materia>
dades y relaciones que se van a establecer con
• Person – http://example.org/nombre-de-autor
los datos obtenidos (Dimou y otros, 2016), tal y
como muestra la figura 1. Para ello se emplearon Aparte de estas URIs, también se construyeron
las especificaciones fijadas por la propia Library of otras dos más con el código de idioma y el nivel
Congress para transformar MARC 21 en Bibframe bibliográfico, usando con ello dos esquemas de la
(Library of Congress, 2017a). Library of Congress:
Figura 1. Mapa del vocabulario
• Language – <http://id.loc.gov/vocabulary/ Una vez construidos los grafos se procedió a la

languages.html> tarea de validación, para la que se empleó la herra-
• Issuance – http://id.loc.gov/vocabulary/is- mienta IDLab Turtle Validator (Internet & Data Lab,
suance.html 2016). Para ello se realizó la exportación de todos
los grafos almacenados en GraphDB empleando el
formato de serialización Turtle, tras lo cual se copió
4.4. Generación de datos
el contenido de ese archivo en el validador, inclu-
Para esa fase se empleó el programa GraphDB, yendo tanto los namespaces como las tripletas.
creando un repositorio que almacenase los datos
RDF y, por medio del lenguaje de consultas SPAR- 4.5. Enlazado de datos
QL (Harris y Seaborne, 2013), se fueron elaboran-
do y ejecutando las diferentes consultas para crear El modelo de conversión que se propone aquí tiene
los grafos con Bibframe 2.0. como objetivo la publicación de registros bibliográficos
en Linked Data con 5 estrellas. Para ello es necesario
De este modo se ejecutaron las diferentes consul- que el conjunto de datos resultante esté vinculado con
tas en SPARQL, que recogen los datos anteriormen-
otros datasets con los que tenga relación conceptual.
te limpiados del CSV, buscando por filas y columnas,
y transformándolos en grafos. Esta etapa no lleva El principal problema que encontramos en esta
mucho tiempo, especialmente si se compara con fase viene derivado por el software que se emplea.
la de limpieza de datos, pero sí es posiblemente la En su versión gratuita el programa GraphDB no
más compleja, ya que hay que realizar búsquedas permite cargar grandes dumps (ficheros para el
bastante sofisticadas y que emplean múltiples va- volcado de mucha cantidad de información), por
riables. Una vez finalizado este proceso se obtuvie- lo que no sería posible trabajar, por ejemplo, con
ron las marcadas 22 clases y subclases, tal y como VIAF. La prioridad fue la de buscar aquellos data-
se muestra en la figura 2, coincidiendo el contenido sets que permitieran acceder a sus tripletas a tra-
de cada una de ellas con las instancias previstas. vés de un SPARQL Endpoint.
Tabla V. Ejemplo de consulta SPARQL. En concreto se ha empleado para vincular los autores (identificados
mediante la clase autorURI) con sus respectivas obras (workURI). Se emplea la url del servicio que asigna
automáticamente el software GraphDB (http://localhost:7200/rdf-bridge/1669481892565) para poder lan-
zar el Sparql Endpoint.
PREFIX bf: <http://id.loc.gov/ontologies/bibframe/>
PREFIX bflc: <http://id.loc.gov/ontologies/bflc/>
prefix spif: <http://spinrdf.org/spif#>
INSERT{ GRAPH<http://example.org/>{
?workURI a ?tipoR, bf:Work;

bf:contribution [ a bflc:PrimaryContribution;
bf:agent ?autorURI] ;
}
}
WHERE {
service <http://localhost:7200/rdf-bridge/1669481892565> {
?registroRow a <urn:Row> ;
<urn:col:001> ?numero ;
<urn:col:T-Registro> ?tRegistro ;
<urn:col:Autor-URI> ?autoruri ;
VALUES (?tRegistro ?tipoR) {

(“Textual” bf:Text )
(“Archivo de ordenador” UNDEF )
(“Material grafico proyectable” bf:MovingImage)
(“Material grafico bidimensional” bf:StillImage)}
bind(iri(concat(“http://example.org/”, spif:encodeURL(?autoruri))) as ?autorURI)

bind(iri(concat(“http://example.org/”, ?numero, “#Work”)) as ?workURI)
}
}
Figura 2. Clases y subclases obtenidas y número de instancias
Para localizar los datasets que pudieran enri- Por su parte la BNE planteó más problemas, y
quecer nuestros datos, y que además cumplie- es que en este caso contamos con una colección
ran con las condiciones técnicas impuestas por la mucho más amplia en la que se pueden cruzar
herramienta escogida, se empleó Datahub (Data- una mayor cantidad y variedad de datos. Debido
hub, 2016). La búsqueda de datasets relaciona- al problema anteriormente mencionado del uso
dos con bibliotecas y registros de autoridad, que de guiones en el código ISBN, no se pudo realizar
además estuvieran actualizados y activos, arrojó la conexión con este dataset. A priori esta debía
como resultado: ser la vinculación más atractiva por conectar dos
instancias inequívocamente, aunque, por otro
• Lista de Encabezamientos de materia para lado, no siempre se recuperaban todos los datos
las Bibliotecas Públicas (LEMB) – http:// de las instancias de la BNE, e incluso, a veces,
id.sgcb.mcu.es/sparql era imposible recuperar alguno, lo que dificultó
todo este proceso.
• Biblioteca Nacional de España (BNE) –
http://datos.bne.es/sparql Por este motivo se recurrió a emplear un dump
file de la BNE que establecía una equivalencia en-
Como paso previo se realizaron varias consultas
tre las URIs de la clase autores de la BNE y su
desde el SPARQL de GraphDB, sin insertar datos registro en VIAF1. Este pudo ser importado a Gra-
en el repositorio, cruzando los diferentes datos con phDB, ya que su tamaño no lo impedía y, a través
el objetivo de encontrar significativas y numerosas de dos consultas, una para insertarle a cada grafo
relaciones entre ambos conjuntos. del dump file el nombre completo del autor y otra
De este modo, con la Lista de Encabezamientos para poder buscar entre ellos alguno de los 452
de Materia para las Bibliotecas Públicas se loca- nombres de autores y asociarles su VIAF, se consi-
guieron encontrar 184 coincidencias.
lizaron rápidamente vínculos entre la clase Topic
de Bibframe y Concept de SKOS, usada por LEMB, Una vez localizados y asegurada la existencia de
concretamente para 211 de los 473 encabezamien- suficientes relaciones, se repitió el proceso visto en
tos de materias almacenados en el repositorio. la fase de generar: se elaboró un mapa del nuevo
dataset (figura 3), se llevaron a cabo las diferentes (Heath y Bizer, 2011). Lo ideal es crear el conjunto
consultas SPARQL para insertar dichos datos y se de metadatos lo más exhaustivo posible e insertar-
validó con éxito este conjunto de datos. lo, por medio de tripletas, en el dataset. Aunque
ese fichero descriptivo también debe acompañar al
4.6. Publicación de datos dataset en el sitio web donde se publique.
En este último paso se llevó a cabo la publicación del Por otro lado, se probaron varias de las herra-
dataset en la Web. Lo primero que se hizo fue determi- mientas más usadas en proyectos Linked Data de
bibliotecas, archivos y museos (Smith-Yoshimura,
nar el método de acceso y tecnologías para su publica-
2016) con la idea de crear un SPARQL Endpoint.
ción. De este modo, se decidió publicarlo a través de una
Para ello, en un ordenador con Ubuntu 14.04.5
página web, de forma similar a como lo ofrece la Biblio-
LTS se instaló Openlink Virtuoso 7.2.4, Blazegraph
teca Nacional de España, a través de un SPARQL End-
2.1.4 y GraphDB 8.0.1. El resultado permitió ofre-
point y también con un fichero de descarga (dump file).
cer una exploración visual del dataset, tal y como
Para su publicación en un sitio web se pensó en se muestra en la figura 4.
un primer momento en llevarlo a cabo a través de
Drupal; no obstante, la falta de módulos, actualiza- 5. DISCUSIÓN
ción y documentación de los mismos para llevar a
cabo tal proceso hizo imposible tomar dicha vía. Se Los autores entienden que cuando se propone un
revisaron otros CMS usados por otros proyectos, modelo de trabajo o una metodología es necesario
como Joomla!, pero se obtuvo idéntico resultado. mostrar su funcionamiento de forma empírica. En
este trabajo se demuestra que la propuesta rea-
Es por ello que finalmente se optó por obviar di- lizada es válida y produce los resultados espera-
cha opción y crear en primer lugar el dump file, dos, pudiéndose aplicar a conjuntos de datos que
acompañado de sus metadatos. Es muy impor- generan gran cantidad de complicaciones en su
tante añadir esto último, con el fin de facilitar la gestión, como los encontrados al inicio de nuestra
identificación y localización de los datos, conocer investigación y generando un conjunto de datos en
su origen y, en definitiva, hacerlos más accesibles Linked Data con 5 estrellas.
Figura 3. Mapa del vocabulario tras su enriquecimiento con datos de la LEMB y BNE
Figura 4. Exploración visual de grafos en GraphDB
Durante la primera fase, cuando se determinó observar a través del editor de texto Notepad++,
la fuente de datos con la que trabajar, aparecieron el fallo se encuentra en la inserción de varios saltos
varios problemas relacionados con la forma de ac- de línea que aparecen al llegar al carácter 40.000,
ceder a los registros. Así, se tuvo que descartar el impidiendo con ello una correcta lectura. Para solu-
acceso a los mismos a través del servidor Z39.50 de cionarlo se eliminaron desde este mismo programa
la BUGR porque este servicio tiene limitada la can- dichos saltos, quedando todo el archivo reducido a
tidad de registros a descargar a 500. No logramos una única línea.
entender cuál es la política que ha llevado a esta
A pesar de eso, ese fichero en MARC que ya no
restricción tan severa, que además no se reproduce
contaba con problemas en su estructura, ofrecía
en otras bibliotecas universitarias. Pero lo cierto es
ahora una no despreciable cantidad de errores que
que este impedimento ha supuesto que se tuvieran
se descubrieron tras llevar a cabo su validación en
que buscar otras vías alternativas que no facilitaban
C# MARC Editor. De hecho, había programas como
el trabajo, precisamente. Este tipo de servidores
MarcEdit que directamente no eran capaces de abrir
son la vía idónea para conversiones de esta clase,
el fichero por la cantidad de errores detectados. El
ya que ofrecen un archivo ISO 2709 con extensión
problema lo originó el uso de campos, subcampos e
.mrc (Aenor, 2006), mientas que el OPAC Adrastea
indicadores obsoletos o no existentes en la actuali-
genera un fichero en MARC21, con extensión txt.
dad, como por ejemplo el desconocido campo 049
Una vez realizada la consulta encontramos que, o el 019 derivado de IBERMARC para el número de
con la misma ecuación de búsqueda, un catálogo depósito legal. La información que aparecía en mu-
(Adrastea) arrojaba 1.251 registros, mientras que chos de estos campos podía ser obviada, ya que no
otro (Veleta) 1.249. Esto se debió a que en dos regis- se encontraba en el lugar correcto, pero afectaba a
tros las materias asociadas no estaban acentuadas, la correcta gestión del fichero. En total se localiza-
por lo que intuimos que el último buscador parece no ron errores en 959 registros, un 76% del total.
aplicar lematizadores, al omitir esos resultados.
El resto de formatos de exportación que ofrece
A falta de otras vías ofrecidas por la BUGR, la el OPAC muestran gran cantidad de inconsisten-
exportación se realizó a través del OPAC Adrastea cias que los convierten en inviables, no solo para
aunque, de nuevo, encontramos varios problemas. conversiones de este tipo, sino para cualquier otra
El origen de casi todos se debe a que el fichero cosa. Así, por ejemplo, los registros de pantalla
MARC generado no es compatible con programas completa que carecen de autor utilizan la mención
que gestionan este formato. Por lo que se pudo de responsabilidad del título (245$c) como tal, y
estos junto a los exportados en ProCite incluyen los blemas encontrados tenga su origen en un deficiente
resúmenes como notas. proceso de conversión del pasado. Cuando la BUGR
cambió de programa de automatización se produjo
El proceso de limpieza de datos permitió localizar
una transformación masiva de registros del antiguo
muchos problemas derivados, principalmente por
sistema al nuevo. Dicha conversión se llevó a cabo
una catalogación deficiente. Entre ellos destacan:
sin demasiado control sobre lo que se generaba, y sin
• En el campo 008 se encontraron errores en aplicar técnica alguna de limpieza de datos. A esto
los códigos de idioma, en concreto, aparecie- se le une, como se ha podido atisbar por lo descrito
ron algunos registros con los términos sp, esp aquí, un trabajo de catalogación bastante deficiente.
(ambos referidos al español), gao (gallego),
Por otro lado, y como se comentó con anterio-
ne y ag; teniendo que sustituirlos por aquellos
ridad, el hecho de que las bibliotecas no informen
a los que verdaderamente hacían mención.
sobre el tipo de licencia con la que publican sus
• En la mayoría de los registros hubo que eli- datos limita que estos se puedan convertir en vin-
minar caracteres al final y/o principio de la culables bajo la denominación Linked Open Data.
cadena de texto, tales como espacios, pun- De hecho, el conjunto de registros resultantes del
tos o comas, aplicando la misma expresión proceso de conversión aquí explicado no se ha po-
regular a todos ellos. dido ofrecer públicamente precisamente por esta
limitación. Entendemos que es clave que se ofrezca
• Para el lugar de publicación, en muchas oca- esta información, ya no solo como elemento que
siones, una ciudad podía aparecer con su demuestra la propia calidad de los datos, sino tam-
nombre en varios idiomas. Aunque también bién como mecanismo que aumenta la visibilidad
se ha dado el caso, muy repetido, de que de la biblioteca, incrementando las posibilidades de
apareciera el nombre del país al que perte- que sus registros sean vinculables.
nece una ciudad, pero expresado de diferen-
tes maneras. Si bien es cierto que el campo En lo que respecta a la etapa del modelado, se ha
260 no requiere de control de autoridades, constatado que existe una gran cantidad de voca-
las especificaciones aportadas por los catalo- bularios y ontologías que pueden acomodarse per-
gadores (por ejemplo, indicar la provincia o fectamente a la vinculación de cualquier registro
el estado en el que se encuentra una ciudad) bibliográfico. Ha llamado especialmente la atención
estaban introducidas con errores tipográfi- el caso del sucesor de MARC, Bibframe, ya que a
cos continuos. pesar de estar en constante evolución, cuenta con
gran cantidad de documentación que facilita el pro-
• En cuanto a las editoriales, algunas de ellas ceso de convertir registros de un formato a otro.
podían encontrarse con el nombre completo Sin embargo, a la hora de generar los grafos RDF
o abreviado a través de sus siglas. salieron a la luz los principales inconvenientes de
• En las fechas, campo 260$c, el principal pro- este formato. Esos problemas son más patentes
blema estaba al eliminar las referencias al a la hora de realizar las consultas en SPARQL, ya
depósito legal o copyright en los casos en que existían campos en muchos registros que no
los que se había extraído de ahí la fecha. Así contaban con valores. Aunque la solución, desde el
mismo se encontraron fechas incompletas a punto de vista técnico, fue sencilla, lo cierto es que
las que le faltaba algún dígito. no apareció este problema en la extensa documen-
tación consultada.
• El campo 650 fue, sin duda, el que más pro-
blemas planteó, ya que su contenido tenía una Para finalizar, entendemos que es necesario que
gran falta de control. Ese descontrol no solo se potencie la creación de herramientas que facili-
ten el proceso de publicación de los datos. Lo ideal
se debía a la falta de normalización de las ma-
sería que todo el esfuerzo realizado se pudiese ver
terias: además se encontraron en ese campo
recompensado con un mecanismo de publicación
datos que debían corresponder al de notas.
más dinámico y visual, creando catálogos web
Como se puede observar, las fases de determina- que permitan al usuario un uso más atractivo de
ción de datos y de limpieza han permitido compro- esa información. Si bien es cierto que la mayoría
bar el estado de los registros, la calidad de los datos de proyectos estudiados emplean interfaces web
y el nivel de catalogación y normalización aplicado creados ad hoc, en muchos casos esas interfaces
a los mismos. Entendemos que estas fases pueden cuentan con evidentes problemas desde el punto
servir, sin lugar a dudas, como mecanismo para me- de vista de la usabilidad web, de tal modo que la
dir la calidad de los registros de cualquier biblioteca, información que publican no se encuentra inte-
quedando patente en este caso el mal estado de la grada de la mejor forma posible dentro de la web
muestra recogida. Es posible que alguno de los pro- que le da cobijo.
6. CONCLUSIONES ridades y puntos de acceso, especialmente en la

Biblioteca de la Universidad de Granada, pero
Aunque a estas alturas existen gran cantidad de
también en la Biblioteca Nacional de España. De
proyectos de bibliotecas que han convertido sus
esa manera, se ha puesto de manifiesto el uso
registros bibliográficos en Linked data con el fin
incorrecto de códigos en las cabeceras de MARC
de aprovecharse de las innumerables ventajas
21, la descripción de materias y el formato de
que ofrece este sistema de publicación de datos.
códigos ISBN en ambas instituciones.
Lo cierto es que son muchos los factores que han
determinado el empleo de diferentes metodolo- En lo que respecta a la modelación de los da-
gías para lograr dicha conversión. La fuente de tos, es muy posible que muchos de los problemas
datos de partida, los programas empleados, los encontrados tengan solución elaborando un vo-
productos que se desea crear son solo algunos de cabulario u ontología propia. Aunque, si se sigue
los muchos condicionantes que han impedido el este camino tal y como se ha hecho en este tra-
empleo de un modelo normalizado para realizar bajo con la implementación de varias entidades
esa migración. propias, es necesario realizar una normalización
muy clara y documentada. Si, por el contrario, se
Pero, a partir del estudio de todos esos proyec-
tos, en este trabajo se propone una metodología opta por el empleo exclusivo de Bibframe (algo
para lograr ese objetivo basada en seis etapas que bastante común en la actualidad) es necesario
permite la implementación de esos datos alcanzan- ser consciente de que se trata de un vocabula-
do las cinco estrellas a las que debería tender cual- rio en constante evolución y, aunque cuenta con
quier proyecto Linked Data. abundante documentación lo que facilita su uso,
lo cierto es que a día de hoy dista mucho de ser
Como producto de dicho estudio, y teniendo en un modelo idóneo y que se pueda aplicar de for-
cuenta las tareas que están asociadas a estas eta- ma genérica a cualquier proyecto.
pas, también se llega a la conclusión de que existe
la posibilidad de automatizar completamente los Para finalizar, es importante destacar la can-
procesos de extracción de datos, la limpieza y la tidad de herramientas disponibles que permiten
generación de grafos RDF. Y, lo que es más impor- acometer prácticamente todas las etapas de esta
tante desde el punto de vista de la perdurabilidad metodología. Estas aplicaciones son especialmen-
de una futura implementación, es que además se te destacadas en los apartados de conversión de
puede automatizar este trabajo también con datos registros bibliográficos, el enriquecimiento y la
nuevos, introducidos en fases posteriores. limpieza. Aunque el principal obstáculo que se
encuentra se refiere a la necesidad de disponer
Esta metodología ha permitido, por un lado, de conocimientos en lenguajes de programación,
poner en evidencia la necesidad de que tanto consulta de bases de datos y el trabajo con ex-
los programas de automatización de bibliotecas presiones regulares. Sin embargo, se echa de me-
como la política bibliotecaria permitan incorporar nos contar con alguna herramienta que facilite el
más métodos para la extracción de datos biblio- proceso de publicación a través, por ejemplo, de
gráficos. Si hace unos años era importante que algún CMS (Content Management System).
un software de este tipo ofreciera múltiples op-
ciones de exportación de registros, hoy en día es Metodologías, como la expuesta en este tra-
necesario que se permita el trabajo con un mayor bajo, no tendrían sentido si las bibliotecas con-
conjunto de datos y que, además, estos cuenten taran, a través de su propio programa de au-
con más calidad. En relación a esto, y por otro tomatización, de mecanismos para publicar
lado, la etapa de limpieza de datos -grueso de automáticamente en Linked Data sus registros
la implementación y parte fundamental para el bibliográficos. De esa manera los datasets ofre-
éxito del proyecto- además de tener sentido den- cidos estarían al día y no sería necesario realizar
tro de la metodología propuesta, se ha mostrado un doble esfuerzo, tal y como sucede en la ac-
como un mecanismo muy válido para verificar y tualidad. Pretender que una biblioteca, con los
evaluar la calidad de los datos con los que se problemas económicos que arrastra este sector,
trabaja y, en concreto, analizar la calidad de las pueda permitirse el lujo de contar con dos entor-
catalogaciones que se almacenan en las bases nos diferentes y gestionados en paralelo carece
de datos. En ese sentido, y dentro del caso de de sentido. Mientras esto no suceda la mayoría
estudio al que se ha aplicado la metodología pro- de bibliotecas están abocadas a retrasar su salto
puesta, se descubre la necesidad de realizar una hacia Linked Data. Por ese motivo, y en la situa-
profunda revisión de los registros bibliográficos, ción en la que nos encontramos en la actualidad,
así como de los métodos de acceso y filtrado, esta metodología, que es aplicable a cualquier
especialmente en lo referido al control de auto- catálogo, tiene razón de ser.
7. NOTAS
1. https://datahub.io/dataset/datos-bne-es/resource/
bb29e8ff-5f39-418f-b049-689479ac440a
8. REFERENCIAS
Aenor. (2006). Norma UNE-ISO 2709:2006. of Information Science, 42(2), 117-127. https://doi.
org/10.1177/0165551515594729
Ávila-García, L.; Ortiz-Repiso, V.; Rodríguez-Mateos, D.
(2015). Herramientas de descubrimiento: ¿una ven- Hallo, M.; Lujan-Mora, S.; Trujillo, J. (2014). Transfor-
tanilla única? Revista Española de Documentación ming Library Catalogs into Linked Data. 7th Internatio-
Científica, 38 (1), e077. https://doi.org/10.3989/ nal Conference of Education, Research and Innovation.
redc.2015.1.1178 pp. 1845-1853; Sevilla, España: IATED.
Bermès, E.; Coyle, K.; Dunsire, G. (2011). Library Linked Harris, S.; Seaborne, A. (2013). SPARQL 1.1 Query Lan-
Data Incubator Group Final Report. https://www. guage. https://www.w3.org/TR/sparql11-query/ [con-
w3.org/2005/Incubator/lld/XGR-lld-20111025/ [consultado el 09-02-2018].
sultado el 11-02-2018].
Heath, T.; Bizer, C. (2011). Linked Data: Evolving the
Berners-Lee, T. (2010). Linked Data - Design Issues. Web into a Global Data Space. California: Morgan
https://www.w3.org/DesignIssues/LinkedData.html & Claypool Publishers. https://doi.org/10.2200/
[consultado el 12/02/2018]. S00334ED1V01Y201102WBE001
Beastall, G. (2016). The MARC standard format is dying! Hidalgo-Delgado, Y.; Senso, J.; Leiva-Mederos, A.; Hí-
Soutron. https://www.soutron.com/marc-standard- pola, P. (2016). Gestión de fondos de archivos con
format-bibframe/ [consultado el 07-02-2018]. datos enlazados y consultas federadas. Revista Espa-
Biblioteca Nacional de España. (2016a). datos.bne.es. ñola de Documentación Científica, 39(3). https://doi.
http://datos.bne.es [consultado el 12-02-2018]. org/10.3989/redc.2016.3.1299.
Biblioteca Nacional de España. (2016b). Formato MARC Hyvönen, E.; Tuominen, J.; Alonen, M.; Mäkelä, E. (2014).
21 para Registros Bibliográficos. http://www.bne.es/ Linked Data Finland: A 7-star Model and Platform for
es/Micrositios/Guias/Marc21/resources/Docs/Marc21. Publishing and Re-using Linked Datasets. In: Presut-
pdf [consultado el 12-02-2018]. ti V.; Blomqvist, E.; Troncy, R.; Sack, H.; Papadakis,
I.; Tordai, A. (eds.), The Semantic Web: ESWC 2014
Bibliothèque National de France. (2014). data.bnf.fr. Satellite Events. ESWC 2014. Lecture Notes in Compu-
http://data.bnf.fr/ [consultado el 12-02-2018]. ter Science, vol. 8798, pp. 226-230. Cham: Springer.
Cyganiak, R.; Bizer, C. (2011). Pubby – A Linked Data Fron- https://doi.org/10.1007/978-3-319-11955-7_24
tend for SPARQL Endpoints. http://wifo5-03.informatik. Internet & Data Lab. (2016). Turtle validator. http://ttl.
uni-mannheim.de/pubby/ [consultado el 12-02-2018]. summerofcode.be/ [consultado el 12-02-2018].
Cabonero, D.; Dolendo, R. (2013). Cataloging and Classi- Isaac, A.; Waiter, W.; Young, J.; Zeng, M. (2011). Li-
fication Skills of Library and Information Science Prac- brary Linked Data Incubator Group: Datasets, Va-
titioners in their Workplaces: A Case Analysis. Library lue Vocabularies, and Metadata Element Sets. W3C
Philosophy and Practice. https://digitalcommons.unl. Incubator Group Report 25 october 2011. https://
edu/libphilprac/960/ [consultado el 05-02-2018]. www.w3.org/2005/Incubator/lld/XGR-lld-vocabdata-
Datahub. (2016). DataHub: data online made simple. set-20111025/ [consultado el 05-02-2018].
https://datahub.io/ [consultado el 09-02-2018]. Kroeger, A. (2013). The road to Bibframe: the evolution
Deliot, C. (2014). Publishing the British National Bibliogra- of the idea of bibliographic transition into a post-MARC
phy as Linked Open Data. The British Library. http:// future. Cataloguing & Cassification Quartely, 51 (8),
www.bl.uk/bibliographic/pdfs/publishing_bnb_as_lod. 873-890. https://doi.org/10.1080/01639374.2013.82
pdf [consultado el 12-02-2018]. 3584
Dimou, A.; Heyvaert, P.; Taelman, R.; Verborgh, R. (2016). Library of Congress. (2012). Bibliographic Framework as a
Modeling, Generating, and Publishing Knowledge as Web of Data: Linked Data Model and Supporting Services.
Linked Data. Knowledge Engineering and Knowledge Washington. https://www.loc.gov/bibframe/pdf/marcld-
Management. pp. 3-14. Bologna, Italia: Springer. report-11-21-2012.pdf [consultado el 08-02-2018].
Europeana. (2017). The European Library Open Dataset. Library of Congress. (2015). MADS/RDF Documentation.
Europeana. https://pro.europeana.eu/data/home-da- http://www.loc.gov/standards/mads/rdf/ [consultado
ta-the-european-library-open-dataset-the-european- el 12-02-2018].
library-open-dataset [consultado el 12-02-2018].
Library of Congress. (2016a). LC BIBFRAME 2.0 Vocabu-
Hallo, M.; Luján-Mora, S.; Maté, A.; Trujillo, J. (2016). lary Extension List View. http://id.loc.gov/ontologies/
Current state of Linked Data in digital libraries. Journal bflc.html [consultado el 12-02-2018].
Library of Congress. (2016b). LC Linked Data Service: Stumpf, F. F. (2003) Centralized cataloging and proces-
Authorities and Vocabularies (Library of Congress). sing for public library consortia. The Bottom Line.
http://id.loc.gov/ [consultado el 12-02-2018]. 16(3). https://doi.org/10.1108/08880450310488003
[consultado el 05-02-2018].
Library of Congress. (2017a). MARC 21 to BIBFRAME 2.0
Conversion Specifications (BIBFRAME - Bibliographic Fra- Subirats I.; Malapela, T.; Dister, S.; Zeng, M.; Goovaerts, M.;
mework Initiative, Library of Congress). https://www. Pesce, V.; Jaques, Y.; Anibaldi, S.; Keizer, J. (2012). Re-
loc.gov/bibframe/mtbf/ [consultado el 12-02-2018]. orienting Open Repositories to the Challenges of the Se-
mantic Web: Experiences from FAO’s Contribution to the
Library of Congress. (2017b). BIBFRAME - Bibliographic Resource Processing and Discovery Cycle in Repositories
Framework Initiative. https://www.loc.gov/bibframe/ in the Agricultural Domain. En: Dodero, J.M.; Palomo-
[consultado el 12-02-2018]. Duarte, M.; Karampiperis, P. (eds.), Metadata and Seman-
tics Research. Springer: Berlin, Heidelberg. Vol 343, 158-
LOV. Linked Open Vocabularies. (2016). Linked Open Vo-
167. https://doi.org/10.1007/978-3-642-35233-1_17
cabularies. http://lov.okfn.org/dataset/lov/ [consulta-
do el 27-09-2017]. Sulé, A.; Centelles, M.; Franganillo, J.; Gascón, J. (2016).
Aplicación del modelo de datos RDF en las colecciones
MacKenzie, S.; Carl, G.; Stahmer, X. L.; Gloria, G.
digitales de bibliotecas, archivos y museos de España.
(2017). BIBFLOW: A Roadmap for Library Linked Revista Española de Documentación Científica, 39(1),
Data Transition. https://bibflow.library.ucdavis.edu/ e121. https://doi.org/10.3989/redc.2016.1.1268
wp-content/uploads/2017/03/bibflow_roadmap_revi-
sed_3_14_2017.pdf [consultado el 09-02-2018]. Taylor, S.; Jekjantuk, N.; Mellish, C.; Pan, J. Z. (2013). Rea-
soning Driven Configuration of Linked Data Content Mana-
Marais, H. (2009). Authority control in an academic li- gement Systems. Joint International Semantic Technolo-
brary consortium using a union catalogue maintained gy Conference - JIST 2013. pp. 429-444: Springer, Seoul.
by a central office for authority control. Tesis doctoral.
Pretoria: University of South Africa. http://hdl.handle. Tennant, R. (2002). MARC must die. Library Journal, 127
net/10500/2546 [consultado el 05-02-2018]. (17), 26-28. http://soiscompsfall2007.pbworks.com/f/
marc+must+die.pdf [consultado el 07-02-2018].
Marcum, D. (2011). A bibliographic framework for digital age.
The British Library. (2014). Welcome to bnb.data.bl.uk.
Library of Congress. https://www.loc.gov/bibframe/news/
http://bnb.data.bl.uk/ [consultado el 12-02-2018].
framework-103111.html
Torre-Bastida, A.-I.; González-Rodríguez, M.; Villar-Ro-
Montalvillo Mendizabal, L. (2012). Definición y desarrollo
dríguez, E. (2015). Datos abiertos enlazados (LOD) y
de herramienta web de gestión de metadatos Business
su implantación en bibliotecas: iniciativas y tecnolo-
Intelligente [tesis de maestría]. Barcelona: Universi-
gías. El Profesional de la Información, 24(2), 113-120.
dad Politécnica de Cataluña. https://upcommons.upc.
https://doi.org/10.3145/epi.2015.mar.04
edu/handle/2099.1/16145 [consultado el 09-02-18].
Vila-Suero, D.; Gómez-Pérez, A. (2013). datos.bne.es
Morris, T. (2015). General Refine Expression Language. and MARiMbA: an insight into Library Linked Data. Li-
https://github.com/OpenRefine/OpenRefine/wiki/Ge- brary Hi Tech, 31(4), 575-601.
neral-Refine-Expression-Language [consultado el 05-
02-2018]. Vila-Suero, D.; Villazon-Terrazas, B.; Gomez-Perez, A.
(2012). datos.bne.es: A library linked dataset. Seman-
Ontology Engineering Group. (2017). vocab.linkeddata.es. tic Web, 4, 307-313.
http://vocab.linkeddata.es/ [consultado el 10-02-2018].
Volz, J.; Bizer, C.; Gaedke, M.; Kobilarov, G. (2009).
OpenLink. (2015). Virtuoso Linked Data. https://virtuoso. Silk – A Link Discovery Framework for the Web of
openlinksw.com/linked-data/ [consultado el 12-02-2018]. Data. 2nd Workshop about Linked Data on the Web
(LDOW2009), Madrid. http://events.linkeddata.org/
Papadakis, I.; Kyprianos, K.; Stefanidakis, M. (2015). Linked
ldow2009/papers/ldow2009_paper13.pdf [consultado
Data URIs and Libraries: The Story So Far. D-Lib Magazine,
el 10-02-2018].
21(5/6). https://doi.org/10.1045/may2015-papadakis
Wang, Y.; Stash, N.; Aroyo, L.; Gorgles, P.; Rutledge,
Peset, F.; Ferrer-Sapena, A.; Subirats-Coll, I. (2011).
Ll.; Schreiber, G. (2008). Recommendations based on
Open data y Linked open data: su impacto en el área semantically enriched museum collections. Web Se-
de bibliotecas y documentación. El Profesional de la In- mantica: Science, Services and Agents on the World
formación, 20 (2), 165-173. https://doi.org/10.3145/ Wide Web, 6(4). https://doi.org/10.1016/j.web-
epi.2011.mar.06 sem.2008.09.002 [consultado el 06-02-2018].
Smith-Yoshimura, K. (2016). Analysis of International Linked Wenz, R. (2013). Linked open data for new library servi-
Data Survey for Implementers. D-Lib Magazine, 22 (7/8). ces: the example of data.bnf.fr. Italian Journal of Li-
https://doi.org/10.1045/july2016-smith-yoshimura brary, Archives and Information Science, 4(1). https://
doi.org/10.4403/jlis.it-5509
Snow, K. (2011). A Study Of The Perception Of Cataloging
Quality Among Catalogers In Academic Libraries. Tesis Wolverton, R. E. (2005). Authority Control in Academic
doctoral. University of North Texas. http://digital.library. Libraries in the United States: A Survey. Cataloging &
unt.edu/ark:/67531/metadc103394/ [consultado el 05- Classification Quarterly, 41(1), 111-131. https://doi.
02-2018]. org/10.1300/J104v41n01_06

1023-Texto Del Artículo (Necesario) - 5187-1-10-20181121

Cargado por

Copyright:

Formatos disponibles

1023-Texto Del Artículo (Necesario) - 5187-1-10-20181121

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1023-Texto Del Artículo (Necesario) - 5187-1-10-20181121

Cargado por

Copyright:

Formatos disponibles

Revista Española de Documentación Científica

41(4), octubre-diciembre 2018, e217

ESTUDIOS / RESEARCH STUDIES

La publicación en Linked Data de registros bibliográficos:

Jose A. Senso*, Wenceslao Arroyo Machado*

Recibido: 06-11-2017; 2ª versión: 14-02-2018; Aceptado: 16-02-2018.

Publishing bibliographic records on Linked Data: model and implementation

1. INTRODUCCIÓN terconectar descripciones, lo cierto es que con el

• Posiblemente, el proyecto que más vínculos 4. CASO DE ESTUDIO

Etapa Descripción Tareas

Conectar el dataset a otros que lo b. Descubrir relaciones

Tabla II. Herramientas más empleadas en cada uno de los procesos

GraphDB Free http://ontotext.com Se trata de un Licencia libre tipo Multiplataforma

100 – Punto de acceso principal-Nombre de $a – Nombre de persona 624

650 – Punto de acceso adicional de materia $a – Término de materia 1.244

4.2. Limpieza de datos tanto a poder establecer relaciones como garantizar

A los autores les llamó poderosamente la aten-

Tabla IV. Ejemplo de transformación de datos

Kenyon, Frederic George

edited on behalf of IFLA by Ismail

260$a [Jaén] : Jaén

\4$aUnión Europea.;\4$aDocumentació Documentación—Publicaciones periódicas

1843340534 (paperback);1843340542 1843340534

Figura 1. Mapa del vocabulario

• Language – <http://id.loc.gov/vocabulary/ Una vez construidos los grafos se procedió a la

?workURI a ?tipoR, bf:Work;

VALUES (?tRegistro ?tipoR) {

bind(iri(concat(“http://example.org/”, spif:encodeURL(?autoruri))) as ?autorURI)

Figura 2. Clases y subclases obtenidas y número de instancias

Figura 4. Exploración visual de grafos en GraphDB

6. CONCLUSIONES ridades y puntos de acceso, especialmente en la

También podría gustarte

Jose A. Senso, Wenceslao Arroyo Machado