Proceso Digital I Zac I On Bne
Proceso Digital I Zac I On Bne
Proceso Digital I Zac I On Bne
Indice de contenidos 1. La Biblioteca Digital Hispnica (BDH). 3 2. Pasos previos a la digitalizacin .. 4 3. Digitalizacin. 10 4. Ficheros master y derivados..... 14 5. Control de calidad .. 18 6. Metadatos 19 7. Entorno tecnolgico25 8. Volcado de ficheros master.28 9. Motor de bsqueda 29 Glosario de trminos y abreviaturas 32
Pgina 2 http://bdh.bne.es/bnesearch/
Pgina 3 http://bdh.bne.es/bnesearch/
facilitar el acceso y atender a los usuarios; tareas en las que de un modo y otro estn implicados, como ya se ha sealado, todos los Servicios de la BNE. Cabe sealar tambin que la BDH se ha desarrollado segn un modelo econmico de colaboracin entre el sector pblico y el privado que ha sido igualmente novedoso por su importancia. Este modelo se puede considerar en todos los sentidos plenamente beneficioso para la institucin que ha recibido una significativa financiacin por parte de Telfonica, manteniendo, sin embargo, toda la autonoma necesaria para organizar el proyecto y para establecer los criterios de calidad que son exigibles a esta institucin. Del mismo modo, la titularidad de las imgenes sigue siendo exclusivamente de la BNE. Este conjunto de documentos representan la contribucin de la BNE a Europeana, a Biblioteca Digital Europea, que pretende ofrecer en un nico interfaz de consulta, acceso a los recursos digitales de archivos, bibliotecas, museos y archivos audiovisuales de toda Europa. Tambin est representado en Hispana, el recolector de objetos digitales del Ministerio de Cultura. En este documento se detalla el flujo de trabajo necesario para llevar a cabo el proceso que permite poner una obra a disposicin del usuario en la BDH, as como los criterios de seleccin, tcnicos y de calidad que guan todo el proceso.
(dependiendo de su fecha de nacimiento) y, por supuesto, siempre que no se trate de ediciones nuevas tambin protegidas en el Texto Refundido de la Ley de Propiedad Intelectual (Ley 23/2006, de 7 de julio) actualmente vigente en Espaa. Hay que sealar sin embargo un proyecto piloto que ha llevado a cabo la BNe para ofrecer contenido sujeto a derechos de autor. Este proyecto, Enclave, en colaboracin con los editores ha permitido incorporar 2812 obras que pueden ser encontradas en el portal de la BDH. En el propio portal el usuario puede consultar alrededor del 20% de la obra y, en caso de interesarle, puede navegar hacia la pgina del editor donde llevar a cabo la compra. Al margen de su pertenencia al dominio pblico hay otra serie de principios generales que guan la seleccin de documentos: La relevancia del contenido. Muchas de las colecciones se han seleccionado mediante un trabajo exhaustivo por parte del Servicio de Informacin Bibliogrfica, con el fin de crear relaciones de documentos especialmente pertinentes para un determinado tema: ocio, viajes, ciencia, independencia hispanoamericana. En otras ocasiones esta unidad proviene de tratar de ofrecer la produccin completa de un autor. El inters del material. Desde las Salas de lectura de la BNE se han seleccionado colecciones de documentos cuyas caractersticas materiales son interesantes en s mismas: manuscritos, incunables, dibujos de arquitectura, grabado alemn Otro criterio general que se combina a la hora de seleccionar los documentos es el inters que puede tener para los usuarios. La aplicacin de este criterio es posible gracias al conocimiento de la coleccin y de los usuarios que tienen los bibliotecarios de la BNE. El valor patrimonial es otro criterio que inspira la seleccin de documentos y que persigue que las obras aceptadas tradicionalmente como obras maestras figuren en la BDH. Aspectos relativos a la preservacin del documento fsico que se digitaliza. Dado que un documento digitalizado sufrir un menor nmero de consultas, la digitalizacin se convierte as en una tcnica privilegiada de preservacin. El seguimiento de unos criterios u otros puede suponer en ocasiones tomar decisiones diferentes. ste es el caso, por ejemplo, la eleccin de las ediciones que deben ser digitalizadas. En colecciones cuyo fin principal es tratar una materia se opt por seleccionar una nica edicin. Sin embargo, cuando se persigue recoger la produccin integra de un autor, se digitalizan las sucesivas ediciones de una obra al entender que en este caso las variaciones pueden ser de inters para el especialista. En el caso del proyecto de digitalizacin de la prensa histrica, los criterios generales son los mismos aunque conviene aadir algunas precisiones. El objetivo es cubrir la evolucin histrica de la prensa espaola, desde sus inicios
Pgina 5 http://bdh.bne.es/bnesearch/
hasta principios del siglo XX, respetando siempre las limitaciones que marca nuestra legislacin en temas de propiedad intelectual. El criterio que ha guiado la composicin de esta coleccin ha sido seleccionar peridicos y revistas representativos de su poca, que reflejaran la riqueza temtica de la edicin hemerogrfica hispana y de los que se conservaran colecciones completas. Quienes visiten la hemeroteca encontrarn prensa poltica, satrica, humorstica, cientfica, religiosa, ilustrada, amena, deportiva, artstica, literaria, etc.
Pgina 6 http://bdh.bne.es/bnesearch/
Pgina 7 http://bdh.bne.es/bnesearch/
8. Ejemplares gravemente deformados por accin del agua o de la mala colocacin. En impresos del XVII y XVIII pueden presentar deformaciones importantes en la caja de texto. 9. Papel rgido. A pesar de que no presenten problemas de acidez, no se podrn escanear los libros en los que el papel sea grueso y no se flexione con facilidad. 10. Cuando existan varios ejemplares de una misma obra y uno de ellos sea una edicin facticia, se elegir otra opcin. 11. Cuando existan varios ejemplares de una misma obra y uno de ellos est encuadernado al estilo Agapito (en vez de lomo (piel o cartn) hay restos de goma) se elegir este ejemplar, confirmando antes que su estado de conservacin es adecuado. 12. Cuando se trate de folletos signatura VC y existan varios ejemplares se elegir siempre el que est encuadernado. 13. Cuando existan varios ejemplares de una misma obra y uno de ellos presente los cuadernillos cerrados in-tonso se escoger otro ejemplar. Si no es posible, se anotar la incidencia y se enviar al Departamento de Preservacin y Conservacin. 14. Cuando se trate de un ejemplar nico debera digitalizarse con especial cuidado. Requerida marcado o identificacin especial. 15. En el caso de que no existan otras opciones y deban elegirse ejemplares con contenedores de conservacin hay que prestar especial atencin, ya que pueden estar protegiendo ejemplares con encuadernaciones valiosas, ejemplares muy deteriorados o ejemplares nicos. En estos casos podemos suponer que: En caso en que el ejemplar tiene punto rojo (retirado de consulta): Si se trata de un ejemplar nico y en buen estado se le ha puesto punto rojo para asegurar su conservacin. En ese caso se aconseja digitalizar desde el microfilme existente, excepto en los casos en los que el documento original presente imgenes en color, fotografas o grabados. Si el ejemplar no es nico se ha retirado de consulta por estar cido o deteriorado. En ese caso se aconseja digitalizar otro ejemplar en mejor estado o digitalizar desde el microfilme existente
En caso en que el ejemplar tenga punto verde Si se trata de un ejemplar nico debera digitalizarse con especial cuidado por parte de personal especializado. Si no es nico sera mejor elegir otro ejemplar para digitalizar, porque en principio el punto verde indicara el mejor ejemplar, que es el que tiene reproduccin en microfilme.
Pgina 8 http://bdh.bne.es/bnesearch/
Pgina 9 http://bdh.bne.es/bnesearch/
3. DIGITALIZACIN
Se detalla a continuacin el proceso general por el que pasa una obra desde que se digitaliza hasta que se carga en el SGOD de la BNE (Digitool): 1. En primer lugar se procede a la digitalizacin de la obra, obteniendo imgenes en formato TIFF, con una resolucin optica de 300-400dpi, en gris o a color, dependiendo del tipo de obra. La manipulacin de la obra durante el proceso de digitalizacin respetar las especificaciones de conservacin establecidas por la BNE.
2. Se lleva a cabo un control de calidad de las imgenes TIFF MASTER una a una, para detectar cualquier salto de pgina o desenfoque, que de producirse, se corrige de inmediato, digitalizando la imagen nuevamente. De manera simultnea las imgenes TIFF MASTER se almacenan en un servidor. 3. A continuacin se realiza el enderezamiento de las imgenes con el programa ACDsee y en caso de que surgiese cualquier necesidad de correccin, esta se realiza con el programa Photoshop. 4. Tras el proceso de escaneado, las imgenes TIFF MASTER son recortadas en dos partes, es decir, un fichero por cada pgina. El recorte se lleva a cabo con el programa WinCorte o con PhotoShop, obteniendo de esta forma un derivado de la imgenes originales. Se generan por tanto, dos tipos de imgenes en formato TIFF sin comprimir, uno con carta de color y escala mtrica-, y otro recortado a pgina simple sin carta de color ni escala mtrica.
Pgina 10 http://bdh.bne.es/bnesearch/
5. Cada imagen resultante de la digitalizacin (tanto TIFF MASTER como TIFF recortado), queda identificada con la signatura del ejemplar de la Biblioteca Nacional. 6. Se revisan de nuevo las imgenes, ya que tras el primer recorte automatizado puede quedar algn marco negro a su alrededor. Estos bordes se recortan manualmente. 7. Seguidamente la imagen se trata con el fin de mejorar el texto sin perder informacin, desechando manchas y suciedad que han sido originadas por el paso del tiempo, el uso y/o la calidad del papel.
8. El siguiente proceso analiza la inclinacin del texto para corregirlo en caso necesario. Se centra el texto manualmente y se unifica la medida del tamao de todas y cada una de las imgenes, a excepcin de mapas y lminas de color.
Pgina 11 http://bdh.bne.es/bnesearch/
Esto se consigue utilizando una media sobre la medida del tamao de las pginas, logrando as que sea lo ms fidedigno al libro. El programa utilizado es interno y hecho para tal fin.
9. Las imgenes se procesan automticamente para convertirlas a blanco y negro. En el proceso se elimina la suciedad o manchas que hayan podido quedar despus del tratamiento de las imgenes TIFF. 10. Se generan los archivos de difusin, en formato PDF o JPEG. A continuacin se pasa el proceso de OCR (Reconocimiento Optico de Caracteres), se crean los marcadores en los pdf, y se inserta la marca de agua de la BNE a travs de un archivo de imagen GIF.
11. Se procede despus a la verificacin de nombrado de imgenes, ejecutando un proceso que comprueba que todos los ficheros de cada ejemplar tienen exactamente el mismo nombre y que su nmero de secuencia comienza por 0000 y contina sin saltos. 12. De cada archivo TIFF MASTER se genera la estructura de metadatos de preservacin PREMIS.
Pgina 12 http://bdh.bne.es/bnesearch/
13. Se relaciona posteriormente cada archivo de difusin PDF/JPEG con su registro/s MARC, generando la estructura METS/MARC/COMPLEX/SIMPLE correspondiente. 14. Antes de la carga en el SGOD, se realiza el control de calidad del 20% de los ttulos de un lote y dentro de esa muestra se revisa un 20% de pginas incluyendo marcadores. La tasa de fiabilidad de la imagen deber ser del 99,25%. Y la tasa de fiabilidad de marcadores deber ser del 100% Si no se cumplen las tasas de fiabilidad, la imagen se digitaliza nuevamente. 15. Una vez superados los controles de calidad, se procede a ejecutar la carga de las obras digitalizadas en el SGOD (Digitool).
Los marcadores se realizarn respetando el orden lgico del libro y se generarn en el caso de que el libro contase con esas partes. o Si el libro S tiene ndice, los marcadores se estableceran en funcin del nmero de pginas: 9 Si el nmero de pginas es inferior a 500, se realizarn 25 marcadores. 9 Si el nmero de pginas es superior a 500, el nmero total de marcadores deber ser el equivalente al 5% del nmero de pginas de libro.
Pgina 13 http://bdh.bne.es/bnesearch/
Pgina 14 http://bdh.bne.es/bnesearch/
TIPO DE DOCUMENTO Texto impreso SIN ilustraciones, prensa, panfletos, pginas mecanografiadas Msica: partituras, escalas anotadas, manuscritos de msica Manuscritos: escritos a mano, copias mecanografiadas
OBJETIVO Imagen del Texto Texto con OCR Acceso al contenido Reconocimiento de sus caractersticas materiales Acceso al contenido Reconocimiento de sus caractersticas materiales Bsqueda
PROFUNDIDAD DE COLOR Escala de grises 8 bits * Escala de grises 8 bits * Escala de grises 8 bits* Escala de grises 8 bits* Escala de grises 8 bits* Escala de grises 8 bits* 24-bit color
NOTAS
400 ppi
300 ppp mnimo 400 ppi 300 ppp mnimo 400 ppp 250 ppp mnimo *
*Color (24 bits) cuando el color sea una caracterstica importante del documento
Reproduccin
400 ppp
Escala de grises 8 bits* 24-bit color mnimo Escala de grises 8 bits* 24-bit color
Reproduccin
Mximo soportado
*Color (24 bits) cuando el color sea una caracterstica importante del documento *La resolucin (ppp) depende del tamao del mapa, sobre todo en los casos en los que las secciones del mapa tienen que unirse y el tamao del archivo sobrepase los 500 MB *Color (24 bits) cuando el color sea una caracterstica importante del documento *Color (24 bits) cuando el color sea una caracterstica importante del documento
Acceso al contenido Material grfico Reproduccin Reconocimiento de sus caractersticas materiales Investigacin sobre sus caractersticas materiales
24-bit color
Pgina 15 http://bdh.bne.es/bnesearch/
4.2.1. Formato de los archivos de difusin Los archivos de difusin van a tener dos tipos de formatos segn el tipo de material: PDF y JPEG.
TIPO DE DOCUMENTO ARCHIVO DE DIFUSIN
Texto impreso procedente de microforma Texto impreso procedente del original (incluidas partituras impresas) Incunables digitalizados directamente del soporte original Incunables digitalizados de microformas Material grfico digitalizado directamente del soporte original (grabados, estampas, dibujos, fotografas, carteles) Material grfico procedente de negativo Mapas y planos Manuscritos digitalizados directamente del soporte original (incluida msica manuscrita)
PDF con marcadores y OCR PDF con marcadores y OCR PDF con marcadores sin OCR PDF con marcadores sin OCR
JPEG a 300 ppp JPEG a 300 ppp JPEG a 300 ppp. En caso de que la toponimia y detalles del mapa o plano no se lean correctamente, se aumentar la calidad del JPEG. JPEG a 300 ppp
4.2.1.1. PDF de difusin Las lminas, ilustraciones a color y portadas vistosas (as como cualquier otro motivo destacable que perdiera sus detalles al presentarse en blanco y negro), la imagen de difusin se generar a color o escala de grises, con el fin de representar fielmente el
Pgina 16 http://bdh.bne.es/bnesearch/
original fsico digitalizado. De forma que los PDF presentados en Web podrn ser unos completamente en blanco y negro, otros con portadas a color y el resto en blanco y negro, o en blanco y negro y pginas internas en color o escala de grises. 4.2.1.2. Generacin de los PDF 9 Limpieza de los PDF: Los PDF no incluirn encuadernaciones y hojas en blanco anteriores a la portada que no contengan ningn tipo de informacin. Tampoco incluirn las hojas en blanco posteriores a la ltima pgina con informacin. El resto de hojas en blanco aparecern en la obra para no variar la paginacin. 9 Marca de agua de los PDF: Todas las pginas de los PDF, tanto en B/N como en escala de grises o color debern llevar la marca de agua de la BNE en la parte inferior de cada pgina.
9 Marcadores: Los ficheros PDF tendrn marcadores con la informacin de los captulos/partes/secciones. 4.2.1.3. JPEG de difusin Se generar un archivo JPEG a 300 ppp para su difusin, que garantize una visualizacin de calidad desde la Web. Los manuscritos y libros antiguos deben mantener la encuadernacin y las hojas de guarda o en blanco, pues conservan en la mayora de los casos informacin de inters para la identificacin de posibles procedencias o acerca de la forma de construir el libro. 4.2.1.4. Marca de agua de los archivos JPEG de difusin La marca de agua se insertar en el ngulo inferior derecho. Esta nunca deber tapar o superponerse sobre informacin del original.
Es necesario controlar el peso de las imgenes, tratando de que no resulten muy pesadas. En algunos casos, reducimos la calidad a unos 250 ppp aproximadamente, siempre que al aumentar la imagen no se pixele, para reducirlas un poco de peso.
Pgina 17 http://bdh.bne.es/bnesearch/
5. CONTROL DE CALIDAD
De los ficheros obtenidos en el proceso de digitalizacin, se realiza un control de calidad previo y posterior a la carga en Digitool (SGOD), consistente en las siguientes tareas:
o o
Una vez resueltas todas las posibles incidencias detectadas, se procede a la migracin de las cargas del entorno de preproduccin a produccin, lo que supone la puesta a disposicin de los documentos digitalizados para los usuarios de la Biblioteca Digital Hispnica.
Pgina 18 http://bdh.bne.es/bnesearch/
6. METADATOS
Los metadatos son el conjunto de informaciones relacionadas con los objetos digitales, cuyo objetivo es facilitar la descripcin, bsqueda, uso y gestin de las colecciones digitales. Los metadatos son las herramientas de las que disponemos para especificar la informacin contextual asociada a cada documento: su contenido, el historial de las transformaciones sufridas por cada objeto digital, las especificaciones de los equipos fsicos necesarias para la construccin de los emuladores, los formatos de cada fichero, los programas que permitirn acceder a cada registro. Los objetos digitales de la BDH contienen metadatos descriptivos y metadatos de preservacin (PREMIS).
Para adecuar el formato de metadatos descriptivos a las caractersticas especificas de carga en Digitool (SGOD), se introducen los siguientes campos en cada uno de los registros: o Enlace entre imagen y registro (slo en el caso de los documentos simples): <datafield tag=856 ind1=4 ind2=1> <subfield code=u>Invent_029394.jpeg</subfield></datafield> o Tipo de documento: <datafield tag=655 ind1=1 ind2=7> <subfield code=a>Dibujos, grabados y fotografas</subfield></datafield>
Pgina 19 http://bdh.bne.es/bnesearch/
1.1 objectIdentifier (M, R) 1.1.1 objectIdentifierType (M, NR) 1.1.2 objectIdentifierValue (M, NR) 1.2 objectCategory (M, NR) 1.3 preservationLevel (O, R) [representation, file] 1.3.1 preservationLevelValue (M, NR) [representation, file] 1.4 significantProperties (O, R) 1.5 objectCharacteristics (M, R) [file, bitstream] 1.5.1 compositionLevel (M, NR) [file, bitstream] 1.5.2 fixity (O, R) [file, bitstream] 1.5.2.1 messageDigestAlgorithm (M, NR) [file, bitstream] 1.5.2.2 messageDigest (M, NR) [file, bitstream] 1.5.3 size (O, NR) [file, bitstream] 1.5.4 format (M, R) [file, bitstream] 1.5.4.1 formatDesignation (O, NR) [file, bitstream] 1.5.4.1.1 formatName (M, NR) [file, bitstream] 1.5.4.1.2 formatVersion (O, NR) [file, bitstream] 1.5.4.2 formatRegistry (O, NR) [file, bitstream] 1.5.4.2.1 formatRegistryName (M, NR) [file, bitstream] 1.5.4.2.2 formatRegistryKey (M, NR) [file, bitstream] 1.5.4.2.3 formatRegistryRole (O, NR) [file, bitstream] 1.5.5 creatingApplication (O, R) [file, bitstream] 1.5.5.1 creatingApplicationName (O, NR) [file, bitstream] 1.5.5.2 creatingApplicationVersion (O, NR) [file, bitstream] 1.5.5.3 dateCreatedByApplication (O, NR) [file, bitstream] 1.5.6 inhibitors (O, R) [file, bitstream] 1.5.6.1 inhibitorType (M, NR) [file, bitstream] 1.5.6.2 inhibitorTarget (O, R) [file, bitstream] 1.5.6.3 inhibitorKey (O, NR) [file, bitstream] 1.6 originalName (O, NR) [representation, file] 1.7 storage (M, R) [file, bitstream] 1.7.1 contentLocation (O, NR) [file, bitstream] 1.7.1.1 contentLocationType (M, NR) [file, bitstream] 1.7.1.2 contentLocationValue (M, NR) [file, bitstream] 1.7.2 storageMedium (O, NR) [file, bitstream] 1.8 environment (O, R)
Pgina 20 http://bdh.bne.es/bnesearch/
1.8.1 environmentCharacteristic (O, NR) 1.8.2 environmentPurpose (O, R) 1.8.3 environmentNote (O, R) 1.8.4 dependency (O, R) 1.8.4.1 dependencyName (O, R) 1.8.4.2 dependencyIdentifier (O, R) 1.8.4.2.1 dependencyIdentifierType (M, NR) 1.8.4.2.2 dependencyIdentifierValue (M, NR) 1.8.5 software (O, R) 1.8.5.1 swName (M, NR) 1.8.5.2 swVersion (O, NR) 1.8.5.3 swType (M, NR) 1.8.5.4 swOtherInformation (O, R) 1.8.5.5 swDependency (O, R) 1.8.6 hardware (O, R) 1.8.6.1 hwName (M, NR) 1.8.6.2 hwType (M, NR) 1.8.6.3 hwOtherInformation (O, R) 1.9 signatureInformation (O, R) [file, bitstream] 1.9.1 signature (O, R) 1.9.1.1 signatureEncoding (M, NR) [file, bitstream] 1.9.1.2 signer (O, NR) [file, bitstream] 1.9.1.3 signatureMethod (M, NR) [file, bitstream] 1.9.1.4 signatureValue (M, NR) [file, bitstream] 1.9.1.5 signatureValidationRules (M, NR) [file, bitstream] 1.9.1.6 signatureProperties (O, R) [file, bitstream] 1.9.1.7 keyInformation (O, NR) [file, bitstream]
1.10 relationship (O, R) 1.10.1 relationshipType (M, NR) 1.10.2 relationshipSubType (M, NR) 1.10.3 relatedObjectIdentification (M, R) 1.10.3.1 relatedObjectIdentifierType (M, NR) 1.10.3.2 relatedObjectIdentifierValue (M, NR) 1.10.3.3 relatedObjectSequence (O, NR) 1.10.4 relatedEventIdentification (O, R)
Pgina 21 http://bdh.bne.es/bnesearch/
1.10.4.1 relatedEventIdentifierType (M, NR) 1.10.4.2 relatedEventIdentifierValue (M, NR) 1.10.4.3 relatedEventSequence (O, NR) 1.11 linkingEventIdentifier (O, R)
Ejemplo de PREMIS cargado en la Biblioteca Digital Hispnica <?xml version=1.0 encoding=UTF-8 ?> - <premis:premis version=2.0 xmlns:xsi=http://www.w3.org/2001/XMLSchemainstance xmlns:xlink=http://www.w3.org/1999/xlink xmlns:premis=info:lc/xmlns/premis-v2 xsi:schemaLocation=info:lc/xmlns/premis-v2 http://www.loc.gov/standards/premis/v2/premisv20.xsd> - <premis:object xsi:type=premis:representation xmlID=VC_002307-006> - <premis:objectIdentifier> <premis:objectIdentifierType>899$j</premis:objectIdentifierType> <premis:objectIdentifierValue>VC/2307/6</premis:objectIdentifierValue> </premis:objectIdentifier> - <premis:preservationLevel> <premis:preservationLevelValue>full</premis:preservationLevelValue> <premis:preservationLevelDateAssigned>20070529</premis:preservationLevelDateAssig ned> </premis:preservationLevel> <premis:originalName>VC_002307-006</premis:originalName> </premis:object> - <premis:object xsi:type=premis:file> - <premis:objectIdentifier> <premis:objectIdentifierType>File</premis:objectIdentifierType> <premis:objectIdentifierValue>VC_002307-006_0001</premis:objectIdentifierValue> </premis:objectIdentifier> - <premis:preservationLevel> <premis:preservationLevelValue>full</premis:preservationLevelValue> <premis:preservationLevelDateAssigned>20070529</premis:preservationLevelDateAssig ned> </premis:preservationLevel> - <premis:objectCharacteristics> <premis:compositionLevel>0</premis:compositionLevel> <premis:size>1234567</premis:size> - <premis:format> - <premis:formatDesignation> <premis:formatName>image/tiff</premis:formatName> <premis:formatVersion>6.0</premis:formatVersion> </premis:formatDesignation> </premis:format> - <premis:creatingApplication> <premis:creatingApplicationName>Omniscan</premis:creatingApplicationName> <premis:creatingApplicationVersion>11.0</premis:creatingApplicationVersion> <premis:dateCreatedByApplication>20090102</premis:dateCreatedByApplication> </premis:creatingApplication>
Pgina 22 http://bdh.bne.es/bnesearch/
- <premis:objectCharacteristicsExtension> - <mix:mix xmlns:mix=http://www.loc.gov/mix/v20 xsi:schemaLocation=http://www.loc.gov/mix/v20 http://www.loc.gov/standards/mix/mix20/mix20.xsd> - <mix:BasicDigitalObjectInformation> <mix:byteOrder>big endian</mix:byteOrder> - <mix:Compression> <mix:compressionScheme>Uncompressed</mix:compressionScheme> </mix:Compression> </mix:BasicDigitalObjectInformation> - <mix:BasicImageInformation> - <mix:BasicImageCharacteristics> <mix:imageWidth>5530</mix:imageWidth> <mix:imageHeight>3210</mix:imageHeight> - <mix:PhotometricInterpretation> <mix:colorSpace>RGB</mix:colorSpace> </mix:PhotometricInterpretation> </mix:BasicImageCharacteristics> </mix:BasicImageInformation> - <mix:ImageCaptureMetadata> - <mix:ScannerCapture> <mix:scannerManufacturer>Zeutschel</mix:scannerManufacturer> - <mix:ScannerModel> <mix:scannerModelName>OS 10000-90 TT</mix:scannerModelName> <mix:scannerModelSerialNo>52008</mix:scannerModelSerialNo> </mix:ScannerModel> </mix:ScannerCapture> </mix:ImageCaptureMetadata> - <mix:ImageAssessmentMetadata> - <mix:ImageColorEncoding> - <mix:BitsPerSample> <mix:bitsPerSampleValue>8</mix:bitsPerSampleValue> </mix:BitsPerSample> <mix:samplesPerPixel>3</mix:samplesPerPixel> </mix:ImageColorEncoding> </mix:ImageAssessmentMetadata> </mix:mix> </premis:objectCharacteristicsExtension> </premis:objectCharacteristics> <premis:originalName>VC_002307-006_0001.tif</premis:originalName> - <premis:storage> - <premis:contentLocation> <premis:contentLocationType>filepath</premis:contentLocationType> <premis:contentLocationValue>VC_002307-006</premis:contentLocationValue> </premis:contentLocation> <premis:storageMedium>HD 001 Alta</premis:storageMedium> </premis:storage> - <premis:relationship> <premis:relationshipType>structural</premis:relationshipType> <premis:relationshipSubType>is included in</premis:relationshipSubType> - <premis:relatedObjectIdentification RelObjectXmlID=VC_002307-006> <premis:relatedObjectIdentifierType>899$j</premis:relatedObjectIdentifierType> <premis:relatedObjectIdentifierValue>VC/2307/6</premis:relatedObjectIdentifierValue> <premis:relatedObjectSequence>1</premis:relatedObjectSequence>
Pgina 23 http://bdh.bne.es/bnesearch/
Se trata de una aplicacin diseada para gestionar de manera eficiente y sencilla los objetos digitales de una institucin, poniendo especial nfasis en la preservacin y difusin de estos fondos. Esta formado por siete mdulos, cada uno de los cuales est diseado para dar respuesta a las diferentes necesidades, funciones y flujos de trabajo propios del ciclo de vida de un objeto digital. A travs del modulo de ingesta, se realiza tanto la carga de objetos como la de sus metadatos asociados. Digitool cumple con los siguientes estandares: o o o Protocolo Z39.50 OAI-PMH Dublin Core
6.4.
El protocolo OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) se utiliza para la transmisin de metadatos en Internet. Su arquitectura basada en el modelo cliente servidor pone a disposicin del pblico metadatos en formato Dublin Core para que puedan ser recuperados. La comunicacin se realiza mediante el protocolo http y las respuestas estn codificadas en XML. En BDH contamos con un servidor OAI http://bibliotecadigitalhispanica.bne.es/OAI-PUB, a travs del cual se puede realizar un harvesting de los metadatos descriptivos. Esto se puede realizar a travs de comandos OAI o a travs de programas del tipo MEdit, pudiendose recuperar registros concretos, grupos de registros y los sets de OAI que hay definidos en BDH.
Pgina 24 http://bdh.bne.es/bnesearch/
7. ENTORNO TECNOLGICO
La BNE cuenta, de modo genrico, con las siguientes infraestructuras tecnolgicas: o o Sala de digitalizacin donde se encuentra instalados los escneres necesarios. Pistolas lectoras de cdigo de barras para facilitar el nombrado de las carpetas contenedoras de las imgenes producidas durante la digitalizacin. Esto facilita la carga de datos en el Sistema de Preservacin que actualmente est creando la Unidad de Coordinacin Informtica y que utiliza como identificador unvoco el IDITEM. Acceso a Internet para la gestin y control de la herramienta de flujo de trabajo. Licencias disponibles para el trabajo de administrador de Digitool (SGOD). Equipos informticos para la carga en Digitool (SGOD). Servidores de almacenamiento para el volcado de archivos master y metadatos PREMIS asociados. Equipos informticos para realizar el volcado de los archivos master. Aplicacin para el control de archivos master.
o o o o o o
7.1
Escneres
Las caractersticas tcnicas de los escneres utilizados son las adecuadas para el escaneado de los fondos, y que en modo alguno puedan deteriorar los originales. El modelo de escner utilizado vara en funcin de la tipologa del documento que se digitaliza, de acuerdo a las especificaciones tcnicas de la BNE.
Pgina 25 http://bdh.bne.es/bnesearch/
Los elementos que condicionan o intervienen en la eleccin del sistema de digitalizacin son: Formatos: 1. Tamao: El abanico de formatos comprende, al menos, desde un 8 a mayor de A1, teniendo en cuenta por tanto el porcentaje de los documentos 2. Grosor/peso: El fondo contiene ejemplares de distintos grosores. 3. Desplegables: relacionado con el formato del documento los desplegables suponen un aadido a tener en cuenta, tanto para la manipulacin del documento como para las dimensiones del escner. Caractersticas del documento: 4. Original en color: La mayora de los manuscritos contienen algn motivo coloreado de inters documental y necesario para su estudio o consulta. Esto hace necesario que el escner ofrezca garantas de reproduccin cromtica fiel. En relacin con el color los cdices miniados presentan una dificultad aadida en la reproduccin de los dorados. No es aconsejable el modelo copibook para originales donde el color sea una caracterstica esencial. 5. Encuadernacin: Las encuadernaciones rgidas no permiten una apertura total del libro en 180; asimismo las encuadernaciones cerradas pueden tener prdida de informacin en la parte central del documento. En ambos casos es aconsejable un escner que permita realizar la reproduccin pgina a pgina con objeto de obtener la menor prdida de informacin, as como mayor planitud del documento. 6. Material: Un porcentaje importante de manuscritos aparece en soporte pergamino. Las caractersticas especficas del soporte: hojas onduladas, prdida de zonas en el pliego, dureza del mismo etc. determinan una manipulacin especial, como inclusin de hojas que aslen las partes perdidas, y un escner que asegure el foco en los distintos planos del documento. Estado de conservacin: 7. Fragilidad del material 8. Falta de informacin: mutilaciones Diversidad de fondos: Los materiales especficos de las Secciones especiales, presenta diferentes caractersticas que motivan la diversidad de sistemas de escaneado: 9. Cdices en pergamino 10. Papel cido y friable 11. Grabados 12. Encuadernaciones histricas 13. Dibujos
Pgina 26 http://bdh.bne.es/bnesearch/
14. Fotografas 15. Coleccin de Ephemera 16. Carteles publicitarios y grandes formatos en general 7.1.1. Tipos de escneres
A grosso modo, los escneres utilizados para la digitalizacin de los diferentes materiales conservados en la BNE se clasifican en: Escneres tipo A: Para la digitalizacin en escala de grises de obras impresas (siglos XVIII a XIX) o o o o CopibookHD600; i2s. Bookeye 3 R2 Book2net ScannTECH 602i-6 602i-3
Escneres tipo B: Para la digitalizacin a color de obras manuscritas o impresas encuadernadas, mayoritariamente ilustradas y de fondos grficos en hojas sueltas (fotografas, carteles, mapas, colecciones de ephemera) o o Digibook Suprascan A1 Book2net A1
Escneres tipo C: Para la digitalizacin a color de obras que exijan una manipulacin especialmente cuidadosa debido al tipo de soporte (cdices, manuscritos miniados, manuscritos con tintas traspasadas, tintas ferroglicas, encuadernaciones histricas con elementos mtalicos) o Metis DRS5070
Escneres tipo D, donde se incluye la cmara digital, para colecciones fotogrficas y fondos no encuadernados de formato medio, as como el respaldo digital para originales de gran valor, especialmente delicados y que no puedan ser reproducidos mediante un escner. o o o Nikon D700 (calidad mnima) Nikon D3 Respaldo digital Sinar 75 (cuatro disparos)
Pgina 27 http://bdh.bne.es/bnesearch/
Se utiliza adems el Robot escner para aquellas obras cuyas caractersticas fsicas y estado de conservacin permite una actuacin mecanizada sobre el documento sin riesgo. Y escneres que permiten ngulos de apertura de 60-90, para obras que requieren este tipo de manipulacin.
o o
o o o
Fecha inicio: fecha de inicio de la fase del proyecto de digitalizacin ej: dd/mm/aaaa.
Pgina 28 http://bdh.bne.es/bnesearch/
o o
Fecha fin: fecha fin de la fase del proyecto de digitalizacin ej: dd/mm/aaaa. Empresa: Nombre de la empresa AD.
o Mquina: escner utilizado por la empresa, ej.: Digibook Scanner Suprascan. En el caso de haberse utilizado varias en una misma obra (por ejemplo, por haber combinado imgenes a color y en blanco y negro), se consignar la que predomine. o o Software: cuando sea posible, si no se queda en blanco ej: i2s Digibook Scanner Suprascan A0 10000 RGB. Observaciones: Fase de digitalizacin a la que pertenezca ej: F4
Segn se van ocupando se crean recursos necesarios con numeracin correlativa: DM01; DM02; DM03;DMD01, DMD02, DMD03
9. MOTOR DE BSQUEDA
El objetivo principal de un motor de bsqueda en un proyecto de digitalizacin, es lograr que la localizacin y navegacin sobre volmenes inmensos de materiales digitalizados sea lo ms sencilla, intuitiva y relevante posible. Actualmente, la Biblioteca Digital Hispnica utiliza SOLR como motor de bsqueda, un software de bsqueda de cdigo abierto, que permitir poder extender y desarrollar funcionalidades propias, al disponer del cdigo fuente. A travs de SOLR se indexan automticamente los contenidos publicados en Digitool (SGOD), visibles en una interfaz de bsqueda personalizada.
Pgina 29 http://bdh.bne.es/bnesearch/
SOLR indexa a travs de OAI, tanto el contenido estructurado (metadatos) como el contenido desestructurado (OCR).
Pgina 30 http://bdh.bne.es/bnesearch/
Entre las funcionalidades que ofrece este motor de bsqueda a travs de BDH se sealan las siguientes: o o o o o o Bsqueda bsica y conceptual Sugerencias de bsqueda segn se escribe (auto-cumplimentacin) Bsqueda paramtrica (filtros de navegacin) Hipervinculacin (relaciones entre documentos) Expansin de consultas Resmenes resaltando las palabras encontradas
Arquitectura bsica
Pgina 31 http://bdh.bne.es/bnesearch/
ACDsee: Software de edicin de imgenes digitales. BDH: Biblioteca Digital Hispnica Bits: El bit es la unidad mnima de informacin empleada en informatica. Es un digito del sistema de numeracin binario, representado a travs de dos valores: 0 1.
BNE: Biblioteca Nacional de Espaa CDU: Clasificacin Decimal Universal Digitool: Es un Sistema de Gestin de Objetos Digitales, que permite la explotacin de las colecciones digitales, los repositorios institucionales y los fondos multimedia. Se trata de un potente sistema que permite a las bibliotecas acadmicas y consorcios gestionar grandes colecciones y proporcionar acceso a sus recursos digitales. Las herramientas que incorpora permiten controlar todas las acciones relacionadas con los objetos digitales: catalogacin, archivo, indexacin, difusin, preservacin y control del copyright.
Dpi: Unidad de medida de la resolucin de una imagen (relacionado con la calidad) de un escner, una impresora, etc. Sirve para medir la resolucin que es la cantidad de puntos (pixeles) que entran en una pulgada.
Dublin Core: Es un modelo de metados elaborado por la DMCI (Dublin Core Metadata Initiative) una organizacin dedicada a fomentar la adopcin extensa de los estndares interoperables de los metadatos y a promover el desarrollo de los vocabularios especializados de metadatos para describir recursos. Es el sistema de metadatos ms popular en la descripcin de recursos electrnicos en Internet. Define un conjunto de propiedades que se pueden usar en la descripcin de un recurso (este disponible en formato electrnico o no) para facilitar su recuperacin.
JPEG: Es un formato de imagen para el almacenamiento y transmisin de imgenes en la Web. Los archivos de este tipo se nombran con la extensin .jpg. Su algoritmo de comprensin permite reducir el tamao de los ficheros, sin prdida o con prdica poco significativa de la calidad de imagen.
MARC 21: Estndar internacional tradicionalmente utilizado por bibliotecas de todo el mundo para el intercambio de informacin catalogrfica, con
Pgina 32 http://bdh.bne.es/bnesearch/
Marca de agua: Es una tcnica clsica utilizada para marcar papel. Una filigrana o marca al agua es una imagen formada por diferencia de espesores en una hoja de papel. Se utiliza para evitar la falsificacin de documentos, para mostrar la autenticidad del origen de algn papel o impreso, como adorno o como diferenciacin entre diferentes fbricas de papel.
Megabyte (MB): Es una unidad de medidad de cantidad de datos informticos. Es la unidad ms tpica actualmente, junto al mltiplo inmediatamente superior, el gigabyte, usndose para especificar la capacidad de la memoria RAM, de las memorias de tarjetas grficas, de los CD-ROM, o el tamao de los programas, de los archivos grandes, etc. La capacidad de almacenamiento se mide habitualmente en gigabytes, es decir, en miles de megabytes.
METS: Se denomina METS al fichero xml, que contiene los datos de un registro bibliogrfico formado por varios archivos digitales (varios PDF o varios JPEG).
Metadados: Los metadatos son el conjunto de informaciones relacionadas con los objetos digitales, cuyo objetivo es facilitar la descripcin, bsqueda, uso y gestin de las colecciones digitales. Son herramientas que permiten especificar la informacin contextual asociada a cada documento: su contenido, el historial de las transformaciones sufridas por cada objeto digital, las especificaciones de los equipos fsicos necesarias para la construccin de los emuladores, los formatos de cada fichero, los programas que permitirn acceder a cada registro.
OAI-PMH: El protocolo OAI-PMH (Open Archives Initiative-Protocol Metadata Harvesting), es una herramienta de interoperabilidad independiente de la aplicacin que permite realizar el intercambio de informacin para que desde diferentes proveedores de servicio, se puedan hacer bsquedas que abarquen la informacin recopilada en distintos repositorios asociados. Los metadatos a transmitir va OAI-PMH debern codificarse en Dublin Core sin calificar con objeto de minimizar los problemas derivados de las conversiones entre mltiples formatos.
OCR: Cuyo desarrollo de sus abreviaturas es Reconocimiento Optico de Caracteres, es una tecnologa que se encarga de escanear y reconocer los caracteres de cualquier tipo de documentos.
El software OCR (Optical character recognition), transfiere esta informacin a formato electrnico, de forma rpida y precisa. No slo captura y escanea los datos que contiene el documento, sino que tambin los almacena en un archivo o base de datos y les proporciona un formato capaz de ser reconocido y recuperado, para ser usado en otras aplicaciones.
Pgina 33 http://bdh.bne.es/bnesearch/
La utilizacin de la tecnologa OCR permite la explotacin de sus documentos y gestin electrnica, de forma gil y segura.
La captura de la informacin de los documentos o imgenes se puede efectuar manualmente desde un dispositivo, como un escaneador, que incorpora esta funcionalidad. PDF (Portable Document Format): Es un formato de almacenamiento de documentos desarrollado por la empresa Adobe Systems, especialmente adecuado para la presentacin de documentos complejos (mltiples pginas, combinacin de textos e imgenes de diferentes calidades). Este formato ofrece, entre otras ventajas, bastantes opciones de navegacin en el documento y entre diferentes documentos, fidelidad y seguridad de la copia digital y posibilidades de bsqueda y recuperacin a partir de los contenidos, incluyendo su inclusin en motores de bsqueda. PhotoShop: Software de edicin de imgenes estndar para profesionales. PREMIS: Metadatos de preservacin, que contienen la informacin que utiliza un repositorio para soportar el proceso de preservacin digital. SGOD: Sistema de Gestin de Objetos Digitales. Simplex: Se denomina Simplex al fichero xml, que contiene los datos de un registro bibliogrfico formado por un nico archivo digital (PDF o JPEG). TIFF (Tagged Image File Format): Es un formato de ficheros para imgenes con etiquetas. Esto se debe a que los ficheros TIFF contienen, adems de los datos de la imagen propiamente dicha, "etiquetas" en las que se archiva informacin sobre las caractersticas de la imagen, que sirve para su tratamiento posterior. Este formato es de aplicacin generalizada a la creacin de imgenes de alta calidad, produce ficheros de gran tamao, sin prdida, tiles como ficheros maestros pero inadecuados para la distribucin y acceso pblico a las colecciones. UNICORN: Es un Sistema Integrado de Gestin Bibliotecaria, utilizado por diferentes bibliotecas universitarias. Actualmente utilizado por la BNE.
Para cualquier consulta o sugerencia dirijase a la siguiente direccin de correo electrnico: [email protected]
Pgina 34 http://bdh.bne.es/bnesearch/