Entrevista
Oya Rieger
Division of Library Information Technologies Cornell University Library
|
|
|
Entrevista realizada por:
Manuela Palafox
Servicio Edición Digital y Web. Biblioteca de la
Universidad Complutense
Mª Jesús del Olmo
Vocal de la Junta Directiva de SEDIC
Oya Rieger participó en el Curso de verano de El
Escorial de la Universidad Complutense "Los programas
de digitalización masiva: llave del acceso universal
al conocimiento". El Escorial, 30 junio-4 julio 2008.
> http://www.ucm.es/BUCM/biblioteca/24194.php
 |
 |
|
| ·
|
Manuela Palafox:
En febrero de 2008, Oya Rieger publicó un
informe "Preservation in the Age of large-Scale
Digitization. A White Paper", editado por
el Council on Library and Information
Resources. En la introducción, Oya Rieger
señala que los programas de digitalización
masiva van a permitir el acceso a millones
de libros que han estado encerrados en los
depósitos de fondo antiguo de las bibliotecas
y van a poder ser accesibles a usuarios
de todo el mundo que tengan una conexión
a Internet. Sin embargo, algunos de los
profesionales de archivos y bibliotecas
piensan que la calidad de la imagen y del
OCR de los libros escaneados en estos proyectos
de digitalización a gran escala no se ajustan
a las buenas prácticas definidas por los
bibliotecarios durante los últimos 15 años.
|
|
|
|
 |
 |
 |
|
| >
|
Oya
Rieger:
En un mundo ideal, la comunidad bibliotecaria
se debería haber reunido y puesto
de acuerdo para llevar a cabo proyectos
de digitalización sistemática,
masiva, y de alta calidad, pero la realidad
nos demuestra que si Microsoft (1)
y Google no hubieran hecho lo que
están haciendo, millones de libros
estarían en los depósitos
y sin descubrir. A pesar de estar de acuerdo
con los problemas que existen en relación
con la calidad de las imágenes y
del OCR, no obstante es necesario hacer
hincapié en la importancia del acceso
a estos fondos. Aunque la calidad no sea
perfecta, se está consiguiendo sacar
a la luz tesoros intelectuales que, de no
ser por estos proyectos, estarían
todavía ocultos.
(1) El proyecto de digitalización
de libros de Microsoft Live Search Book
se cerró en mayo de 2008.
|
|
|
|
 |
 |
 |
 |
|
| ·
|
MP:
Entonces, ¿piensa que la calidad
de las imágenes de los libros que
Google está digitalizando tienen
la calidad mínima suficiente para
que puedan servir en el futuro como formatos
de preservación a largo plazo o,
por el contrario, solo sirven para el acceso?
|
|
|
|
 |
 |
 |
|
| >
|
OR:
Proyectos como el de Google dan valor añadido a lo que es la investigación académica, a pesar de que la calidad no sea perfecta. Los bibliotecarios deberían empezar a cambiar su modelo de actuación, pues actualmente toda la energía se está poniendo en criticar la calidad de las imágenes en vez de pasar a la acción. Hay dos acciones muy sencillas que los bibliotecarios deben seguir. Deben crear registros de las colecciones y deben hacer un seguimiento muy concienzudo y público sobre la calidad de las imágenes, para que todo esto se conozca y se pueda compartir. También es muy importante que los bibliotecarios consigan tener un feedback con sus propios usuarios, de la misma forma que lo hace Google en Google Búsqueda de Libros, para que los bibliotecarios tengan la valoración de lo que piensan sus usuarios sobre la calidad de estas imágenes digitalizadas.
Soy una gran fan de lo que Google y Microsoft
están haciendo y como están trabajando
con los bibliotecarios. Lo que no me gusta
es la confidencialidad de los contratos,
que Google y Microsoft vayan firmando biblioteca
por biblioteca sus contratos exclusivos.
La comunidad bibliotecaria se debería unir
y luchar juntos por la calidad de estas
imágenes y del OCR. No todos los problemas
de la calidad de la imagen son insuperables.
Algunos de estos problemas se pueden resolver.
Es importante que los bibliotecarios trabajemos
con Google. Según una encuesta informal,
he preguntado a profesores e investigadores
de universidad, que trabajan con estos libros
digitalizados por Google, y todos, hasta
ahora, están muy contentos con lo que Google
y Microsoft les ofrecen. Gracias a eso encuentran
libros que en el pasado ni siquiera sabían
que existían. Para ellos, la calidad es
suficientemente buena. Si el libro les gusta,
si les es útil, van a la biblioteca a sacarlo.
Por ahora el proyecto de digitalización
de Google no va a cambiar los mecanismos
de investigación al 100%, pues muchos de
los investigadores, después de localizar
el libro, van a la biblioteca y lo sacan.
Hoy en día los bibliotecarios, los investigadores, y la gente en general, están contentos, pero tenemos varias preocupaciones. No sé en Europa, pero en EEUU todas las universidades están sufriendo presiones por ocupar el espacio en el campus. Hay negociaciones sobre la reutilización de los espacios, por ejemplo, para convertir ciertos espacios en laboratorios. Hay también presiones sobre la biblioteca en este sentido. Muchos personas opinan que los libros, una vez digitalizados, se pueden mandar a un almacén. El uso del espacio de la biblioteca ya no sería para depósito de libros, sino que podría dedicarse a otras funciones, como salas de reunión, zonas culturales, cafés, zonas de colaboración entre estudiantes y profesores. Con todo, a largo plazo hay un peligro con esa preservación. Es importante que las copias digitales que se preservan estén bien revisadas y guardadas. Si los libros se destruyen o se mandan a un sitio imposible de volver a localizar, se está perdiendo información. En el futuro se llegará a acuerdos para guardar y compartir estos libros, pero pienso que dentro de 10 años habrá que recordarles a los bibliotecarios de la generación siguiente que no pueden olvidarse de la calidad de esas imágenes y no pueden tirar estos libros sin haber comprobado que la imagen digitalizada es suficientemente buena.
Siguiendo con el tema de la preservación a largo plazo, es necesario tener en cuenta el principio de conveniencia o el principio de facilidad o de uso. Si el usuario no tiene las cosas muy, muy fáciles, deja de usarlas y deja de pedirlas. En la mayoría de las ocasiones, el usuario no es tan perfeccionista. Por ejemplo, si al libro digital que se está utilizando le faltan cinco páginas y no disponemos de mecanismos fáciles para recuperar esas páginas, el usuario simplemente dejará de hacer uso de ellas. Hay que ponerle muy fácil el acceso al original en el caso de que falten parte de las imágenes. El usuario normalmente no protesta, pero si deja de utilizar el servicio.
|
|
|
|
 |
 |
 |
 |
|
| ·
|
MP: La
Biblioteca de la Universidad Complutense
participa en el proyecto de digitalización
de Google Búsqueda de Libros. Uno
de los problemas que estamos estudiando,
igual que están haciendo el resto
de los socios de Google, es cuál
va a ser el espacio de almacenamiento necesario
para poder guardar miles y miles de imágenes
de los libros complutenses. ¿Cuál
es su opinión al respecto?
|
|
|
|
 |
 |
 |
|
| >
|
OR:
Cuando Sarah Thomas (2)
decidió firmar un contrato con Microsoft,
la biblioteca de la Universidad de Cornell
llevaba 15 años digitalizando libros y revistas.
Durante este tiempo en Cornell se habían
usado tres terabytes de espacio en los servidores.
Después de la firma del contrato con Microsoft
en un solo un año se ocuparon 40 terabytes.
Hay 100.000 libros en esos 40 terabytes,
en formato JPEG 2000.
Como bibliotecaria estoy muy preocupada
por lo siguiente. Los bibliotecarios tenemos
muchos conocimientos de digitalización y
de preservación y sabemos que hay tecnologías
excelentes que funcionan muy bien, pero
la gran preocupación que me gustaría destacar
aquí es la financiación del mantenimiento
de los proyectos de digitalización. Cornell
hace tres años comenzó a crear un repositorio
de libros digitales con dos programadores
a tiempo completo trabajando en ello, y
para esos 40 terabytes será preciso gastar
40.000$ al año, además del salario de los
programadores, cuyo coste final supone 200.000$,
además de los gastos de gestión. Mi preocupación
como gestora, como subdirectora de la biblioteca,
es el presupuesto. Es muy importante tener
en cuenta los costes al crear un repositorio,
los costes anuales de ese repositorio. Hay
que tener un repositorio primario y un repositorio
secundario. Si sólo se tiene el primario
y surge algún problema, todos los libros
desaparecen, por lo cual el primario no
es suficiente. Cuando presento el presupuesto
a los responsables de la universidad, les
digo que hay que gastarse 40.000$ en el
repositorio primario, 40.000$ en el repositorio
secundario, y 20.000$ más para el personal,
a los responsables de mi universidad les
da un "infarto". Nosotros, los bibliotecarios,
conocemos la teoría, pero muchas veces nos
falta la información concreta y práctica
de lo que esto supone desde el punto de
vista presupuestario. Hay universidades
potentes como Harvard y Stanford que no
tienen problemas, pero en general si que
es muy importante tener en cuenta la obligación
financiera continuada que supone mantener
este tipo de repositorios.
(2) Sarah Thomas fue directora
de la Cornell University Library. Actualmente
es directora de la Oxford University Library
|
|
|
|
 |
 |
 |
 |
|
| ·
|
MP:
Ya
que el presupuesto que vamos a gastar en
preservación es tan importante, las
bibliotecas que estamos implicadas en proyectos
de digitalización masiva ¿no
deberíamos hacer una selección
de aquellos libros que vamos a preservar?
Si el presupuesto anual que debemos emplear
para el almacenamiento de los libros que
vamos a digitalizar es tan astronómico,
y estamos hablando de miles y miles de libros,
¿es necesario que preservemos todo,
o los bibliotecarios e investigadores debemos
sentarnos a analizar qué debemos
preservar para el futuro?.
|
|
|
|
 |
 |
 |
|
| >
|
OR: Antes de responder a la nueva pregunta, quisiera hacer una puntualización sobre la respuesta anterior. He hablado de aspectos técnicos y financieros y sobre lo que es preservar la copia digital de los libros. He mencionado que dentro de 15 años esa copia digital del libro va a seguir siendo visible y usable. Lo que querría mencionar es que lo importante es que esas copias sean accesibles, no solo que estén preservados. Lo importante es que los libros se mantengan vivos. Si Google en 15 años se decide a eliminar aquellos libros que no se usan, tenemos que destacar la idea de que tenemos que seguir trabajando en preservar el acceso, no solamente preservar la imagen digital desde un punto de vista técnico, hay que conseguir vías que faciliten al usuario el acceso a esos libros digitales. Estamos de acuerdo en que hay que tener dos tipos de formatos, uno para la preservación de mucha calidad, y otro mucho ligero y fácil de descargar, por ejemplo en pdf, para el acceso.
Me gustaría comentar ahora ciertos aspectos importantes relativos a la selección de los libros y la preservación. En un mundo ideal no tengo ninguna duda de que se debería establecer un proceso de selección de los libros que se tienen que digitalizar, pues esto es una responsabilidad continuada que vamos a tener siempre. Pero, ¿que es lo que sucede en el mundo real? En primer lugar, que Google y Microsoft se dan cuenta de que el proceso de selección lleva mucho tiempo y supone mucho dinero para ellos, es más caro. En segundo lugar, se tiene en cuenta el principio de la llamada "long tail", o larga cola, que se refiere al sentimiento de que la selección se basa en unos parámetros de lo que se sabe, pero que si se consigue digitalizar todos los libros, habrá usuarios para esos libros, porque el usuario podrá descubrir libros que no conocía. Se dice que "cada libro tiene su lector".
Con todo, contestando a su pregunta, creo que un papel que deben desempeñar los bibliotecarios es el de la selección para la preservación. Se pueden establecer distintos niveles de preservación, tres niveles de preservación. Los materiales que la comunidad bibliotecaria considere que son esenciales y de importancia histórica se les asignaría un nivel de preservación uno, e irían a un repositorio de muchísima más calidad de imagen y hasta con dos backs, en cambio con otros materiales se podrían correr más riesgos, porque no serían tan importantes.
|
|
|
|
 |
 |
 |
 |
|
| ·
|
MP:
¿Qué
opina sobre los libros duplicados que aparecen
en Google Búsqueda de Libros que
se están digitalizando en las bibliotecas
de las universidades que participan en el
proyecto?
|
|
|
|
 |
 |
 |
|
| >
|
OR:
Google está teniendo ahora mucho
más cuidado con los duplicados. En Cornell
si que hacen un análisis previo de la
colección para no volver a escanear materiales
de la colección que ya habían sido escaneados.
Google lo que pretende es crear un índice
de libros digitales gigantesco, el mayor
del mundo. Sobre la duplicación podemos
decir que los expertos se dividen en dos
grandes grupos: unos que opinan que la duplicación
es un gasto de dinero intolerable y que
solo debería existir una copia digital de
cada libro; otros en cambio piensan que
no está mal que haya duplicación, pues de
alguna manera sirven de backs si una copia
digital se ha estropeado, y además si un
libro tiene mala calidad en la imagen que
se ha digitalizado, otra puede tenerla mejor.
Yo no lo veo claro, es una cuestión de matices.
El problema de las duplicaciones se puede
ir paliando porque ahora Google se lo está
tomando en serio, incluso está contratando
bibliotecarios para evitar la duplicación,
y no como hace algún tiempo, cuando había
una fuerte competencia entre Google y Microsoft.
|
|
|
|
 |
 |
 |
 |
|
| ·
|
MP: Oya,
¿podría darnos su opinión
sobre el estado actual de los estándares,
cuáles son las ventajas e inconvenientes
de los distintos formatos, TIFF, JPEG2000? |
|
|
|
 |
 |
 |
|
| >
|
OR: Podría estar hablando todo un día sobre las especificaciones técnicas de los distintos formatos, pero voy a resumir. Lo que me parece más importante de los estándares de los que hablamos es que tienen ya 10 o 15 años de edad, y no se está trabajando ni haciendo investigación sobre los nuevos escáneres que tienen hoy una mayor calidad. Por ejemplo, se dice que un formato TIFF de 600 dpi es muy bueno, pero todo se está juzgando con criterios antiguos. Hay que volver a hablar con los expertos y con los técnicos. Tomando como referente el informe que publiqué en febrero y que citabas al comienzo de la entrevista, en el que se comparan los distintos formatos, he llegado a la conclusión de que un JPEG y un TIFF son igualmente satisfactorios, incluso el JPEG2 es mejor para fines de archivo. Lo que deseo destacar sobre todo es la falta de estudios modernos sobre la tecnología, que ha avanzado muchísimo, los formatos, con el OCR y sus distintas resoluciones.
Hace años, estuve trabajando en el desarrollo
inicial de PREMIS (Preservation Metadata
Implementation Strategies) y con un
estándar y un esquema de XML que se llama
Z39.87/MIX. En Cornell utilizamos
los metadatos de preservación PREMIS.
Cuando hablo de los metadatos para la preservación,
me refiero a metadatos muy técnicos relativos
al color, la calidad, el contraste, etc..
Son datos sobre la imagen que se va a conservar
y tratan muy poco sobre la descripción de
la imagen.
|
|
|
|
 |
 |
 |
 |
|
| ·
|
MP: Uno
de los elementos más importantes
que estamos discutiendo las bibliotecas
implicadas en proyectos de digitalización
a gran escala es utilizar en investigación
y desarrollo las grandes cantidades de materiales
digitales de las que disponemos. Algunas
bibliotecas ya están desarrollando
herramientas de búsqueda y recuperación
y están experimentando con minería
de datos, especialmente en el área
de Humanidades.
|
|
|
|
 |
 |
 |
|
| >
|
OR: El
tratamiento digital de las investigaciones
en Humanidades, o lo que es lo mismo, lo
que en Estados Unidos se conoce como digital
humanities, me resulta un tema muy interesante.
En estos momentos estoy en un programa de
doctorado y mi tesis trata precisamente
de este tema. Cuando en Estados Unidos se
habla de digital humanities se hace
referencia a muchas cosas. Es un concepto
muy rico que abarca una gran diversidad
de asuntos, lo que le ha llevado a convertirse
últimamente en una de las frases casi hechas
que más se utilizan. Este concepto de digital
humanities se refiere, por ejemplo,
al uso de las tecnologías de la información
y la comunicación, al uso de bases de datos
en línea, a la tecnología de reutilización
de textos digitales, a la revisión de versiones
de un libro y compararlos con otros, por
ejemplo, para ver la repetición de frases
o de palabras, se refiere también al uso
de imágenes digitales. Se utiliza verdaderamente
para muchas cosas.
Actualmente, en Estados Unidos es muy importante
lo que se ha dado en llamar la caber-infraestructura
o "e-science" . Esta idea es también
muy importante en las bibliotecas de investigación,
estando su uso muy extendido especialmente
en todo lo que se refiere a las áreas de
ciencia e ingeniería, que es donde en estos
momentos se están poniendo más recursos
en ciencia y tecnología. Por esto mismo
hay que darle mucha más importancia al tratamiento
digital de las investigaciones en humanidades
(digital humanities) porque los investigadores
en humanidades tienen que tener también
acceso a la tecnología para mejorar su investigación.
Creo que las digital humanities son
un asunto de cooperación y de trabajo conjunto
de investigadores, de bibliotecarios, de
técnicos y de informáticos. Es esencial
que los bibliotecarios participen y que
entiendan cuáles son las necesidades de
los investigadores.
|
|
|
|
 |
 |
 |
 |
|
| ·
|
MP: Por
último, ¿qué consejos
daría a las bibliotecas españolas
que están trabajando en proyectos
de digitalización masiva?
|
|
|
|
 |
 |
 |
|
| >
|
Si tuviera que dar sólo dos consejos, el primero sería investigar la creación de un repositorio común para almacenar las imágenes de los libros digitalizados de todas las bibliotecas que hayan llegado a un acuerdo pues, desde el punto de vista económico, es mucho más asequible, ya que crear un repositorio es realmente muy caro. Por esto recomiendo explorar la posibilidad de crear un solo repositorio para los libros digitales. El segundo consejo tiene carácter filosófico. Ahora todos estamos concentrados y enfocando la cuestión de la digitalización de libros, pero es muy importante no perder de vista el panorama general de las bibliotecas, especialmente en un mundo tan cambiante como en el que ahora vivimos y con un futuro que a veces se presenta como incierto, poco claro e impreciso. Es fundamental que los bibliotecarios conserven un punto de vista amplio y que intenten luchar contra las presiones crecientes para que preserven y guarden; no deben olvidar que una parte muy importante de la biblioteca es apoyar la investigación, no solo conservarla. No se trata sólo de digitalizar, sino también de apoyar a los investigadores y servir de base a la investigación. No hay que dejarse cegar por la digitalización y perder de vista el panorama general. Así mismo, con la digitalización hay que crear conexiones entre imágenes y datos de investigación y desde luego intentar mantenerse en ese punto de vista general. No estamos en una época para perderse en los detalles.
|
|
|
|
 |
 |
|