Página principal 
Nuestra profesión 
Socios individuales 
Socios institucionales 
Socios patrocinadores 
Cursos 
Actividades 
Publicaciones 

Grupos de trabajo 

Servicios a empresas 
Relaciones externas 
Enlaces 



Socios patrocinadores
PREMIUM

   Socios patrocinadores Premium
Socios patrocinadores
   Socios patrocinadores Premium
Acceso al portal de empleo - SEDIC Empleo
Acceso al Blog de SEDIC
Acceso a la plataforma de e-Learning de SEDIC
Acceso a videos de SEDIC en vimeo
Acceso a fotos de SEDIC en flickr
 
  Publicaciones > Boletín CLIP > Personajes > Entrevista a David Lee King
 

> Archivo de CLIP anteriores


 
   

nº 51

2008


Imprimir página


Entrevista
Oya Rieger
Division of Library Information Technologies
Cornell University Library

Oya Rieger
Entrevista realizada por:
Manuela Palafox

Servicio Edición Digital y Web. Biblioteca de la Universidad Complutense
Mª Jesús del Olmo
Vocal de la Junta Directiva de SEDIC
Oya Rieger participó en el Curso de verano de El Escorial de la Universidad Complutense "Los programas de digitalización masiva: llave del acceso universal al conocimiento". El Escorial, 30 junio-4 julio 2008.
> http://www.ucm.es/BUCM/biblioteca/24194.php
· Manuela Palafox:
En febrero de 2008, Oya Rieger publicó un informe "Preservation in the Age of large-Scale Digitization. A White Paper", editado por el Council on Library and Information Resources. En la introducción, Oya Rieger señala que los programas de digitalización masiva van a permitir el acceso a millones de libros que han estado encerrados en los depósitos de fondo antiguo de las bibliotecas y van a poder ser accesibles a usuarios de todo el mundo que tengan una conexión a Internet. Sin embargo, algunos de los profesionales de archivos y bibliotecas piensan que la calidad de la imagen y del OCR de los libros escaneados en estos proyectos de digitalización a gran escala no se ajustan a las buenas prácticas definidas por los bibliotecarios durante los últimos 15 años.

> Oya Rieger:
En un mundo ideal, la comunidad bibliotecaria se debería haber reunido y puesto de acuerdo para llevar a cabo proyectos de digitalización sistemática, masiva, y de alta calidad, pero la realidad nos demuestra que si Microsoft (1) y Google no hubieran hecho lo que están haciendo, millones de libros estarían en los depósitos y sin descubrir. A pesar de estar de acuerdo con los problemas que existen en relación con la calidad de las imágenes y del OCR, no obstante es necesario hacer hincapié en la importancia del acceso a estos fondos. Aunque la calidad no sea perfecta, se está consiguiendo sacar a la luz tesoros intelectuales que, de no ser por estos proyectos, estarían todavía ocultos.

(1) El proyecto de digitalización de libros de Microsoft Live Search Book se cerró en mayo de 2008.


· MP:
Entonces, ¿piensa que la calidad de las imágenes de los libros que Google está digitalizando tienen la calidad mínima suficiente para que puedan servir en el futuro como formatos de preservación a largo plazo o, por el contrario, solo sirven para el acceso?

> OR:
Proyectos como el de Google dan valor añadido a lo que es la investigación académica, a pesar de que la calidad no sea perfecta. Los bibliotecarios deberían empezar a cambiar su modelo de actuación, pues actualmente toda la energía se está poniendo en criticar la calidad de las imágenes en vez de pasar a la acción. Hay dos acciones muy sencillas que los bibliotecarios deben seguir. Deben crear registros de las colecciones y deben hacer un seguimiento muy concienzudo y público sobre la calidad de las imágenes, para que todo esto se conozca y se pueda compartir. También es muy importante que los bibliotecarios consigan tener un feedback con sus propios usuarios, de la misma forma que lo hace Google en Google Búsqueda de Libros, para que los bibliotecarios tengan la valoración de lo que piensan sus usuarios sobre la calidad de estas imágenes digitalizadas.
Soy una gran fan de lo que Google y Microsoft están haciendo y como están trabajando con los bibliotecarios. Lo que no me gusta es la confidencialidad de los contratos, que Google y Microsoft vayan firmando biblioteca por biblioteca sus contratos exclusivos. La comunidad bibliotecaria se debería unir y luchar juntos por la calidad de estas imágenes y del OCR. No todos los problemas de la calidad de la imagen son insuperables. Algunos de estos problemas se pueden resolver. Es importante que los bibliotecarios trabajemos con Google. Según una encuesta informal, he preguntado a profesores e investigadores de universidad, que trabajan con estos libros digitalizados por Google, y todos, hasta ahora, están muy contentos con lo que Google y Microsoft les ofrecen. Gracias a eso encuentran libros que en el pasado ni siquiera sabían que existían. Para ellos, la calidad es suficientemente buena. Si el libro les gusta, si les es útil, van a la biblioteca a sacarlo. Por ahora el proyecto de digitalización de Google no va a cambiar los mecanismos de investigación al 100%, pues muchos de los investigadores, después de localizar el libro, van a la biblioteca y lo sacan.
Hoy en día los bibliotecarios, los investigadores, y la gente en general, están contentos, pero tenemos varias preocupaciones. No sé en Europa, pero en EEUU todas las universidades están sufriendo presiones por ocupar el espacio en el campus. Hay negociaciones sobre la reutilización de los espacios, por ejemplo, para convertir ciertos espacios en laboratorios. Hay también presiones sobre la biblioteca en este sentido. Muchos personas opinan que los libros, una vez digitalizados, se pueden mandar a un almacén. El uso del espacio de la biblioteca ya no sería para depósito de libros, sino que podría dedicarse a otras funciones, como salas de reunión, zonas culturales, cafés, zonas de colaboración entre estudiantes y profesores. Con todo, a largo plazo hay un peligro con esa preservación. Es importante que las copias digitales que se preservan estén bien revisadas y guardadas. Si los libros se destruyen o se mandan a un sitio imposible de volver a localizar, se está perdiendo información. En el futuro se llegará a acuerdos para guardar y compartir estos libros, pero pienso que dentro de 10 años habrá que recordarles a los bibliotecarios de la generación siguiente que no pueden olvidarse de la calidad de esas imágenes y no pueden tirar estos libros sin haber comprobado que la imagen digitalizada es suficientemente buena.
Siguiendo con el tema de la preservación a largo plazo, es necesario tener en cuenta el principio de conveniencia o el principio de facilidad o de uso. Si el usuario no tiene las cosas muy, muy fáciles, deja de usarlas y deja de pedirlas. En la mayoría de las ocasiones, el usuario no es tan perfeccionista. Por ejemplo, si al libro digital que se está utilizando le faltan cinco páginas y no disponemos de mecanismos fáciles para recuperar esas páginas, el usuario simplemente dejará de hacer uso de ellas. Hay que ponerle muy fácil el acceso al original en el caso de que falten parte de las imágenes. El usuario normalmente no protesta, pero si deja de utilizar el servicio.


· MP:
La Biblioteca de la Universidad Complutense participa en el proyecto de digitalización de Google Búsqueda de Libros. Uno de los problemas que estamos estudiando, igual que están haciendo el resto de los socios de Google, es cuál va a ser el espacio de almacenamiento necesario para poder guardar miles y miles de imágenes de los libros complutenses. ¿Cuál es su opinión al respecto?

> OR:
Cuando Sarah Thomas (2) decidió firmar un contrato con Microsoft, la biblioteca de la Universidad de Cornell llevaba 15 años digitalizando libros y revistas. Durante este tiempo en Cornell se habían usado tres terabytes de espacio en los servidores. Después de la firma del contrato con Microsoft en un solo un año se ocuparon 40 terabytes. Hay 100.000 libros en esos 40 terabytes, en formato JPEG 2000.
Como bibliotecaria estoy muy preocupada por lo siguiente. Los bibliotecarios tenemos muchos conocimientos de digitalización y de preservación y sabemos que hay tecnologías excelentes que funcionan muy bien, pero la gran preocupación que me gustaría destacar aquí es la financiación del mantenimiento de los proyectos de digitalización. Cornell hace tres años comenzó a crear un repositorio de libros digitales con dos programadores a tiempo completo trabajando en ello, y para esos 40 terabytes será preciso gastar 40.000$ al año, además del salario de los programadores, cuyo coste final supone 200.000$, además de los gastos de gestión. Mi preocupación como gestora, como subdirectora de la biblioteca, es el presupuesto. Es muy importante tener en cuenta los costes al crear un repositorio, los costes anuales de ese repositorio. Hay que tener un repositorio primario y un repositorio secundario. Si sólo se tiene el primario y surge algún problema, todos los libros desaparecen, por lo cual el primario no es suficiente. Cuando presento el presupuesto a los responsables de la universidad, les digo que hay que gastarse 40.000$ en el repositorio primario, 40.000$ en el repositorio secundario, y 20.000$ más para el personal, a los responsables de mi universidad les da un "infarto". Nosotros, los bibliotecarios, conocemos la teoría, pero muchas veces nos falta la información concreta y práctica de lo que esto supone desde el punto de vista presupuestario. Hay universidades potentes como Harvard y Stanford que no tienen problemas, pero en general si que es muy importante tener en cuenta la obligación financiera continuada que supone mantener este tipo de repositorios.

(2) Sarah Thomas fue directora de la Cornell University Library. Actualmente es directora de la Oxford University Library


· MP:
Ya que el presupuesto que vamos a gastar en preservación es tan importante, las bibliotecas que estamos implicadas en proyectos de digitalización masiva ¿no deberíamos hacer una selección de aquellos libros que vamos a preservar? Si el presupuesto anual que debemos emplear para el almacenamiento de los libros que vamos a digitalizar es tan astronómico, y estamos hablando de miles y miles de libros, ¿es necesario que preservemos todo, o los bibliotecarios e investigadores debemos sentarnos a analizar qué debemos preservar para el futuro?.

> OR:
Antes de responder a la nueva pregunta, quisiera hacer una puntualización sobre la respuesta anterior. He hablado de aspectos técnicos y financieros y sobre lo que es preservar la copia digital de los libros. He mencionado que dentro de 15 años esa copia digital del libro va a seguir siendo visible y usable. Lo que querría mencionar es que lo importante es que esas copias sean accesibles, no solo que estén preservados. Lo importante es que los libros se mantengan vivos. Si Google en 15 años se decide a eliminar aquellos libros que no se usan, tenemos que destacar la idea de que tenemos que seguir trabajando en preservar el acceso, no solamente preservar la imagen digital desde un punto de vista técnico, hay que conseguir vías que faciliten al usuario el acceso a esos libros digitales. Estamos de acuerdo en que hay que tener dos tipos de formatos, uno para la preservación de mucha calidad, y otro mucho ligero y fácil de descargar, por ejemplo en pdf, para el acceso.
Me gustaría comentar ahora ciertos aspectos importantes relativos a la selección de los libros y la preservación. En un mundo ideal no tengo ninguna duda de que se debería establecer un proceso de selección de los libros que se tienen que digitalizar, pues esto es una responsabilidad continuada que vamos a tener siempre. Pero, ¿que es lo que sucede en el mundo real? En primer lugar, que Google y Microsoft se dan cuenta de que el proceso de selección lleva mucho tiempo y supone mucho dinero para ellos, es más caro. En segundo lugar, se tiene en cuenta el principio de la llamada "long tail", o larga cola, que se refiere al sentimiento de que la selección se basa en unos parámetros de lo que se sabe, pero que si se consigue digitalizar todos los libros, habrá usuarios para esos libros, porque el usuario podrá descubrir libros que no conocía. Se dice que "cada libro tiene su lector".
Con todo, contestando a su pregunta, creo que un papel que deben desempeñar los bibliotecarios es el de la selección para la preservación. Se pueden establecer distintos niveles de preservación, tres niveles de preservación. Los materiales que la comunidad bibliotecaria considere que son esenciales y de importancia histórica se les asignaría un nivel de preservación uno, e irían a un repositorio de muchísima más calidad de imagen y hasta con dos backs, en cambio con otros materiales se podrían correr más riesgos, porque no serían tan importantes.


· MP:
¿Qué opina sobre los libros duplicados que aparecen en Google Búsqueda de Libros que se están digitalizando en las bibliotecas de las universidades que participan en el proyecto?

> OR:
Google está teniendo ahora mucho más cuidado con los duplicados. En Cornell si que hacen un análisis previo de la colección para no volver a escanear materiales de la colección que ya habían sido escaneados. Google lo que pretende es crear un índice de libros digitales gigantesco, el mayor del mundo. Sobre la duplicación podemos decir que los expertos se dividen en dos grandes grupos: unos que opinan que la duplicación es un gasto de dinero intolerable y que solo debería existir una copia digital de cada libro; otros en cambio piensan que no está mal que haya duplicación, pues de alguna manera sirven de backs si una copia digital se ha estropeado, y además si un libro tiene mala calidad en la imagen que se ha digitalizado, otra puede tenerla mejor. Yo no lo veo claro, es una cuestión de matices. El problema de las duplicaciones se puede ir paliando porque ahora Google se lo está tomando en serio, incluso está contratando bibliotecarios para evitar la duplicación, y no como hace algún tiempo, cuando había una fuerte competencia entre Google y Microsoft.


· MP:
Oya, ¿podría darnos su opinión sobre el estado actual de los estándares, cuáles son las ventajas e inconvenientes de los distintos formatos, TIFF, JPEG2000?
> OR:
Podría estar hablando todo un día sobre las especificaciones técnicas de los distintos formatos, pero voy a resumir. Lo que me parece más importante de los estándares de los que hablamos es que tienen ya 10 o 15 años de edad, y no se está trabajando ni haciendo investigación sobre los nuevos escáneres que tienen hoy una mayor calidad. Por ejemplo, se dice que un formato TIFF de 600 dpi es muy bueno, pero todo se está juzgando con criterios antiguos. Hay que volver a hablar con los expertos y con los técnicos. Tomando como referente el informe que publiqué en febrero y que citabas al comienzo de la entrevista, en el que se comparan los distintos formatos, he llegado a la conclusión de que un JPEG y un TIFF son igualmente satisfactorios, incluso el JPEG2 es mejor para fines de archivo. Lo que deseo destacar sobre todo es la falta de estudios modernos sobre la tecnología, que ha avanzado muchísimo, los formatos, con el OCR y sus distintas resoluciones.
Hace años, estuve trabajando en el desarrollo inicial de PREMIS (Preservation Metadata Implementation Strategies) y con un estándar y un esquema de XML que se llama Z39.87/MIX. En Cornell utilizamos los metadatos de preservación PREMIS. Cuando hablo de los metadatos para la preservación, me refiero a metadatos muy técnicos relativos al color, la calidad, el contraste, etc.. Son datos sobre la imagen que se va a conservar y tratan muy poco sobre la descripción de la imagen.


· MP:
Uno de los elementos más importantes que estamos discutiendo las bibliotecas implicadas en proyectos de digitalización a gran escala es utilizar en investigación y desarrollo las grandes cantidades de materiales digitales de las que disponemos. Algunas bibliotecas ya están desarrollando herramientas de búsqueda y recuperación y están experimentando con minería de datos, especialmente en el área de Humanidades.

> OR:
El tratamiento digital de las investigaciones en Humanidades, o lo que es lo mismo, lo que en Estados Unidos se conoce como digital humanities, me resulta un tema muy interesante. En estos momentos estoy en un programa de doctorado y mi tesis trata precisamente de este tema. Cuando en Estados Unidos se habla de digital humanities se hace referencia a muchas cosas. Es un concepto muy rico que abarca una gran diversidad de asuntos, lo que le ha llevado a convertirse últimamente en una de las frases casi hechas que más se utilizan. Este concepto de digital humanities se refiere, por ejemplo, al uso de las tecnologías de la información y la comunicación, al uso de bases de datos en línea, a la tecnología de reutilización de textos digitales, a la revisión de versiones de un libro y compararlos con otros, por ejemplo, para ver la repetición de frases o de palabras, se refiere también al uso de imágenes digitales. Se utiliza verdaderamente para muchas cosas.
Actualmente, en Estados Unidos es muy importante lo que se ha dado en llamar la caber-infraestructura o "e-science" . Esta idea es también muy importante en las bibliotecas de investigación, estando su uso muy extendido especialmente en todo lo que se refiere a las áreas de ciencia e ingeniería, que es donde en estos momentos se están poniendo más recursos en ciencia y tecnología. Por esto mismo hay que darle mucha más importancia al tratamiento digital de las investigaciones en humanidades (digital humanities) porque los investigadores en humanidades tienen que tener también acceso a la tecnología para mejorar su investigación. Creo que las digital humanities son un asunto de cooperación y de trabajo conjunto de investigadores, de bibliotecarios, de técnicos y de informáticos. Es esencial que los bibliotecarios participen y que entiendan cuáles son las necesidades de los investigadores.


· MP:
Por último, ¿qué consejos daría a las bibliotecas españolas que están trabajando en proyectos de digitalización masiva?

> Si tuviera que dar sólo dos consejos, el primero sería investigar la creación de un repositorio común para almacenar las imágenes de los libros digitalizados de todas las bibliotecas que hayan llegado a un acuerdo pues, desde el punto de vista económico, es mucho más asequible, ya que crear un repositorio es realmente muy caro. Por esto recomiendo explorar la posibilidad de crear un solo repositorio para los libros digitales. El segundo consejo tiene carácter filosófico. Ahora todos estamos concentrados y enfocando la cuestión de la digitalización de libros, pero es muy importante no perder de vista el panorama general de las bibliotecas, especialmente en un mundo tan cambiante como en el que ahora vivimos y con un futuro que a veces se presenta como incierto, poco claro e impreciso. Es fundamental que los bibliotecarios conserven un punto de vista amplio y que intenten luchar contra las presiones crecientes para que preserven y guarden; no deben olvidar que una parte muy importante de la biblioteca es apoyar la investigación, no solo conservarla. No se trata sólo de digitalizar, sino también de apoyar a los investigadores y servir de base a la investigación. No hay que dejarse cegar por la digitalización y perder de vista el panorama general. Así mismo, con la digitalización hay que crear conexiones entre imágenes y datos de investigación y desde luego intentar mantenerse en ese punto de vista general. No estamos en una época para perderse en los detalles.




      > Archivo de CLIP anteriores