La Iniciativa de Archivos Abiertos (OAI) proporciona la arquitectura y especificaciones técnicas necesarias para que productores y distribuidores de documentos de acceso abierto pongan a disposición de agregadores de contenidos metadatos sobre los documentos que almacenan con objeto de hacerlos visibles y accesibles a los investigadores.
OAI viene a solucionar el problema de la dispersión de los documentos en múltiples depósitos institucionales, temáticos, revistas individuales, portales de revistas electrónicas, etc. Desde el punto de vista del investigador, hace posible la integración de documentos de una misma temática, área geográfica, tipología, etc. en una única herramienta que es capaz de proporcionarle, además, una serie de valores añadidos, como selección, búsqueda e identificación, evaluación, etc.
OAI surgió a finales de los años noventa a partir de los servidores de documentos en acceso abierto que habían aparecido en distintas disciplinas científicas: arXiv en Física, RePEc en Economía, CogPrints en Psicología, NCSTRL en Informática y NDLTD para tesis. Su objetivo inicial fue estudiar la interoperatibilidad de los distintos servidores con objeto de facilitar el intercambio de datos entre los mismos. El nacimiento de la iniciativa se sitúa en la Convención de Santa Fe celebrada en la ciudad norteamericana del mismo nombre en Octubre de 1999.
La iniciativa se concretó en un protocolo para la comunicación de metadatos denominado OAI-PMH (Open Archives Initiative – Protocol for Metadata Harvesting) cuya primera versión apareció en Enero de 2001. Aunque inicialmente se creó para ser aplicado a depósitos de documentos en acceso abierto muy pronto se vio que podía implementarse sobre cualquier sistema que requiriese la comunicación de metadatos. Esto hizo afirmar, con cierta euforia, a alguno de los creadores del mismo que OAI-PMH estaba llamado a ser a las bibliotecas digitales lo que http había sido a la web.
Podríamos señalar tres características fundamentales del protocolo:
OAI-PMH sigue el principio de que existen múltiples proveedores de datos (PD) que comparten información con múltiples proveedores de servicios (PS) a través de un protocolo común. Los primeros son los depósitos de documentos que proporcionan los metadatos de los documentos que almacenan y los segundos son los recolectores o agregadores de contenidos, que toman los datos con el objetivo de incorporarles algún valor añadido y presentarlos a los usuarios finales. Entre los valores añadidos que se pueden ofrecer tenemos: sistema de búsqueda e identificación, filtrado, alertas temáticas, medición del uso e impacto de los documentos, etc.
Es importante matizar que OAI-PMH trata exclusivamente de la comunicación de metadatos, no de los textos completos de los documentos que se referencian.
La comunicación entre PD y PS se realiza utilizando transacciones http para emitir preguntas y obtener repuestas. El PS puede pedir al PD que le envíe metadatos según determinados criterios como por ejemplo la fecha de creación de los registros. En respuesta, el PD envía un conjunto de registros en formato XML. Las peticiones se emiten a través de los métodos GET y POST del protocolo http y constan de una lista de argumentos con la forma de pares del tipo: clave=valor. Ejemplo 0.
Existen solamente seis peticiones que un PS puede realizar a un PD:
El protocolo requiere que los metadatos se expresen en formato Dublín Core no calificado. No obstante esto es un mínimo común denominador puesto que es posible además que cada PD utilice formatos adicionales que permitan una descripción más rica de los documentos como por ejemplo MARC. Un PS puede pedir que los registros se le sirvan en cualquiera de los formatos soportados por el PD.
Ejemplo 0: http://pd.org/OAI-script?verb=Identify
Donde:
Ejemplo 1: Hemos seleccionado para ilustrar estos ejemplos el proveedor de datos de la Universitat Politécnica de Catalunya (UPC). En este caso pedimos simplemente la identificación del mismo. En la respuesta podemos comprobar datos como la dirección e-mail del administrador o que el registro más antiguo que contiene data de 2001.
Petición: http://eprints.upc.es:8080/pfc-oai/request?verb=Identify
Respuesta:
Ejemplo 2: En segundo lugar pedimos al PD de la UPC que nos indique con qué formatos de metadatos trabaja. En la respuesta podemos comprobar que utiliza exclusivamente Dublin Core no calificado.
Petición: http://eprints.upc.es:8080/pfc-oai/request?verb=ListMetadataFormats
Respuesta:
Ejemplo 3: Una vez que sabemos que la UPC trabaja con Dublin Core podemos proceder a solicitar que nos envíe los encabezamientos de los registros introducidos desde el 1 de enero al 1 de agosto de 2007.
Respuesta:
Ejemplo 4: Igual que en el ejemplo anterior, pero ahora recibimos los registros completos no sólo los encabezamientos.
Respuesta:
Ejemplo 5: Una vez que conocemos los identificadores de los registros por el método especificado en el ejemplo 3, podemos solicitar que se nos envíe un registro solamente. En este caso el identificado como oai:eprints.upc.es:2099.1/1479
Respuesta:
Ejemplo 6: Finalmente solicitamos las categorías con las que trabaja este PD. En la respuesta vemos como, entre otros, la UPC nos presenta una clasificación de sus contenidos en función de los centros de esta institución.
Petición: http://eprints.upc.es:8080/pfc-oai/request?verb=ListSets
Respuesta: