Curación de datos con Open Refine

Del 1 al 23 de febrero de 2018. Un curso de e-learning que integra:

  • Los CONOCIMIENTOS PROFESIONALES de un reputado especialista en sistemas y técnicas de digitalización de documentos para centros de documentación, archivos y bibliotecas: LUIS MARTÍNEZ URIBE (DataLab, Biblioteca de la Fundación Juan March).
  • El AVAL y la GARANTÍA de SEDIC, que como institución líder en la formación continua de profesionales de la información, certifica a los alumnos el nivel de aprendizaje adquirido

Inscripción

PresentaciónObjetivosDestinatariosDuración y horarioMetodologíaPrácticasEvaluaciónTitulaciónEquipo PedagógicoProgramaDatos PrácticosEquipamiento Necesario

PRESENTACIÓN

La curación de datos incluye actividades como la limpieza, normalización, integración o el enriquecimiento de los mismos. Open Refine es una poderosa herramienta que nos permite trabajar de una manera sencilla con datos que necesitan ser curados y transformados en datos limpios y listos para ser reutilizados o analizados.

El curso tratará el uso de la herramienta Open Refine a distintos niveles y comenzando con su instalación y configuración. Se abordará la carga de datos en distintos formatos, la ordenación y filtrado, el análisis exploratorio, los diversos facetados disponibles, la normalización y desambiguación automática de autoridades, las transformaciones masivas, así como el cruce de datos con fuentes externas.

OBJETIVOS

El curso tiene por objetivos:

  • Comprender los principios de la curación de datos incluidos sus elementos de calidad e integración
  • Aprender a instalar la herramienta Open Refine y cargar datos de diversos formatos
  • Conocer las funcionalidades básicas de ordenación, facetado y filtrado de datos
  • Realizar un análisis exploratorio básico para detectar problemas en los datos
  • Utilizar diversas estrategias para transformar y normalizar datos de manera masiva
  • Explorar las funcionalidades de desambiguación de autoridades y de enlace con datos externos
  • Conocer los elementos básicos de las expresiones regulares y su aplicación en Open Refine

DESTINATARIOS

El curso está destinado a Bibliotecarios, Documentalistas o Archiveros que trabajen, o tengan interés en trabajar con datos de manera masiva para su limpieza y enriquecimiento.

DURACIÓN Y HORARIO

  • El curso tiene una duración de tres semanas. Las semanas del curso se entienden como semanas lectivas (de lunes a viernes).
  • El período lectivo del curso dará comienzo el 1 de febrero y se extenderá hasta el 23 de febrero de 2018. Si deseas consultar el gráfico en el que se detalla el programa, puedes hacerlo pulsando en el panel superior.
  • El horario para seguir el curso será flexible y adaptado a las características individuales de cada alumno. Será necesario que todos los alumnos se conecten a diario (entren en la plataforma virtual), consultando las actividades planteadas por el profesor y trabajen de acuerdo al calendario incluido en el programa. Cada usuario se podrá conectar a cualquier hora del día.

METODOLOGÍA

  • Este curso utiliza una combinación de materiales teóricos y ejercicios prácticos que permiten aprender a utilizar esta herramienta para la curación de datos

PRÁCTICAS

  • Las prácticas consistirán en descargar una serie de datos para después acometer diferentes ejercicios de transformación y limpieza de los mismos que permitan contestar a una serie de preguntas entregando los resultados de procesar los datos

EVALUACIÓN

Se evaluará el grado de seguimiento y participación de los alumnos durante el desarrollo del curso on-line, según los criterios establecidos a tal efecto por el profesor/director.

TITULACIÓN

  • Certificado de Gran Aprovechamiento del Curso on-line
    CURACIÓN DE CONTENIDOS CON OPEN REFINE
  • Certificado de Aprovechamiento del Curso on-line
    CURACIÓN DE CONTENIDOS CON OPEN REFINE
  • Certificado de Seguimiento del Curso on-line
    CURACIÓN DE CONTENIDOS CON OPEN REFINE

Para obtener uno de estos tres certificados será indispensable que el alumno cumplimente las actividades obligatorias que se irán indicando.

EQUIPO PEDAGÓGICO

El equipo pedagógico lo forman un profesor (director del curso), un coordinador pedagógico y un supervisor.

Analizamos a continuación las funciones de cada una de estas personas en el curso.

DIRECTOR DEL CURSO:

  • LUIS MARTÍNEZ URIBE
    DataLab, Biblioteca de la Fundación Juan March

Licenciado en Matemáticas, Universidad Complutense de Madrid, especialidad en Ciencia de datos, datos de investigación, bibliotecas de datos y Máster en Sistemas de la Información, London School of Economics. Estudiante de doctorado en Sociología, Universidad de Salamanca.

Empezó trabajando como bibliotecario de datos en la London School of Economics. Ha sido coordinador de Investigación de Repositorios Digitales, en la Universidad de Oxford. También bibliotecario de datos en el Instituto Juan March de Madrid. Durante un año fue analista de datos en el Australian National Data Service de Melbourne. Desde 2014 trabaja como científico de datos en el DataLab de la Biblioteca Fundación Juan March.

En el desarrollo de su actividad profesional ha sido co-fundador del grupo DISC-UK (Comité especialista en información de datos), copresidente IASSIST Fellows, miembro del grupo de trabajo en datos científicos RECOLECTA / FECYT  y revisor en revistas académicas como “El Profesional de la Información” o “Revista Internacional de Gestión de la Información”.

Las funciones del Profesor/Director son:

  • Crear los contenidos y actividades del curso
  • Coordinar la elaboración de los materiales necesarios
  • Impartir y tutorizar el curso
  • Atender a las consultas de los alumnos
  • Evaluar la calidad del aprendizaje de los alumnos

El coordinador pedagógico es la persona de referencia para los participantes a lo largo de todo el curso para todas las cuestiones no académicas. Los participantes podrán dirigirse a él en cualquier momento que lo precisen, bien por e-mail, bien por teléfono. En caso de que éste no esté activo, podrán dejar sus mensajes en el buzón de voz.

Las funciones del Coordinador directamente relacionadas con los participantes son:

  • Asegurarse que todos los participantes han recibido toda la documentación del curso.
  • Hacer un seguimiento diario de la participación de los alumnos, comprobando si se conectan y si envían mensajes con regularidad
  • Entrar en contacto con los participantes que no sigan regularmente el curso para averiguar a qué es debido e intentar solucionarlo

Las funciones del Supervisor son:

  • Asegurarse que el curso reúne los requisitos de calidad establecidos por SEDIC, realizando un seguimiento de:
    – Materiales docentes.
    – Virtualización de los materiales docentes y las actividades del curso.
    – Seguimiento de la marcha del curso.
  • Realizar el análisis final del desarrollo del curso.

PROGRAMA

Semana Módulos Contenido Duración
Semana 0 Mód. 0:
Utilización de la plataforma
  • Configuraciones de los programas.
  • Solución de cualquier problema técnico.
  • Aprendizaje de los recursos que ofrece la plataforma: foros, chat, material del curso, etc.
1 y 2 de febrero.
Estos días no forman parte del curso y son voluntarios
1ª Semana Mód. 1:
Primeros pasos con Open Refine
  • Introducción al curso y objetivos del modulo
  • Principios teóricos de la curación de datos
  • Instalación y configuración de Open Refine
  • Creación de un proyecto y carga de nuevos datos desde distintas fuentes
  • Exploración de la interfaz y de los distintos elementos disponibles
  • Exportación de un proyecto
  • Tarea 1
 Del 5 al 9 de febrero
Mód. 2:
Análisis y manipulación básicas de datos
    • Introducción al módulo y objetivos
    • Tareas básicas de manipulación de datos:

– ordenación
– facetado
– filtrado
– eliminación de duplicados y transformaciones simples

  • Tarea 2
2ª Semana Mód. 3:
Operaciones avanzadas
  • Introducción al módulo y objetivos
  • Manejo de celdas multi-valor
  • Transformar valores de una celda
  • Generación de columnas derivadas
  • Separación de datos en columnas
  • Transposición de filas y columnas
  • Tarea 3
Del 12 al 16 de febrero
Mód. 4:
Desambiguación de autoridades
  • Introducción al módulo y objetivos
  • ¿En qué consiste la desambiguación de autoridades?
  • Técnicas de agrupación (clustering) disponibles
  • Uso de las técnicas de agrupación para la desambiguación de autoridades
  • Tarea 4
 3ª Semana Mód. 5:
Enlace a datos externos
  • Introducción al módulo y objetivos
  • El concepto de reconciliar datos
  • Enlazar con FreeBase
  • Instalación de extensiones
  • Añadir un servicio de reconciliación
  • Reconciliar autoridades
  • Tarea 5
 Del 19 al 23 de febrero
Mód. 6:
Expresiones regulares y GREL
  • Introducción al módulo y objetivos
  • Las expresiones regulares
  • General Refine Expression Language (GREL)
  • Usar GREL para transformar datos
  • Tarea 6

DATOS PRÁCTICOS

Fechas: del 5 al 27 de abril de 2018
Horas lectivas: 45 h.
Nº de plazas: 30
Matrícula:
Socios: 190 €
Socios desempleados y socios menores de 30: 120 €
No Socios: 290 €

En el caso de baja por enfermedad durante el curso que impida su realización, se comunicará al coordinador pedagógico en el momento de obtención de la baja y se remitirá el parte de baja.

 

Más información

SEDIC
Rodríguez San Pedro 2, Oficina 606
28015 Madrid
Teléfono 91 593 40 59
secretaria@sedic.es
www.sedic.es

Acceso al aula virtual

EQUIPAMIENTO NECESARIO

Para el presente curso es necesario que se disponga del siguiente equipamiento:

  • PC con procesador pentium III o superior con al menos 512 Mb de memoria RAM

Además se emplearán los siguientes programas, previamente instalados en los ordenadores:

  • Sistema operativo Windows XP o superior.
  • Navegador Microsoft Internet Explorer 8.x o superior.
  • Office 97 (recomendado office 2000 o superior)
  • Adobe Acrobat Reader 5.0 o superior (recomendado última versión gratuita disponible). Para descargar este software, de carácter gratuito, haz click aquí
  • Irfanview 4.00 (con todos sus plugins). Para descargar este software, de carácter gratuito, haz click aquí (en su momento, el profesor del curso asesorará y dará instrucciones de cómo instalar y configurar este software).

Para solucionar cualquier problema técnico que pueda surgir, el alumno se deberá poner en contacto con el Coordinador del curso por el medio que le resulte más conveniente (ver apartado “Equipo pedagógico”)