Curso impartido por Luis Martínez Uribe, DataLab, Biblioteca de la Fundación Juan March | Próxima convocatoria: 30 y 31 de enero de 2020 |

 

Presentación

La curación de datos incluye actividades como la limpieza, normalización, integración o el enriquecimiento de los mismos. Open Refine es una poderosa herramienta que nos permite trabajar de una manera sencilla con datos que necesitan ser curados y transformados en datos limpios y listos para ser reutilizados o analizados.

El curso tratará el uso de la herramienta Open Refine a distintos niveles y comenzando con su instalación y configuración. Se abordará la carga de datos en distintos formatos, la ordenación y filtrado, el análisis exploratorio, los diversos facetados disponibles, la normalización y desambiguación automática de autoridades, las transformaciones masivas, así como el cruce de datos con fuentes externas.

Objetivos

El curso tiene por objetivos:

  • Comprender los principios de la curación de datos incluidos sus elementos de calidad e integración
  • Aprender a instalar la herramienta Open Refine y cargar datos de diversos formatos
  • Conocer las funcionalidades básicas de ordenación, facetado y filtrado de datos
  • Realizar un análisis exploratorio básico para detectar problemas en los datos
  • Utilizar diversas estrategias para transformar y normalizar datos de manera masiva
  • Explorar las funcionalidades de desambiguación de autoridades y de enlace con datos externos
  • Conocer los elementos básicos de las expresiones regulares y su aplicación en Open Refine

Destinatarios

  • El curso está destinado a Bibliotecarios, Documentalistas o Archiveros que trabajen, o tengan interés en trabajar con datos de manera masiva para su limpieza y enriquecimiento.

Horas lectivas: 9 h.
Nº de plazas: 15

  • El curso tiene una duración de dos días en formato presencial
  • Si deseas consultar el gráfico en el que se detalla el programa, puedes hacerlo pulsando en el panel superior.
  • Horario clases prácticas: 30 y 31 de enero de 2020 de 16 a 20:30 horas.
  • Lugar: Calle Fuencarral, 160 Entreplanta. (2Formación) — 28010 Madrid

Metodología

  • Este curso utiliza una combinación de materiales teóricos y ejercicios prácticos que permiten aprender a utilizar esta herramienta para la curación de datos

Prácticas

  • Las prácticas consistirán en descargar una serie de datos para después acometer diferentes ejercicios de transformación y limpieza de los mismos que permitan contestar a una serie de preguntas entregando los resultados de procesar los datos

Titulación

  • Certificado de Asistencia al curso:
    LIMPIEZA Y ENRIQUECIMIENTO DE DATOS CON OPEN REFINE

DIRECTOR DEL CURSO:

  • LUIS MARTÍNEZ URIBE
    DataLab, Biblioteca de la Fundación Juan March

Licenciado en Matemáticas, Universidad Complutense de Madrid, especialidad en Ciencia de datos, datos de investigación, bibliotecas de datos y Máster en Sistemas de la Información, London School of Economics. Estudiante de doctorado en Sociología, Universidad de Salamanca.

Empezó trabajando como bibliotecario de datos en la London School of Economics. Ha sido coordinador de Investigación de Repositorios Digitales, en la Universidad de Oxford. También bibliotecario de datos en el Instituto Juan March de Madrid. Durante un año fue analista de datos en el Australian National Data Service de Melbourne. Desde 2014 trabaja como científico de datos en el DataLab de la Biblioteca Fundación Juan March.

En el desarrollo de su actividad profesional ha sido co-fundador del grupo DISC-UK (Comité especialista en información de datos), copresidente IASSIST Fellows, miembro del grupo de trabajo en datos científicos RECOLECTA / FECYT  y revisor en revistas académicas como «El Profesional de la Información» o «Revista Internacional de Gestión de la Información».

Mód. 1: Primeros pasos con Open Refine

  • Introducción al curso y objetivos del modulo
  • Principios teóricos de la curación de datos
  • Instalación y configuración de Open Refine
  • Creación de un proyecto y carga de nuevos datos desde distintas fuentes
  • Exploración de la interfaz y de los distintos elementos disponibles
  • Exportación de un proyecto
  • Tarea 1

Mód. 2: Análisis y manipulación básicas de datos

  • Introducción al módulo y objetivos
  • Tareas básicas de manipulación de datos:
    • ordenación
    • facetado
    • filtrado
    • eliminación de duplicados y transformaciones simples
  • Tarea 2

Mód. 3: Operaciones avanzadas

  • Introducción al módulo y objetivos
  • Manejo de celdas multi-valor
  • Transformar valores de una celda
  • Generación de columnas derivadas
  • Separación de datos en columnas
  • Transposición de filas y columnas
  • Tarea 3

Mód. 4: Desambiguación de autoridades

  • Introducción al módulo y objetivos
  • ¿En qué consiste la desambiguación de autoridades?
  • Técnicas de agrupación (clustering) disponibles
  • Uso de las técnicas de agrupación para la desambiguación de autoridades
  • Tarea 4

Mód. 5:

  • Enlace a datos externos
  • Introducción al módulo y objetivos
  • El concepto de reconciliar datos
  • Enlazar con FreeBase
  • Instalación de extensiones
  • Añadir un servicio de reconciliación
  • Reconciliar autoridades
  • Tarea 5

Mód. 6: Expresiones regulares y GREL

  • Introducción al módulo y objetivos
  • Las expresiones regulares
  • General Refine Expression Language (GREL)
  • Usar GREL para transformar datos
  • Tarea 6

Convocatoria abierta: 30 y 31 de enero de 2020

fas|fa-money-check-alt|

Socilitud de presupuesto para curso a medida

Además de la convocatoria abierta a profesionales, en SEDIC ofrecemos a instituciones o empresas la posibilidad de realizar una edición exclusiva para ellos.

En las ediciones a medida, al período lectivo del curso se le añaden 2 días previos de familiarización con la plataforma.

Si está interesado, puede solicitar información a través del siguiente formulario:

Formato

IDENTIDAD: SEDIC DIRECCIÓN: CALLE RODRIGUEZ SAN PEDRO, 2 C. POSTAL: 28015 LOCALIDAD: MADRID CIF: G-28706067 TELÉFONO: 915934059 EMAIL: gerencia@sedic.es En nombre de SEDIC tratamos la información que nos facilita con el fin de prestarles el servicio de gestión de los datos de los usuarios que comunican con la asociación a través del sitio web. Los datos proporcionados se conservarán hasta la revocación del consentimiento o durante los años necesarios para cumplir con las obligaciones legales. El interesado ha sido informado para ser incluido en el mencionado tratamiento, haciéndose responsable de la veracidad de los mismos y las modificaciones que sufran en el futuro. En cuanto a la legitimación del tratamiento estará regulada por el consentimiento del interesado. SEDIC no cederá datos a terceros, salvo obligación legal. Si lo desea, puede dirigirse a SEDIC con el fin de ejercer los derechos de acceso, rectificación, supresión y portabilidad de sus datos y la limitación u oposición a su tratamiento. Por otro lado, si lo ha facilitado, tendrá derecho a retirar el consentimiento prestado y derecho a reclamar ante la Agencia Española de Protección de Datos. Las categorías de datos que se tratan son datos identificativos. No se tratan datos especialmente protegidos. El origen de los datos es el propio interesado o su representante legal. Los usuarios serán los colectivos interesados a tal fin.

7 + 7 =

SEDIC

C/ Rodríguez San Pedro 2. Oficina 606. 28015 Madrid

34 915 934 059 / +34 639 186 570

sedic@sedic.es