Curso impartido por Luis Martínez Uribe, DataLab, Biblioteca de la Fundación Juan March | Fechas de impartición: de 17 de noviembre a 12 de diciembre
Grado de dificultad
- Presentación
- Datos básicos
- Metodología y titulación
- Equipo pedagógico
- Programa
- Convocatorias
- Equipamiento
- Testimonios
Presentación
La curación de datos incluye actividades como la limpieza, normalización, integración o el enriquecimiento de los mismos. Open Refine es una poderosa herramienta que nos permite trabajar de una manera sencilla con datos que necesitan ser curados y transformados en datos limpios y listos para ser reutilizados o analizados.
El curso tratará el uso de la herramienta Open Refine a distintos niveles y comenzando con su instalación y configuración. Se abordará la carga de datos en distintos formatos, la ordenación y filtrado, el análisis exploratorio, los diversos facetados disponibles, la normalización y desambiguación automática de autoridades, las transformaciones masivas, así como el cruce de datos con fuentes externas.
Objetivos
El curso tiene por objetivos:
- Comprender los principios de la curación de datos incluidos sus elementos de calidad e integración
- Aprender a instalar la herramienta Open Refine y cargar datos de diversos formatos
- Conocer las funcionalidades básicas de ordenación, facetado y filtrado de datos
- Realizar un análisis exploratorio básico para detectar problemas en los datos
- Utilizar diversas estrategias para transformar y normalizar datos de manera masiva
- Explorar las funcionalidades de desambiguación de autoridades y de enlace con datos externos
- Conocer los elementos básicos de las expresiones regulares y su aplicación en Open Refine
Destinatarios
- El curso está destinado a Bibliotecarios, Documentalistas o Archiveros que trabajen, o tengan interés en trabajar con datos de manera masiva para su limpieza y enriquecimiento.
Horas lectivas: 60 h.
- Con el objetivo de dar respuesta a socios y alumnos que venían reclamando un aumento de horas certificadas y de los plazos de ejecución de los cursos de SEDIC, desde el mes de julio de 2023 se amplían las horas lectivas certificadas y las semanas de impartición de este curso.
Nº de plazas: 30
- El curso tiene una duración de cuatro semanas (tres semanas de docencia y una última semana para entrega de trabajos y prácticas). Las semanas del curso se entienden como semanas lectivas (de lunes a viernes).
- Si deseas consultar el gráfico en el que se detalla el programa, puedes hacerlo pulsando en el panel superior.
El horario para seguir el curso será flexible y adaptado a las características individuales de cada alumno. Será necesario que todos los alumnos se conecten a diario (entren en la plataforma virtual), consultando las actividades planteadas por el profesor y trabajen de acuerdo al calendario incluido en el programa. Cada usuario se podrá conectar a cualquier hora del día. - En el caso de baja por enfermedad durante el curso que impida su realización, se comunicará al coordinador pedagógico en el momento de obtención de la baja y se remitirá el parte de baja.
Metodología
- Este curso utiliza una combinación de materiales teóricos y ejercicios prácticos que permiten aprender a utilizar esta herramienta para la curación de datos
Prácticas
- Las prácticas consistirán en descargar una serie de datos para después acometer diferentes ejercicios de transformación y limpieza de los mismos que permitan contestar a una serie de preguntas entregando los resultados de procesar los datos
Evaluación
Se evaluará el grado de seguimiento y participación de los alumnos durante el desarrollo del curso on-line, según los criterios establecidos a tal efecto.
Titulación
- Certificado de Gran Aprovechamiento del Curso on-line
LIMPIEZA Y ENRIQUECIMIENTO DE DATOS CON OPEN REFINE - Certificado de Aprovechamiento del Curso on-line
LIMPIEZA Y ENRIQUECIMIENTO DE DATOS CON OPEN REFINE - Certificado de Seguimiento del Curso on-line
LIMPIEZA Y ENRIQUECIMIENTO DE DATOS CON OPEN REFINE
Para obtener uno de estos tres certificados será indispensable que el alumno cumplimente las actividades obligatorias que se irán indicando.
El equipo pedagógico lo forman un director, un coordinador pedagógico y un supervisor.
Analizamos a continuación las funciones de cada una de estas personas en el curso.
DIRECTOR DEL CURSO:
- LUIS MARTÍNEZ URIBE
DataLab, Biblioteca de la Fundación Juan March
Licenciado en Matemáticas, Universidad Complutense de Madrid, especialidad en Ciencia de datos, datos de investigación, bibliotecas de datos y Máster en Sistemas de la Información, London School of Economics. Estudiante de doctorado en Sociología, Universidad de Salamanca.
Empezó trabajando como bibliotecario de datos en la London School of Economics. Ha sido coordinador de Investigación de Repositorios Digitales, en la Universidad de Oxford. También bibliotecario de datos en el Instituto Juan March de Madrid. Durante un año fue analista de datos en el Australian National Data Service de Melbourne. Desde 2014 trabaja como científico de datos en el DataLab de la Biblioteca Fundación Juan March.
En el desarrollo de su actividad profesional ha sido co-fundador del grupo DISC-UK (Comité especialista en información de datos), copresidente IASSIST Fellows, miembro del grupo de trabajo en datos científicos RECOLECTA / FECYT y revisor en revistas académicas como «El Profesional de la Información» o «Revista Internacional de Gestión de la Información».
Las funciones de los Profesores/Directores son:
- Crear los contenidos y actividades del curso
- Coordinar la elaboración de los materiales necesarios
- Impartir y tutorizar el curso
- Atender a las consultas de los alumnos
- Evaluar la calidad del aprendizaje de los alumnos
El coordinador pedagógico es la persona de referencia para los participantes a lo largo de todo el curso para todas las cuestiones no académicas. Los participantes podrán dirigirse a él en cualquier momento que lo precisen, bien por e-mail, bien por teléfono. En caso de que éste no esté activo, podrán dejar sus mensajes en el buzón de voz.
Las funciones del Coordinador directamente relacionadas con los participantes son:
- Asegurarse que todos los participantes han recibido toda la documentación del curso
- Hacer un seguimiento diario de la participación de los alumnos, comprobando si se conectan y si envían mensajes con regularidad
- Entrar en contacto con los participantes que no sigan regularmente el curso para averiguar a qué es debido e intentar solucionarlo
Las funciones del Supervisor son:
Mód. 1: Primeros pasos con Open Refine
- Introducción al curso y objetivos del modulo
- Principios teóricos de la curación de datos
- Instalación y configuración de Open Refine
- Creación de un proyecto y carga de nuevos datos desde distintas fuentes
- Exploración de la interfaz y de los distintos elementos disponibles
- Exportación de un proyecto
- Tarea 1
Mód. 2: Análisis y manipulación básicas de datos
- Introducción al módulo y objetivos
- Tareas básicas de manipulación de datos:
- ordenación
- facetado
- filtrado
- eliminación de duplicados y transformaciones simples
- Tarea 2
Mód. 3: Operaciones avanzadas
- Introducción al módulo y objetivos
- Manejo de celdas multi-valor
- Transformar valores de una celda
- Generación de columnas derivadas
- Separación de datos en columnas
- Transposición de filas y columnas
- Tarea 3
Mód. 4: Desambiguación de autoridades
- Introducción al módulo y objetivos
- ¿En qué consiste la desambiguación de autoridades?
- Técnicas de agrupación (clustering) disponibles
- Uso de las técnicas de agrupación para la desambiguación de autoridades
- Tarea 4
Mód. 5:
- Enlace a datos externos
- Introducción al módulo y objetivos
- El concepto de reconciliar datos
- Enlazar con FreeBase
- Instalación de extensiones
- Añadir un servicio de reconciliación
- Reconciliar autoridades
- Tarea 5
Mód. 6: Expresiones regulares y GREL
- Introducción al módulo y objetivos
- Las expresiones regulares
- General Refine Expression Language (GREL)
- Usar GREL para transformar datos
- Tarea 6
Convocatoria abierta próximamente
- de 17 de noviembre a las 11:59 AM a 12 de diciembre
Convocatorias anteriores:
- de 1 de abril a las 11:59 AM a 26 de abril de 2024
- de 6 de marzo a las 11:59 AM a 24 de marzo de 2023
- de 21 de marzo a las 11:59 AM a 8 de abril de 2022
- de 12 de abril a las 11:59 AM a 30 de abril de 2021
- de 4 a 22 de mayo de 2020
- 30 y 31 de enero de 2020 (Presencial)
Convocatoria patrocinada por:
El curso ha cumplido con mis expectativas. Excelente curso introductorio a la herramienta. Excelente la atención del tutor.
Se trata de un curso extraordinario. Muy práctico y de una gran utilidad. Los materiales didácticos y la conducción del curso han sido magníficos. El docente es extraordinariamente competente y desearía volver a coincidir con él en algún que otro curso sobre gestión de datos, especialmente en el entorno del web semántico.
Socilitud de presupuesto para curso a medida
Además de la convocatoria abierta a profesionales, en SEDIC ofrecemos a instituciones o empresas la posibilidad de realizar una edición exclusiva para ellos.
En las ediciones a medida, al período lectivo del curso se le añaden 2 días previos de familiarización con la plataforma.
Si está interesado, puede solicitar información a través del siguiente formulario: