Introducción a la extracción de datos en la Web (noviembre 2018)

Del 31 de octubre al 16 de noviembre de 2018. Un curso de e-learning que integra:

  • Los CONOCIMIENTOS PROFESIONALES de un reputado especialista en extracción de datos de la web: JOSÉ LUIS ORTEGA PRIEGO (Cybermetrics Lab, CSIC).
  • El AVAL y la GARANTÍA de SEDIC, que como institución líder en la formación continua de profesionales de la información, certifica a los alumnos el nivel de aprendizaje adquirido

Curso patrocinado por:

escudo-mecd

PresentaciónObjetivosDestinatariosDuración y HorarioMetodologíaEvaluaciónPrácticasTitulaciónEquipo PedagógicoProgramaDatos PrácticosEquipamiento Necesario

PRESENTACIÓN

El número constante de datos que la Web alberga no hace más que aumentar. La irrupción de la “Internet de las cosas”, el bajo coste en el almacenamiento y la web social con millones de interacciones están haciendo de la Web un enorme repositorio de datos que describen nuestro entorno y nuestras interacciones. Cada vez el valor de estos datos es mayor ya que permite a empresas detectar oportunidades de negocio y a las administraciones conocer a sus ciudadanos. La popularización del término Big data no hace más que señalar el potencial que tiene el análisis de datos a partir de fuentes remotas y en tiempo real. Sin embargo, toda esta información se presenta en páginas web desestructuradas o en complejas bases de datos de difícil acceso que dificultan su extracción, procesamiento y análisis.

En este entorno, el papel del documentalista no debe limitarse a las tareas tradicionales de localización, identificación y descripción de la información, sino añadir una función más, la de extraer estos datos de forma estructurada que posibilite el procesamiento y análisis. Ante esta nueva revolución de la información, el documentalista debe conocer las herramientas que le sitúe en la primera línea de la nueva era de los datos.

OBJETIVOS

  • Introducir al alumno en el mundo de la extracción y procesamiento de datos web a través de conceptos y definiciones asociados a esta técnica. Términos como Internet de las Cosas, Big Data, crawlers, etc., servirán para que el alumno adquiera un contexto que le permita conocer en qué se basa y para qué sirve la extracción masiva de datos.
  • Conocer los elementos fundamentales en la vida de los datos, desde la extracción hasta su conservación, las fuentes de datos más relevantes y las políticas existentes sobre el tratamiento de estos. Conceptos como Conservador de datos (Data curator) o Repositorios de datos abiertos (Open Data repositories) permitirán al alumno conocer dónde localizar las fuentes de datos más importantes y cómo tratarlas y utilizarlas.
  • Conocer los elementos básicos en la extracción de datos; las diferencias entre crawling (rastreo) y scraping (recolectar); el funcionamiento de los robots de los principales buscadores; y las principales técnicas como Web scraping o el uso de APIs.
  • Conocer de forma práctica las distintas aplicaciones existentes para la extracción de datos, como lenguajes de consulta (SPARQL), plug-in de navegadores (Web Scraper) y lenguajes de programación (R).
  • Finalmente, aprender a diseñar un crawler para extraer datos de la Web usando diferentes formas y aplicaciones.

DESTINATARIOS

  • Investigadores interesados en conocer técnicas de extracción de datos en la Web para obtener datos para sus propios proyectos de investigación.
  • Profesionales de la información en general que quieran aprender a desarrollar un crawler y aprenda a extraer datos de la Web.

DURACIÓN Y HORARIO

  • El curso tiene una duración de dos semanas. Las semanas del curso se entienden como semanas lectivas (de lunes a viernes).
  • El período lectivo del curso dará comienzo el día 31 de octubre y se extenderá hasta el 16 de noviembre de 2018. Si deseas consultar el gráfico en el que se detalla el programa, puedes hacerlo pulsando en el panel superior.
  • El horario para seguir el curso será flexible y adaptado a las características individuales de cada alumno. Será necesario que todos los alumnos se conecten a diario (entren en la plataforma virtual), consultando las actividades planteadas por el profesor y trabajen de acuerdo al calendario incluido en el programa. Cada usuario se podrá conectar a cualquier hora del día.

METODOLOGÍA

  • El acceso a los contenidos del curso a través de la plataforma de e-learning, permite al alumno flexibilidad de aprendizaje. No obstante, se marcarán los ítems fundamentales de consulta, entrega y participación en las distintas actividades que forman parte del curso.
  • El curso se compone de 4 Módulos de contenidos, a los cuales se irá dando acceso escalonado, siendo obligatorio completar las actividades de cada uno antes de pasar al siguiente.
  • Se pretende una interacción tutor-alumnos máxima, por lo que los foros y otros medios serán básicos en la realización de este curso.
  • Las sesiones están diseñadas para que el tiempo de dedicación diario estimado sea de 2 horas a 2 horas 30 minutos, contando con todas las actividades posibles a realizar: estudio, ejercicios, correo, etc.

EVALUACIÓN

Se evaluará el grado de seguimiento y participación de los alumnos durante el desarrollo del curso on-line, según los criterios establecidos a tal efecto por el profesor/director.

PRÁCTICAS

  • Aprender el manejo del lenguaje de consulta SPARQL para la extracción de datos enlazados.
  • Aprender el manejo de software para la extracción de datos (Web Scraper): Desarrollo de un proyecto propio de extracción de datos.
  • Aprender conceptos básicos del leguaje R con RStudio y poder construir un crawler para la extracción de datos de un sitio web.

TITULACIÓN

  • Certificado de Gran Aprovechamiento del Curso on-line
    INTRODUCCIÓN A LA EXTRACCIÓN DE DATOS EN LA WEB
  • Certificado de Aprovechamiento del Curso on-line
    INTRODUCCIÓN A LA EXTRACCIÓN DE DATOS EN LA WEB
  • Certificado de Seguimiento del Curso on-line
    INTRODUCCIÓN A LA EXTRACCIÓN DE DATOS EN LA WEB

Para obtener uno de estos tres certificados será indispensable que el alumno cumplimente las actividades obligatorias que se irán indicando.

EQUIPO PEDAGÓGICO

El equipo pedagógico lo forman un profesor (director del curso), un coordinador pedagógico y un supervisor.

Analizamos a continuación las funciones de cada una de estas personas en el curso.

DIRECTOR DEL CURSO:

  • JOSÉ LUIS ORTEGA PRIEGO
    Cybermetrics Lab, CSIC.

Especialidad:

  • Licenciado en Documentación (Universidad de Granada), 1999
  • Doctor en Documentación (Universidad Carlos III de Madrid), 2007

Historial profesional:

Desde 2003 forma parte del Laboratorio de Cibermetría del CSIC, donde ha participado en diversos proyectos europeos y ha publicado numerosos trabajos sobre distintos temas como son la cibermetría, bibliometría, buscadores académicos y redes sociales académicas. Autor de los libros “Academic Search Engines: a quantitative Outlook” (2014) y “Social Network Sites for Scientists: A quantitative Survey” (2016). Su amplia experiencia en la extracción de datos web para sus investigaciones le permite dirigir este curso.

Para más información:

https://www.researchgate.net/profile/Jose_Ortega7

http://jlortega.scienceontheweb.net

Las funciones del Profesor/Director son:

  • Crear los contenidos y actividades del curso
  • Coordinar la elaboración de los materiales necesarios
  • Impartir y tutorizar el curso
  • Atender a las consultas de los alumnos
  • Evaluar la calidad del aprendizaje de los alumnos

El coordinador pedagógico es la persona de referencia para los participantes a lo largo de todo el curso para todas las cuestiones no académicas. Los participantes podrán dirigirse a él en cualquier momento que lo precisen, bien por e-mail, bien por teléfono. En caso de que éste no esté activo, podrán dejar sus mensajes en el buzón de voz.

Las funciones del Coordinador directamente relacionadas con los participantes son:

  • Asegurarse que todos los participantes han recibido toda la documentación del curso.
  • Hacer un seguimiento diario de la participación de los alumnos, comprobando si se conectan y si envían mensajes con regularidad
  • Entrar en contacto con los participantes que no sigan regularmente el curso para averiguar a qué es debido e intentar solucionarlo

Las funciones del Supervisor son:

  • Asegurarse que el curso reúne los requisitos de calidad establecidos por SEDIC, realizando un seguimiento de:
    – Materiales docentes.
    – Virtualización de los materiales docentes y las actividades del curso.
    – Seguimiento de la marcha del curso.
  • Realizar el análisis final del desarrollo del curso.

PROGRAMA

Semana Módulos Contenido Duración
Semana 0 Mód. 0:
Utilización de la plataforma
  • Configuraciones de los programas.
  • Solución de cualquier problema técnico.
  • Aprendizaje de los recursos que ofrece la plataforma: foros, chat, material del curso, etc.
31 de octubre y 2 de noviembre.
Estos días no forman parte del curso y son voluntarios
1ª Semana Mód. 1:
Introducción
  • Los datos en Documentación
  • APIs Web
  • Internet de las Cosas
  • Big Data
Del 5 al 9 de noviembre
Mód. 2:
Web scraping
  • Web scraping
  • Crawlers
  • Web Scraper
  • Implicaciones éticas y legales
2ª Semana Mód. 3:
Datos abiertos
  • Portales de datos
  • Repositorios
  • Datos enlazados
  • SPARQL
Del 12 al 16 de noviembre
Mód. 4:
Diseño de un crawler en R
  • R y RStudio
  • Rcrawler y ContentScraper
  • Xpath

DATOS PRÁCTICOS

Fechas: del 31 de octubre al 16 de noviembre de 2018
Horas lectivas: 30 h.
Nº de plazas: 30
Matrícula:
Socios: 130 €
Socios desempleados y socios menores de 30: 80 €
No Socios: 210 €

En el caso de baja por enfermedad durante el curso que impida su realización, se comunicará al coordinador pedagógico en el momento de obtención de la baja y se remitirá el parte de baja.

 

Más información

SEDIC
Rodríguez San Pedro 2, oficina 606
28015 Madrid
Teléfono 91 593 40 59
secretaria@sedic.es
www.sedic.es

Acceso al aula virtual

EQUIPAMIENTO NECESARIO

Para la realización del curso se empleará el siguiente software:

Para el presente curso es necesario que se disponga del siguiente equipamiento:

  • PC con procesador pentium III o superior con al menos 512 Mb de memoria RAM

Además se emplearán los siguientes programas, previamente instalados en los ordenadores:

  • Sistema operativo Windows XP o superior.
  • Navegador Microsoft Internet Explorer 8 o superior.
  • Office 97 (recomendado office 2000 o superior)
  • Adobe Acrobat Reader 5.0 o superior (recomendado última versión gratuita disponible). Para descargar este software, de carácter gratuito, haz click aquí

Para solucionar cualquier problema técnico que pueda surgir, el alumno se deberá poner en contacto con el Coordinador del curso por el medio que le resulte más conveniente (ver apartado “Equipo pedagógico”)