Curso impartido por José Luis Ortega Priego, Instituto de Estudios Sociales Avanzados, CSICPróxima convocatoria: de 9 a 20 de marzo de 2020 |

Presentación

El número constante de datos que la Web alberga no hace más que aumentar. La irrupción de la “Internet de las cosas”, el bajo coste en el almacenamiento y la web social con millones de interacciones están haciendo de la Web un enorme repositorio de datos que describen nuestro entorno y nuestras interacciones. Cada vez el valor de estos datos es mayor ya que permite a empresas detectar oportunidades de negocio y a las administraciones conocer a sus ciudadanos. La popularización del término Big data no hace más que señalar el potencial que tiene el análisis de datos a partir de fuentes remotas y en tiempo real. Sin embargo, toda esta información se presenta en páginas web desestructuradas o en complejas bases de datos de difícil acceso que dificultan su extracción, procesamiento y análisis.

En este entorno, el papel del documentalista no debe limitarse a las tareas tradicionales de localización, identificación y descripción de la información, sino añadir una función más, la de extraer estos datos de forma estructurada que posibilite el procesamiento y análisis. Ante esta nueva revolución de la información, el documentalista debe conocer las herramientas que le sitúe en la primera línea de la nueva era de los datos.

 

Objetivos

Introducir al alumno en el mundo de la extracción y procesamiento de datos web a través de conceptos y definiciones asociados a esta técnica. Términos como Internet de las Cosas, Big Data, crawlers, etc., servirán para que el alumno adquiera un contexto que le permita conocer en qué se basa y para qué sirve la extracción masiva de datos.

  • Conocer los elementos fundamentales en la vida de los datos, desde la extracción hasta su conservación, las fuentes de datos más relevantes y las políticas existentes sobre el tratamiento de estos. Conceptos como Conservador de datos (Data curator) o Repositorios de datos abiertos (Open Data repositories) permitirán al alumno conocer dónde localizar las fuentes de datos más importantes y cómo tratarlas y utilizarlas.
  • Conocer los elementos básicos en la extracción de datos; las diferencias entre rastreo (crawling) y extracción (scraping); el funcionamiento de los robots de los principales buscadores; y, en concreto, la técnica de Web scraping.
  • Conocer en detalle la herramienta Web Scraper para la extracción estructurada de datos web.
  • Finalmente, aprender a diseñar un proceso de extracción con el software Web Scraper.

Destinatarios

  • Investigadores interesados en conocer técnicas de extracción de datos en la Web para obtener datos para sus propios proyectos de investigación. Con un nivel básico en el manejo de herramientas informáticas.
  • Profesionales de la información en general que quieran aprender de forma básica y sin programación cómo obtener pequeñas muestras de datos en la Web.

Horas lectivas: 30 h.
Nº de plazas: 30

  • El curso tiene una duración de dos semanas. Las semanas del curso se entienden como semanas lectivas (de lunes a viernes).
  • Si deseas consultar el gráfico en el que se detalla el programa, puede hacerlo pulsando en el panel superior.
  • El horario para seguir el curso será flexible y adaptado a las características individuales de cada alumno.Será necesario que todos los alumnos se conecten a diario (entren en la plataforma virtual), consultando las actividades planteadas por el profesor y trabajen de acuerdo al calendario incluido en el programa. Cada usuario se podrá conectar a cualquier hora del día.
  • En el caso de baja por enfermedad durante el curso que impida su realización, se comunicará al coordinador pedagógico en el momento de obtención de la baja y se remitirá el parte de baja.

Metodología

  • El acceso a los contenidos del curso a través de la plataforma de e-learning, permite al alumno flexibilidad de aprendizaje. No obstante, se marcarán los ítems fundamentales de consulta, entrega y participación en las distintas actividades que forman parte del curso.
  • El curso se compone de 3 Módulos de contenidos, a los cuales se irá dando acceso escalonado, siendo obligatorio completar las actividades de cada uno antes de pasar al siguiente.
  • Se pretende una interacción tutores-alumnos máxima, por lo que los foros y otros medios serán básicos en la realización de este curso.
  • Las sesiones están diseñadas para que el tiempo de dedicación diario estimado sea de 2 horas a 2 horas 30 minutos, contando con todas las actividades posibles a realizar: estudio, ejercicios, correo, etc.

Evaluación

Se evaluará el grado de seguimiento y participación de los alumnos durante el desarrollo del curso on-line, según los criterios establecidos a tal efecto.

Titulación

  • Certificado de Gran Aprovechamiento del Curso on-line
    TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER
  • Certificado de Aprovechamiento del Curso on-line
    TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER
  • Certificado de Seguimiento del Curso on-line
    TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER

Para obtener uno de estos tres certificados será indispensable que el alumno cumplimente las actividades obligatorias que se irán indicando.

  • Aprender el manejo en detalle del software para la extracción de datos (Web Scrape): Desarrollo de un proyecto propio de extracción de datos.

El equipo pedagógico lo forman un profesor (director del curso), un coordinador y un supervisor.

Analizamos a continuación las funciones de cada una de estas personas en el curso.

DIRECTOR DEL CURSO:

  • JOSÉ LUIS ORTEGA PRIEGO
    Instituto de Estudios Sociales Avanzados, CSIC.

Especialidad:

  • Licenciado en Documentación (Universidad de Granada), 1999
  • Doctor en Documentación (Universidad Carlos III de Madrid), 2007

Historial Profesional:

Desde 2003 formó parte del Laboratorio de Cibermetría del CSIC, donde ha participado en diversos proyectos europeos y ha publicado numerosos trabajos sobre distintos temas como son la cibermetría, bibliometría, buscadores académicos y redes sociales académicas. Actualmente, trabaja como investigador en el Instituto de Estudios Sociales Avanzados (IESA-CSIC). Autor de los libros “Academic Search Engines: a quantitative Outlook” (2014) y “Social Network Sites for Scientists: A quantitative Survey” (2016). Su amplia experiencia en la extracción de datos web para sus investigaciones le permite dirigir este curso.

Para más información:

https://scholar.google.es/citations?user=jYqQRWgAAAAJ

http://jlortega.scienceontheweb.net

 

Las funciones del director-profesor son:

  • Crear los contenidos y actividades del curso
  • Coordinar la elaboración de los materiales necesarios
  • Impartir y tutorizar el curso
  • Atender a las consultas de los alumnos
  • Evaluar la calidad del aprendizaje de los alumnos

El coordinador es la persona de referencia para los participantes a lo largo de todo el curso para todas las cuestiones no académicas. Los participantes podrán dirigirse a él en cualquier momento que lo precisen, bien por e-mail, bien por teléfono. En caso de que éste no esté activo, podrán dejar sus mensajes en el buzón de voz.

Las funciones del Coordinador directamente relacionadas con los participantes son:

  • Asegurarse que todos los participantes han recibido toda la documentación del curso
  • Hacer un seguimiento diario de la participación de los alumnos, comprobando si se conectan y si envían mensajes con regularidad
  • Entrar en contacto con los participantes que no sigan regularmente el curso para averiguar a qué es debido e intentar solucionarlo

Las funciones del Supervisor son:

  • Asegurarse que el curso reúne los requisitos de calidad establecidos por SEDIC, realizando un seguimiento de:
    – Materiales docentes.
    – Virtualización de los materiales docentes y las actividades del curso.
    – Seguimiento de la marcha del curso.
  • Realizar el análisis final del desarrollo del curso.

(1ª Semana)

Módulo 1: Introducción

  • Los datos en Documentación
  • APIs Web
  • Internet de las Cosas
  • Big Data

Módulo 2: Datos abiertos

  • Portales de datos
  • Repositorios
  • Datos enlazados
  • SPARQL

(2ª Semana)

Módulo 3: Web Scraping

  • Web scraping
  • Crawlers
  • Web Scraper
  • Implicaciones éticas y legales

Convocatoria abierta: de 9 a 20 de marzo de 2020

Para el presente curso es necesario de un mínimo equipamiento tecnológico :

  • Equipo informático con acceso a Internet, con un navegador actualizado, con acceso a programas de ofimática (tipo Microsoft Office) y con un lector de PDF (por ejemplo, Adobe Acrobat Reader 5.0 o superior. Para descargar este software, de carácter gratuito, haz click aquí)

Se empleará además el siguiente software:

Para solucionar cualquier problema técnico que pueda surgir, el alumno se deberá poner en contacto con el Coordinador del curso por el medio que le resulte más conveniente (ver apartado «Equipo pedagógico»).

fas|fa-money-check-alt|

Socilitud de presupuesto para curso a medida

Además de la convocatoria abierta a profesionales, en SEDIC ofrecemos a instituciones o empresas la posibilidad de realizar una edición exclusiva para ellos.

En las ediciones a medida, al período lectivo del curso se le añaden 2 días previos de familiarización con la plataforma.

Si está interesado, puede solicitar información a través del siguiente formulario:

Formato

Identidad: SEDIC - CIF: G-28706067 - Dir. postal: C/RODRIGUEZ SAN PEDRO, 2 PLANTA 6, P.606 - C.P. 28015 - Teléfono: 915 93 40 59 - Correo electrónico: gerencia@sedic.es Desde SEDIC le informamos que tratamos la información que nos facilitan con el fin de prestar el servicio de gestión de los datos de los usuarios que comunican con la empresa a través del sitio web. Los datos proporcionados se conservarán mientras se mantenga la relación comercial o durante los años necesarios para cumplir con las obligaciones legales. El interesado ha sido informado para ser incluido en el mencionado tratamiento, haciéndose responsables de la veracidad de los mismos y las modificaciones que sufran en el futuro. En cuanto a la legitimación del tratamiento estará regulada por el consentimiento del interesado. Si lo desea, puede dirigirse a la empresa con el fin de ejercer los derechos de acceso, rectificación, supresión y portabilidad de sus datos y la limitación u oposición a su tratamiento. Por otro lado tendrá derecho a retirar el consentimiento prestado y derecho a reclamar ante la Agencia Española de Protección de Datos. Las categorías de datos que se tratan son datos de identificación, direcciones postales o electrónicas, y no se tratan datos especialmente protegidos y el origen de los datos es por el propio interesado o su representante legal, y los usuarios serán los colectivos interesados a tal fin. En caso de no introducir los datos de carácter personal que aparecen en el formulario como obligatorios no se podrá atender su consulta. Podrá ejercer sus derechos de acceso, rectificación, limitación y supresión de los datos escribiendo a gerencia@sedic.es así como el derecho a presentar una reclamación ante una autoridad de control. Puede consultar la información adicional y detallada sobre Protección de Datos en nuestra política de privacidad.

6 + 12 =

SEDIC

C/ Rodríguez San Pedro 2. Oficina 606. 28015 Madrid

34 915 934 059 / +34 639 186 570

sedic@sedic.es