Curso impartido por José Luis Ortega Priego, Instituto de Estudios Sociales Avanzados, CSIC | Próxima convocatoria: de 12 a 30 de abril de 2021 |
- Presentación
- Datos básicos
- Metodología y titulación
- Prácticas
- Equipo pedagógico
- Programa
- Convocatorias
- Equipamiento
Presentación
El número constante de datos que la Web alberga no hace más que aumentar. La irrupción de la “Internet de las cosas”, el bajo coste en el almacenamiento y la web social con millones de interacciones están haciendo de la Web un enorme repositorio de datos que describen nuestro entorno y nuestras interacciones. Cada vez el valor de estos datos es mayor ya que permite a empresas detectar oportunidades de negocio y a las administraciones conocer a sus ciudadanos. La popularización del término Big data no hace más que señalar el potencial que tiene el análisis de datos a partir de fuentes remotas y en tiempo real. Sin embargo, toda esta información se presenta en páginas web desestructuradas o en complejas bases de datos de difícil acceso que dificultan su extracción, procesamiento y análisis.
En este entorno, el papel del documentalista no debe limitarse a las tareas tradicionales de localización, identificación y descripción de la información, sino añadir una función más, la de extraer estos datos de forma estructurada que posibilite el procesamiento y análisis. Ante esta nueva revolución de la información, el documentalista debe conocer las herramientas que le sitúe en la primera línea de la nueva era de los datos.
Objetivos
Introducir al alumno en el mundo de la extracción y procesamiento de datos web a través de conceptos y definiciones asociados a esta técnica. Términos como Internet de las Cosas, Big Data, crawlers, etc., servirán para que el alumno adquiera un contexto que le permita conocer en qué se basa y para qué sirve la extracción masiva de datos.
- Conocer los elementos fundamentales en la vida de los datos, desde la extracción hasta su conservación, las fuentes de datos más relevantes y las políticas existentes sobre el tratamiento de estos. Conceptos como Conservador de datos (Data curator) o Repositorios de datos abiertos (Open Data repositories) permitirán al alumno conocer dónde localizar las fuentes de datos más importantes y cómo tratarlas y utilizarlas.
- Conocer los elementos básicos en la extracción de datos; las diferencias entre rastreo (crawling) y extracción (scraping); el funcionamiento de los robots de los principales buscadores; y, en concreto, la técnica de Web scraping.
- Conocer en detalle la herramienta Web Scraper para la extracción estructurada de datos web.
- Finalmente, aprender a diseñar un proceso de extracción con el software Web Scraper.
Destinatarios
- Investigadores interesados en conocer técnicas de extracción de datos en la Web para obtener datos para sus propios proyectos de investigación. Con un nivel básico en el manejo de herramientas informáticas.
- Profesionales de la información en general que quieran aprender de forma básica y sin programación cómo obtener pequeñas muestras de datos en la Web.
Horas lectivas: 30 h.
Nº de plazas: 30
- El curso tiene una duración de dos semanas. Las semanas del curso se entienden como semanas lectivas (de lunes a viernes).
- Si deseas consultar el gráfico en el que se detalla el programa, puede hacerlo pulsando en el panel superior.
- El horario para seguir el curso será flexible y adaptado a las características individuales de cada alumno.Será necesario que todos los alumnos se conecten a diario (entren en la plataforma virtual), consultando las actividades planteadas por el profesor y trabajen de acuerdo al calendario incluido en el programa. Cada usuario se podrá conectar a cualquier hora del día.
- En el caso de baja por enfermedad durante el curso que impida su realización, se comunicará al coordinador pedagógico en el momento de obtención de la baja y se remitirá el parte de baja.
Metodología
- El acceso a los contenidos del curso a través de la plataforma de e-learning, permite al alumno flexibilidad de aprendizaje. No obstante, se marcarán los ítems fundamentales de consulta, entrega y participación en las distintas actividades que forman parte del curso.
- El curso se compone de 3 Módulos de contenidos, a los cuales se irá dando acceso escalonado, siendo obligatorio completar las actividades de cada uno antes de pasar al siguiente.
- Se pretende una interacción tutores-alumnos máxima, por lo que los foros y otros medios serán básicos en la realización de este curso.
- Las sesiones están diseñadas para que el tiempo de dedicación diario estimado sea de 2 horas a 2 horas 30 minutos, contando con todas las actividades posibles a realizar: estudio, ejercicios, correo, etc.
Evaluación
Se evaluará el grado de seguimiento y participación de los alumnos durante el desarrollo del curso on-line, según los criterios establecidos a tal efecto.
Titulación
- Certificado de Gran Aprovechamiento del Curso on-line
TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER - Certificado de Aprovechamiento del Curso on-line
TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER - Certificado de Seguimiento del Curso on-line
TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER
Para obtener uno de estos tres certificados será indispensable que el alumno cumplimente las actividades obligatorias que se irán indicando.
- Aprender el manejo en detalle del software para la extracción de datos (Web Scrape): Desarrollo de un proyecto propio de extracción de datos.
Analizamos a continuación las funciones de cada una de estas personas en el curso.
DIRECTOR DEL CURSO:
- JOSÉ LUIS ORTEGA PRIEGO
Instituto de Estudios Sociales Avanzados, CSIC.
Especialidad:
- Licenciado en Documentación (Universidad de Granada), 1999
- Doctor en Documentación (Universidad Carlos III de Madrid), 2007
Historial Profesional:
Desde 2003 formó parte del Laboratorio de Cibermetría del CSIC, donde ha participado en diversos proyectos europeos y ha publicado numerosos trabajos sobre distintos temas como son la cibermetría, bibliometría, buscadores académicos y redes sociales académicas. Actualmente, trabaja como investigador en el Instituto de Estudios Sociales Avanzados (IESA-CSIC). Autor de los libros “Academic Search Engines: a quantitative Outlook” (2014) y “Social Network Sites for Scientists: A quantitative Survey” (2016). Su amplia experiencia en la extracción de datos web para sus investigaciones le permite dirigir este curso.
Para más información:
https://scholar.google.es/citations?user=jYqQRWgAAAAJ
http://jlortega.scienceontheweb.net
Las funciones del director-profesor son:
- Crear los contenidos y actividades del curso
- Coordinar la elaboración de los materiales necesarios
- Impartir y tutorizar el curso
- Atender a las consultas de los alumnos
- Evaluar la calidad del aprendizaje de los alumnos
El coordinador es la persona de referencia para los participantes a lo largo de todo el curso para todas las cuestiones no académicas. Los participantes podrán dirigirse a él en cualquier momento que lo precisen, bien por e-mail, bien por teléfono. En caso de que éste no esté activo, podrán dejar sus mensajes en el buzón de voz.
Las funciones del Coordinador directamente relacionadas con los participantes son:
- Asegurarse que todos los participantes han recibido toda la documentación del curso
- Hacer un seguimiento diario de la participación de los alumnos, comprobando si se conectan y si envían mensajes con regularidad
- Entrar en contacto con los participantes que no sigan regularmente el curso para averiguar a qué es debido e intentar solucionarlo
Las funciones del Supervisor son:
- Asegurarse que el curso reúne los requisitos de calidad establecidos por SEDIC, realizando un seguimiento de:
– Materiales docentes.
– Virtualización de los materiales docentes y las actividades del curso.
– Seguimiento de la marcha del curso. - Realizar el análisis final del desarrollo del curso.
Módulo 1: Introducción
- Los datos en Documentación
- APIs Web
- Internet de las Cosas
- Big Data
Módulo 2: Datos abiertos
- Portales de datos
- Repositorios
- Datos enlazados
- SPARQL
(2ª Semana)
Módulo 3: Web Scraping
- Web scraping
- Crawlers
- Web Scraper
- Implicaciones éticas y legales
Próxima convocatoria:
- de 12 de abril a las 11:59 AM a 30 de abril de 2021
Convocatorias anteriores:
- de 9 a 20 de marzo de 2020
Convocatoria patrocinada por:
- Equipo informático con acceso a Internet, con un navegador actualizado, con acceso a programas de ofimática (tipo Microsoft Office) y con un lector de PDF (por ejemplo, Adobe Acrobat Reader 5.0 o superior. Para descargar este software, de carácter gratuito, haz click aquí)
Se empleará además el siguiente software:
- Web Scraper (https://www.webscraper.io/)
Para solucionar cualquier problema técnico que pueda surgir, el alumno se deberá poner en contacto con el Coordinador del curso por el medio que le resulte más conveniente (ver apartado «Equipo pedagógico»).
Socilitud de presupuesto para curso a medida
En las ediciones a medida, al período lectivo del curso se le añaden 2 días previos de familiarización con la plataforma.
Si está interesado, puede solicitar información a través del siguiente formulario:

SEDIC
34 915 934 059 / +34 639 186 570
sedic@sedic.es