Curso impartido por José Luis Ortega Priego, Instituto de Estudios Sociales Avanzados, CSIC | Fechas de impartición: de 27 de octubre a 14 de noviembre de 2025 |
Grado de dificultad
- Presentación
- Datos básicos
- Metodología y titulación
- Prácticas
- Equipo pedagógico
- Programa
- Convocatorias
- Equipamiento
Presentación
Objetivos
Introducir al alumno en el mundo de la extracción y procesamiento de datos web a través de conceptos y definiciones asociados a esta técnica. Términos como Internet de las Cosas, Big Data, crawlers, etc., servirán para que el alumno adquiera un contexto que le permita conocer en qué se basa y para qué sirve la extracción masiva de datos.- Conocer los elementos fundamentales en la vida de los datos, desde la extracción hasta su conservación, las fuentes de datos más relevantes y las políticas existentes sobre el tratamiento de estos. Conceptos como Conservador de datos (Data curator) o Repositorios de datos abiertos (Open Data repositories) permitirán al alumno conocer dónde localizar las fuentes de datos más importantes y cómo tratarlas y utilizarlas.
- Conocer los elementos básicos en la extracción de datos; las diferencias entre rastreo (crawling) y extracción (scraping); el funcionamiento de los robots de los principales buscadores; y, en concreto, la técnica de Web scraping.
- Conocer en detalle la herramienta Web Scraper para la extracción estructurada de datos web.
- Finalmente, aprender a diseñar un proceso de extracción con el software Web Scraper.
Destinatarios
- Investigadores interesados en conocer técnicas de extracción de datos en la Web para obtener datos para sus propios proyectos de investigación. Con un nivel básico en el manejo de herramientas informáticas.
- Profesionales de la información en general que quieran aprender de forma básica y sin programación cómo obtener pequeñas muestras de datos en la Web.
Horas lectivas: 45 h.
- Con el objetivo de dar respuesta a socios y alumnos que venían reclamando un aumento de horas certificadas y de los plazos de ejecución de los cursos de SEDIC, desde el mes de julio de 2023 se amplían las horas lectivas certificadas y las semanas de impartición de este curso.
Nº de plazas: 30
- El curso tiene una duración de tres semanas (dos semanas de docencia y una última semana para entrega de trabajos y prácticas). Las semanas del curso se entienden como semanas lectivas (de lunes a viernes).
- Si deseas consultar el gráfico en el que se detalla el programa, puede hacerlo pulsando en el panel superior.
- El horario para seguir el curso será flexible y adaptado a las características individuales de cada alumno.Será necesario que todos los alumnos se conecten a diario (entren en la plataforma virtual), consultando las actividades planteadas por el profesor y trabajen de acuerdo al calendario incluido en el programa. Cada usuario se podrá conectar a cualquier hora del día.
- En el caso de baja por enfermedad durante el curso que impida su realización, se comunicará al coordinador pedagógico en el momento de obtención de la baja y se remitirá el parte de baja.
Metodología
- El acceso a los contenidos del curso a través de la plataforma de e-learning, permite al alumno flexibilidad de aprendizaje. No obstante, se marcarán los ítems fundamentales de consulta, entrega y participación en las distintas actividades que forman parte del curso.
- El curso se compone de 3 Módulos de contenidos, a los cuales se irá dando acceso escalonado, siendo obligatorio completar las actividades de cada uno antes de pasar al siguiente.
- Se pretende una interacción tutores-alumnos máxima, por lo que los foros y otros medios serán básicos en la realización de este curso.
- Las sesiones están diseñadas para que el tiempo de dedicación diario estimado sea de 2 horas a 2 horas 30 minutos, contando con todas las actividades posibles a realizar: estudio, ejercicios, correo, etc.
Evaluación
Se evaluará el grado de seguimiento y participación de los alumnos durante el desarrollo del curso on-line, según los criterios establecidos a tal efecto.Titulación
- Certificado de Gran Aprovechamiento del Curso on-line TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER
- Certificado de Aprovechamiento del Curso on-line TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER
- Certificado de Seguimiento del Curso on-line TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER
- Aprender el manejo en detalle del software para la extracción de datos (Web Scrape): Desarrollo de un proyecto propio de extracción de datos.
- JOSÉ LUIS ORTEGA PRIEGO Instituto de Estudios Sociales Avanzados, CSIC.
- Licenciado en Documentación (Universidad de Granada), 1999
- Doctor en Documentación (Universidad Carlos III de Madrid), 2007
Desde 2003 formó parte del Laboratorio de Cibermetría del CSIC, donde ha participado en diversos proyectos europeos y ha publicado numerosos trabajos sobre distintos temas como son la cibermetría, bibliometría, buscadores académicos y redes sociales académicas. Actualmente, trabaja como investigador en el Instituto de Estudios Sociales Avanzados (IESA-CSIC). Autor de los libros “Academic Search Engines: a quantitative Outlook” (2014) y “Social Network Sites for Scientists: A quantitative Survey” (2016). Su amplia experiencia en la extracción de datos web para sus investigaciones le permite dirigir este curso.
Para más información:
- Crear los contenidos y actividades del curso
- Coordinar la elaboración de los materiales necesarios
- Impartir y tutorizar el curso
- Atender a las consultas de los alumnos
- Evaluar la calidad del aprendizaje de los alumnos
- Asegurarse que todos los participantes han recibido toda la documentación del curso
- Hacer un seguimiento diario de la participación de los alumnos, comprobando si se conectan y si envían mensajes con regularidad
- Entrar en contacto con los participantes que no sigan regularmente el curso para averiguar a qué es debido e intentar solucionarlo
- Asegurarse que el curso reúne los requisitos de calidad establecidos por SEDIC, realizando un seguimiento de: – Materiales docentes. – Virtualización de los materiales docentes y las actividades del curso. – Seguimiento de la marcha del curso.
- Realizar el análisis final del desarrollo del curso.
Módulo 1: Introducción
- Los datos en Documentación
- APIs Web
- Internet de las Cosas
- Big Data
Módulo 2: Datos abiertos
- Portales de datos
- Repositorios
- Datos enlazados
- SPARQL
Módulo 3: Web Scraping
- Web scraping
- Crawlers
- Web Scraper
- Implicaciones éticas y legales
Fechas de impartición:
- de 27 de octubre a las 11:59 AM a 14 de noviembre de 2025
Convocatorias anteriores:
- Fechas de impartición: de 4 de marzo a las 11:59 AM a 22 de marzo de 2024
- de 17 de abril a las 11:59 AM a 28 de abril de 2023
- de 9 de mayo a las 11:59 AM a 20 de mayo de 2022
- de 12 de abril a las 11:59 AM a 23 de abril de 2021
- de 9 a 20 de marzo de 2020
Convocatoria patrocinada por:
- Equipo informático con acceso a Internet, con un navegador actualizado, con acceso a programas de ofimática (tipo Microsoft Office) y con un lector de PDF (por ejemplo, Adobe Acrobat Reader 5.0 o superior. Para descargar este software, de carácter gratuito, haz click aquí)
- Web Scraper (https://www.webscraper.io/)
Socilitud de presupuesto para curso a medida
Además de la convocatoria abierta a profesionales, en SEDIC ofrecemos a instituciones o empresas la posibilidad de realizar una edición exclusiva para ellos.
En las ediciones a medida, al período lectivo del curso se le añaden 2 días previos de familiarización con la plataforma.
Si está interesado, puede solicitar información a través del siguiente formulario: