Técnicas básicas para la extracción de información en la Web: Web Scraper

Curso impartido por José Luis Ortega Priego, Instituto de Estudios Sociales Avanzados, CSIC | Fechas de impartición: de 27 de octubre a 14 de noviembre de 2025 |

Grado de dificultad

Presentación

El número constante de datos que la Web alberga no hace más que aumentar. La irrupción de la “Internet de las cosas”, el bajo coste en el almacenamiento y la web social con millones de interacciones están haciendo de la Web un enorme repositorio de datos que describen nuestro entorno y nuestras interacciones. Cada vez el valor de estos datos es mayor ya que permite a empresas detectar oportunidades de negocio y a las administraciones conocer a sus ciudadanos. La popularización del término Big data no hace más que señalar el potencial que tiene el análisis de datos a partir de fuentes remotas y en tiempo real. Sin embargo, toda esta información se presenta en páginas web desestructuradas o en complejas bases de datos de difícil acceso que dificultan su extracción, procesamiento y análisis. En este entorno, el papel del documentalista no debe limitarse a las tareas tradicionales de localización, identificación y descripción de la información, sino añadir una función más, la de extraer estos datos de forma estructurada que posibilite el procesamiento y análisis. Ante esta nueva revolución de la información, el documentalista debe conocer las herramientas que le sitúe en la primera línea de la nueva era de los datos.

Objetivos

Introducir al alumno en el mundo de la extracción y procesamiento de datos web a través de conceptos y definiciones asociados a esta técnica. Términos como Internet de las Cosas, Big Data, crawlers, etc., servirán para que el alumno adquiera un contexto que le permita conocer en qué se basa y para qué sirve la extracción masiva de datos.

Conocer los elementos fundamentales en la vida de los datos, desde la extracción hasta su conservación, las fuentes de datos más relevantes y las políticas existentes sobre el tratamiento de estos. Conceptos como Conservador de datos (Data curator) o Repositorios de datos abiertos (Open Data repositories) permitirán al alumno conocer dónde localizar las fuentes de datos más importantes y cómo tratarlas y utilizarlas.
Conocer los elementos básicos en la extracción de datos; las diferencias entre rastreo (crawling) y extracción (scraping); el funcionamiento de los robots de los principales buscadores; y, en concreto, la técnica de Web scraping.
Conocer en detalle la herramienta Web Scraper para la extracción estructurada de datos web.
Finalmente, aprender a diseñar un proceso de extracción con el software Web Scraper.

Destinatarios

Investigadores interesados en conocer técnicas de extracción de datos en la Web para obtener datos para sus propios proyectos de investigación. Con un nivel básico en el manejo de herramientas informáticas.
Profesionales de la información en general que quieran aprender de forma básica y sin programación cómo obtener pequeñas muestras de datos en la Web.

Horas lectivas: 45 h.

Con el objetivo de dar respuesta a socios y alumnos que venían reclamando un aumento de horas certificadas y de los plazos de ejecución de los cursos de SEDIC, desde el mes de julio de 2023 se amplían las horas lectivas certificadas y las semanas de impartición de este curso.

Nº de plazas: 30

El curso tiene una duración de tres semanas (dos semanas de docencia y una última semana para entrega de trabajos y prácticas). Las semanas del curso se entienden como semanas lectivas (de lunes a viernes).
Si deseas consultar el gráfico en el que se detalla el programa, puede hacerlo pulsando en el panel superior.
El horario para seguir el curso será flexible y adaptado a las características individuales de cada alumno.Será necesario que todos los alumnos se conecten a diario (entren en la plataforma virtual), consultando las actividades planteadas por el profesor y trabajen de acuerdo al calendario incluido en el programa. Cada usuario se podrá conectar a cualquier hora del día.
En el caso de baja por enfermedad durante el curso que impida su realización, se comunicará al coordinador pedagógico en el momento de obtención de la baja y se remitirá el parte de baja.

Metodología

El acceso a los contenidos del curso a través de la plataforma de e-learning, permite al alumno flexibilidad de aprendizaje. No obstante, se marcarán los ítems fundamentales de consulta, entrega y participación en las distintas actividades que forman parte del curso.
El curso se compone de 3 Módulos de contenidos, a los cuales se irá dando acceso escalonado, siendo obligatorio completar las actividades de cada uno antes de pasar al siguiente.
Se pretende una interacción tutores-alumnos máxima, por lo que los foros y otros medios serán básicos en la realización de este curso.
Las sesiones están diseñadas para que el tiempo de dedicación diario estimado sea de 2 horas a 2 horas 30 minutos, contando con todas las actividades posibles a realizar: estudio, ejercicios, correo, etc.

Evaluación

Se evaluará el grado de seguimiento y participación de los alumnos durante el desarrollo del curso on-line, según los criterios establecidos a tal efecto.

Titulación

Certificado de Gran Aprovechamiento del Curso on-line TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER
Certificado de Aprovechamiento del Curso on-line TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER
Certificado de Seguimiento del Curso on-line TÉCNICAS BÁSICAS PARA LA EXTRACCIÓN DE INFORMACIÓN EN LA WEB: WEB SCRAPER

Para obtener uno de estos tres certificados será indispensable que el alumno cumplimente las actividades obligatorias que se irán indicando.

Aprender el manejo en detalle del software para la extracción de datos (Web Scrape): Desarrollo de un proyecto propio de extracción de datos.

El equipo pedagógico lo forman un profesor (director del curso), un coordinador y un supervisor.

Analizamos a continuación las funciones de cada una de estas personas en el curso.

DIRECTOR DEL CURSO:

JOSÉ LUIS ORTEGA PRIEGO
Instituto de Estudios Sociales Avanzados, CSIC.

Desde 2003 formó parte del Laboratorio de Cibermetría del CSIC, donde ha participado en diversos proyectos europeos y ha publicado numerosos trabajos sobre distintos temas como son la cibermetría, bibliometría, buscadores académicos y redes sociales académicas. Actualmente, trabaja como investigador en el Instituto de Estudios Sociales Avanzados (IESA-CSIC). Autor de los libros “Academic Search Engines: a quantitative Outlook” (2014) y “Social Network Sites for Scientists: A quantitative Survey” (2016). Su amplia experiencia en la extracción de datos web para sus investigaciones le permite dirigir este curso.

Para más información:

https://scholar.google.es/citations?user=jYqQRWgAAAAJ

http://jlortega.scienceontheweb.net

Las funciones del director-profesor son:

Crear los contenidos y actividades del curso
Coordinar la elaboración de los materiales necesarios
Impartir y tutorizar el curso
Atender a las consultas de los alumnos
Evaluar la calidad del aprendizaje de los alumnos

El coordinador es la persona de referencia para los participantes a lo largo de todo el curso para todas las cuestiones no académicas. Los participantes podrán dirigirse a él en cualquier momento que lo precisen, bien por e-mail, bien por teléfono. En caso de que éste no esté activo, podrán dejar sus mensajes en el buzón de voz.

Las funciones del Coordinador directamente relacionadas con los participantes son:

Asegurarse que todos los participantes han recibido toda la documentación del curso
Hacer un seguimiento diario de la participación de los alumnos, comprobando si se conectan y si envían mensajes con regularidad
Entrar en contacto con los participantes que no sigan regularmente el curso para averiguar a qué es debido e intentar solucionarlo

Las funciones del Supervisor son:

Asegurarse que el curso reúne los requisitos de calidad establecidos por SEDIC, realizando un seguimiento de:
– Materiales docentes.
– Virtualización de los materiales docentes y las actividades del curso.
– Seguimiento de la marcha del curso.
Realizar el análisis final del desarrollo del curso.

Módulo 1: Introducción

Los datos en Documentación
APIs Web
Internet de las Cosas
Big Data

Módulo 2: Datos abiertos

Portales de datos
Repositorios
Datos enlazados
SPARQL

Módulo 3: Web Scraping

Web scraping
Crawlers
Web Scraper
Implicaciones éticas y legales

Fechas de impartición:

de 27 de octubre a las 11:59 AM a 14 de noviembre de 2025

Convocatorias anteriores:

Fechas de impartición: de 4 de marzo a las 11:59 AM a 22 de marzo de 2024
de 17 de abril a las 11:59 AM a 28 de abril de 2023
de 9 de mayo a las 11:59 AM a 20 de mayo de 2022
de 12 de abril a las 11:59 AM a 23 de abril de 2021
de 9 a 20 de marzo de 2020

Convocatoria patrocinada por:

Ministerio de Cultura y Deporte

Para el presente curso es necesario de un mínimo equipamiento tecnológico :

Equipo informático con acceso a Internet, con un navegador actualizado, con acceso a programas de ofimática (tipo Microsoft Office) y con un lector de PDF (por ejemplo, Adobe Acrobat Reader 5.0 o superior. Para descargar este software, de carácter gratuito, haz click aquí)

Se empleará además el siguiente software:

Web Scraper (https://www.webscraper.io/)

Para solucionar cualquier problema técnico que pueda surgir, el alumno se deberá poner en contacto con el Coordinador del curso por el medio que le resulte más conveniente (ver apartado «Equipo pedagógico»).

Socilitud de presupuesto para curso a medida

Además de la convocatoria abierta a profesionales, en SEDIC ofrecemos a instituciones o empresas la posibilidad de realizar una edición exclusiva para ellos.

En las ediciones a medida, al período lectivo del curso se le añaden 2 días previos de familiarización con la plataforma.

Si está interesado, puede solicitar información a través del siguiente formulario:

Título del curso por el que está interesado

Nombre y apellidos de la persona de contacto

Dirección de correo electrónico

Número de alumnos

Formato Formato Formación online Formación mixta Formación presencial

Teléfono

Datos de la empresa o institución (dirección, CIF, ...)

Mensaje adicional

IDENTIDAD: SEDIC DIRECCIÓN: CALLE GARGANTILLA 13, LOCAL 24. POSTAL: 28005 LOCALIDAD: MADRID CIF: G-28706067 TELÉFONO: 915934059 EMAIL: gerencia@sedic.es En nombre de la empresa tratamos la información que nos facilita con el fin de prestarles el servicio de gestión de los datos de los usuarios que comunican con la empresa a través del sitio web. Los datos proporcionados se conservarán hasta la revocación del consentimiento o durante los años necesarios para cumplir con las obligaciones legales. En cuanto a la legitimación del tratamiento estará regulada por el consentimiento del interesado. La empresa no cederá datos a terceros, salvo obligación legal. Si lo desea, puede dirigirse a la empresa con el fin de ejercer los derechos de acceso, rectificación, supresión y portabilidad de sus datos y la limitación u oposición a su tratamiento. Por otro lado, si lo ha facilitado, tendrá derecho a retirar el consentimiento prestado y derecho a reclamar ante la Agencia Española de Protección de Datos. IDENTIDAD: SEDIC DIRECCIÓN: CALLE GARGANTILLA 13, LOCAL 24. POSTAL: 28005 LOCALIDAD: MADRID CIF: G-28706067 TELÉFONO: 915934059 EMAIL: gerencia@sedic.es En nombre de la empresa tratamos la información que nos facilita con el fin de prestarles el servicio de gestión de los datos de los usuarios que comunican con la empresa a través del sitio web. Los datos proporcionados se conservarán hasta la revocación del consentimiento o durante los años necesarios para cumplir con las obligaciones legales. En cuanto a la legitimación del tratamiento estará regulada por el consentimiento del interesado. La empresa no cederá datos a terceros, salvo obligación legal. Si lo desea, puede dirigirse a la empresa con el fin de ejercer los derechos de acceso, rectificación, supresión y portabilidad de sus datos y la limitación u oposición a su tratamiento. Por otro lado, si lo ha facilitado, tendrá derecho a retirar el consentimiento prestado y derecho a reclamar ante la Agencia Española de Protección de Datos. Consiento que mis datos personales sean utilizados por SEDIC con la finalidad del envío de comunicaciones publicitarias relacionadas con sus productos y servicios por cualquier medio (postal, email, teléfono, etc.) Los datos proporcionados se conservarán mientras no solicite la cancelación de los mismos y se suprimirán cuando los datos ya no sean necesarios para los fines que fueron recogidos. En el caso de que no acepte que usemos sus datos personales con fines publicitarios no podrá recibir ni promociones ni informaciones comerciales. Consiento que mis datos personales sean utilizados por SEDIC para la invitación a eventos organizados por SEDIC. He leído y acepto la política de privacidad autorizando a SEDIC el tratamiento de mis datos. ENLACE A LA POLÍTICA DE PRIVACIDAD

14 + 5 =