El compromiso entre sesgo y varianza es un concepto fundamental en aprendizaje automático que surge al construir modelos predictivos. Este equilibrio se refiere a cómo las decisiones sobre la complejidad de un modelo afectan su capacidad de generalizar frente a nuevos datos. En este artículo, Samy Baladram aborda de manera práctica el compromiso sesgo-varianza utilizando un conjunto de datos real, con ejemplos en código y análisis detallado.

Introducción al compromiso sesgo-varianza

El compromiso sesgo-varianza se relaciona con dos problemas comunes en la modelización predictiva: el subajuste (underfitting) y el sobreajuste (overfitting). Un modelo que subajusta es demasiado simple para capturar patrones importantes, mientras que uno que sobreajusta es excesivamente complejo y responde a ruidos en los datos. Este equilibrio es crucial porque afecta directamente la precisión y generalización de los modelos predictivos.

En el aprendizaje automático, "sesgo" se refiere a la capacidad del modelo para aprender patrones: un modelo con alto sesgo es demasiado simple y comete errores constantes. Por otro lado, "varianza" se refiere a la sensibilidad del modelo frente a los cambios en los datos de entrenamiento: un modelo con alta varianza es demasiado sensible a los datos específicos con los que fue entrenado.

Planteamiento del problema

El ejemplo práctico del artículo utiliza datos meteorológicos para predecir cuántos jugadores asistirán a un campo de golf en un día dado. El conjunto de datos incluye variables como el clima (soleado, nublado, lluvioso), temperatura, humedad, viento y el número de jugadores. Sin embargo, con solo 28 días de datos, se presenta un desafío importante: dividir los datos en un conjunto de entrenamiento y uno de prueba (14 días cada uno), lo que limita la cantidad de combinaciones de condiciones climáticas que el modelo puede aprender.

Este escenario refleja un problema realista en el aprendizaje automático: crear un modelo que pueda generalizar a condiciones no vistas, con un volumen de datos limitado y posiblemente imperfecto.

Evaluación de la complejidad del modelo

Se utiliza un modelo de regresión basado en árboles de decisión con diferentes profundidades para controlar la complejidad del modelo. La profundidad del árbol varía de 1 a 5, donde un modelo más profundo representa mayor complejidad al incluir más reglas específicas. Los resultados muestran cómo diferentes niveles de complejidad afectan el rendimiento del modelo:

  1. Profundidad 1: Muy simple, con predicciones básicas que agrupan múltiples condiciones climáticas bajo una misma regla.
  2. Profundidad 3: Representa un punto medio, capturando patrones relevantes sin sobredimensionar.
  3. Profundidad 5: Altamente complejo, creando reglas específicas para cada dato de entrenamiento, lo que lleva a sobreajuste.

Los modelos se evalúan utilizando el error cuadrático medio (RMSE), que mide qué tan lejos están las predicciones de los valores reales. Además, se calculan errores para los datos de entrenamiento y prueba para observar cómo los modelos se comportan frente a datos conocidos y nuevos.

Entendiendo el sesgo y la varianza

Sesgo (subajuste)

Un modelo con alto sesgo no capta patrones esenciales, produciendo errores similares tanto en datos de entrenamiento como de prueba. Por ejemplo, un modelo de profundidad 1 en este caso ignora combinaciones importantes de condiciones climáticas, generando predicciones imprecisas y consistentes en su error.

En el contexto del ejemplo del campo de golf:

  • Error de entrenamiento: alto (16.13 RMSE), indicando que el modelo no aprende bien ni siquiera de los datos de entrenamiento.
  • Error de prueba: también alto (13.26 RMSE), mostrando que no generaliza adecuadamente a nuevos datos.

Varianza (sobreajuste)

Un modelo con alta varianza es demasiado complejo, adaptándose excesivamente a los datos de entrenamiento y perdiendo la capacidad de generalizar. En el caso de un modelo con profundidad 5:

  • Error de entrenamiento: cero, lo que indica que el modelo memoriza perfectamente los datos de entrenamiento.
  • Error de prueba: significativamente mayor (9.14 RMSE), ya que el modelo falla al enfrentarse a datos nuevos.

El sobreajuste ocurre porque el modelo confunde ruidos o patrones específicos en los datos de entrenamiento con relaciones significativas.

El equilibrio entre sesgo y varianza

El análisis demuestra que un modelo moderadamente complejo, como el de profundidad 3, logra el mejor equilibrio entre sesgo y varianza:

  • Error de entrenamiento razonablemente bajo (3.16 RMSE).
  • Error de prueba aceptable (7.33 RMSE), el más bajo entre todos los modelos evaluados.
  • Diferencia manejable entre ambos errores, lo que indica una buena capacidad de generalización.

Este modelo captura patrones relevantes sin ser excesivamente sensible a los detalles específicos del conjunto de entrenamiento, lo que lo hace más confiable.

Validación cruzada para evaluar el rendimiento

Debido al tamaño limitado del conjunto de datos, el artículo emplea validación cruzada para evaluar el rendimiento de los modelos. Este enfoque divide los datos en múltiples particiones (k-folds) para entrenar y evaluar el modelo varias veces, proporcionando una visión más completa de su comportamiento.

Los resultados de la validación cruzada confirman que el modelo de profundidad 3 tiene la mejor combinación de rendimiento promedio y estabilidad, mientras que modelos más simples subajustan y los más complejos sobreajustan.

Implicaciones prácticas

El compromiso sesgo-varianza tiene implicaciones reales en la creación de modelos predictivos:

  • Modelos simples (alta sesgo): Son fáciles de interpretar pero fallan en capturar patrones importantes.
  • Modelos complejos (alta varianza): Son más precisos en datos de entrenamiento pero inestables y poco confiables frente a datos nuevos.
  • Modelos equilibrados: Ofrecen una combinación de precisión y estabilidad, siendo ideales para problemas del mundo real.

Lecciones clave y recomendaciones

  1. Comenzar con modelos simples: Evaluar el rendimiento inicial y observar si hay subajuste.
  2. Aumentar gradualmente la complejidad: Ajustar el modelo hasta encontrar un buen equilibrio.
  3. Observar señales de advertencia:
    • Alto error en datos de entrenamiento y prueba: indica subajuste.
    • Baja error en datos de entrenamiento pero alta en prueba: indica sobreajuste.
  4. Usar validación cruzada: Reducir el sesgo de evaluación causado por la división específica de los datos.
  5. Tener en cuenta el tamaño del conjunto de datos: Con conjuntos pequeños, es mejor optar por modelos más simples para evitar sobreajuste.

El compromiso sesgo-varianza no es un concepto meramente teórico, sino un desafío práctico con impacto directo en la calidad de los modelos predictivos. Como muestra el ejemplo del campo de golf, un modelo equilibrado puede ofrecer predicciones razonablemente precisas y consistentes, lo cual es fundamental para problemas del mundo real. Aunque es imposible eliminar completamente el subajuste o el sobreajuste, el objetivo debe ser encontrar un modelo que equilibre adecuadamente estos factores, maximizando su utilidad y confiabilidad en situaciones reales.

Share This