El artículo explora los principios fundamentales para realizar un análisis exploratorio de datos (Exploratory Data Analysis, EDA) con el fin de obtener insights significativos en el ámbito de la ciencia de datos. El autor, Pararawendy Indarjo, comparte seis principios clave derivados de su experiencia como científico de datos en la industria tecnológica de consumo. A lo largo del artículo, se enfatiza la importancia de emplear técnicas de análisis que van más allá de una simple interpretación de números, permitiendo a los científicos de datos responder preguntas de negocio y validar hipótesis de manera efectiva.
1. Establecer una Línea Base
El primer principio enfatiza la importancia de establecer una línea base para interpretar los datos de manera contextual. Este proceso permite evitar conclusiones apresuradas basadas en comparaciones absolutas. Se ejemplifica con un caso de una empresa de e-commerce en el que se analiza la distribución de clientes valiosos por ciudad. Inicialmente, los datos indicaban que el 60% de los clientes de alto valor provenían de Yakarta, lo que en principio podría justificar un aumento en la inversión de marketing en dicha ciudad. Sin embargo, al contrastar esta cifra con la distribución total de usuarios, se descubre que Yakarta también alberga el 60% de los usuarios en general, lo cual elimina la singularidad de la cifra. En cambio, al analizar la proporción de buenos clientes en relación con el total de usuarios en cada ciudad, se identifica a Surabaya como un mercado más prometedor, ya que presenta una mayor proporción de clientes de alto valor en comparación con su base de usuarios total. Este ejemplo ilustra cómo el establecimiento de una línea base permite identificar patrones significativos en lugar de confiar en cifras absolutas que pueden ser engañosas.
2. Normalización de Métricas
La normalización de métricas es esencial para asegurar comparaciones justas entre conjuntos de datos con características diferentes. El autor ilustra este principio mediante la comparación de dos campañas publicitarias en las que inicialmente se determinó que una campaña fue más exitosa simplemente porque generó un mayor volumen de ventas. Sin embargo, las duraciones de ambas campañas eran distintas, lo que hizo necesario normalizar las métricas dividiendo las ventas totales por la cantidad de días de cada campaña. Al hacerlo, se obtiene una métrica ajustada de ventas diarias, revelando que la segunda campaña tuvo un rendimiento superior en términos de ventas por día. La normalización permite comparar métricas en términos iguales, eliminando la influencia de factores externos como la duración, y facilitando una interpretación precisa y significativa.
3. Agrupación MECE
La agrupación MECE (Mutually Exclusive, Collectively Exhaustive) es una técnica de análisis que permite dividir los datos en categorías mutuamente exclusivas y colectivamente exhaustivas. Este principio, popular entre consultores, facilita el desglose de problemas complejos en subconjuntos manejables. El autor muestra cómo una agrupación inadecuada puede generar solapamientos que distorsionan los resultados, como cuando se clasifica a los usuarios de una aplicación de consumo en canales de adquisición que incluyen “redes sociales pagas”, “anuncios en Facebook” y “tráfico orgánico”. Esta clasificación no es mutuamente exclusiva, ya que los anuncios en Facebook son parte de las redes sociales pagas. Al corregir la agrupación mediante la metodología MECE, se eliminan los solapamientos y se asegura que todos los usuarios están categorizados adecuadamente, lo que permite un análisis más limpio y preciso. Además, el artículo destaca cómo las agrupaciones binarias, como etiquetas de “sí/no” para variables relevantes, pueden simplificar la aplicación de MECE en situaciones con múltiples subconjuntos.
4. Agregar Datos Granulares
Los datos en su forma más detallada, o granular, pueden ser abrumadores y obstaculizar la obtención de insights. El autor subraya la utilidad de la agregación de datos para convertir representaciones de bajo nivel en visiones de nivel superior, lo que facilita la identificación de patrones. Utiliza un ejemplo de datos de transacciones en los que, a nivel granular, cada teléfono móvil vendido aparece en cantidades similares. Sin embargo, al agrupar las ventas por marca, emergen tendencias claras: las marcas Samsung y Apple dominan las ventas, mientras que otras marcas tienen una menor participación. Este enfoque de agregación permite a los analistas enfocar sus esfuerzos en tendencias relevantes y obtener insights significativos a partir de grandes volúmenes de datos detallados, simplificando la interpretación de la información.
5. Eliminar Datos Irrelevantes
Los datos irrelevantes o atípicos pueden distorsionar los resultados y dar lugar a conclusiones erróneas. En este principio, el autor aborda la necesidad de identificar y eliminar datos que no son representativos de la muestra en análisis, especialmente en el caso de aplicaciones de consumo donde ciertos usuarios presentan comportamientos extremos, como realizar compras muy frecuentes para aprovechar promociones. Al analizar los intervalos de reordenamiento de productos en una plataforma de e-grocery, se observa que categorías como el arroz y el aceite de cocina tienen intervalos de recompra inusualmente bajos. Al investigar más a fondo, se descubre que ciertos usuarios realizan compras en intervalos muy cortos, distorsionando los resultados generales. Al eliminar estos valores atípicos, los resultados reflejan un comportamiento de compra más realista. Este principio es fundamental en el análisis de datos, ya que la exclusión de datos irrelevantes permite obtener insights que realmente representan el comportamiento típico de los usuarios.
6. Aplicación del Principio de Pareto
El principio de Pareto, también conocido como la regla del 80/20, sostiene que en muchos fenómenos, el 80% de los efectos provienen del 20% de las causas. En el contexto del análisis de datos, este principio permite optimizar el esfuerzo analítico al identificar y centrarse en los elementos que generan el mayor impacto. En el ejemplo de una plataforma de e-commerce en varias ciudades, se observa que tres ciudades concentran el 85% de las ventas. En lugar de analizar cada ciudad individualmente, el análisis se enfoca en estas tres ciudades principales, lo que permite ahorrar tiempo y esfuerzo sin sacrificar la relevancia de los hallazgos. Además, el principio de Pareto se puede utilizar para crear agrupaciones MECE simplificadas, donde las ciudades de mayor contribución se analizan por separado, mientras que las demás se consolidan en un solo grupo. Esta metodología optimiza el análisis y maximiza el impacto de las recomendaciones de negocio.
El artículo cierra resaltando cómo estos seis principios de análisis de datos —establecer una línea base, normalizar métricas, aplicar agrupaciones MECE, agregar datos granulares, eliminar datos irrelevantes y emplear el principio de Pareto— son herramientas poderosas para cualquier profesional que busque obtener insights de manera efectiva en el ámbito de la ciencia de datos. Estos principios no solo permiten responder preguntas de negocio de manera más precisa, sino que también optimizan el proceso analítico, haciendo que los hallazgos sean más representativos y accionables. El autor invita a los lectores a aplicar estos conceptos en sus propios proyectos de EDA, destacando su utilidad en situaciones cotidianas de análisis en la industria tecnológica de consumo.