Empezar un análisis exploratorio de datos puede ser una tarea intimidante. Saber qué mirar, cuándo has terminado y asegurarte de no pasar por alto algo importante son preocupaciones comunes. En la experiencia de Loren Hinkson, muchas de estas inquietudes se pueden mitigar con una buena comunicación y el establecimiento claro de expectativas. En este artículo, Hinkson comparte un proceso detallado para el análisis exploratorio de datos (EDA) que puede ser útil tanto para quienes recién empiezan en el campo de los datos como para analistas y científicos de datos más experimentados que buscan perfeccionar sus métodos.
1. Hablar con los interesados sobre sus objetivos
El primer paso en cualquier análisis exploratorio, según Hinkson, es hablar con los responsables de producto, liderazgo o cualquier otra parte interesada que tomará decisiones basadas en el análisis. Es esencial comprender las decisiones que necesitan tomar y los cambios o intervenciones que planean implementar. Si se apoyan iteraciones de producto, también es útil conversar con investigadores de UX, diseñadores o representantes de servicio al cliente que interactúan con los usuarios finales. Estos conocimientos pueden añadir valor al análisis al verificar si una solicitud de cliente es viable o al identificar patrones en el comportamiento del usuario que indiquen la necesidad de una función específica.
2. Resumir los objetivos del análisis y lograr alineación
Estas conversaciones iniciales ayudarán a definir los objetivos del análisis, ya sea identificar patrones y relaciones, entender distribuciones, etc. Hinkson recomienda resumir la comprensión de los objetivos, especificar el período y la población del análisis, y asegurarse de que todos los interesados estén alineados. También es importante comunicar lo que no se espera del análisis para evitar malentendidos sobre los resultados.
3. Desarrollar una lista de preguntas de investigación
Crear una serie de preguntas relacionadas con los objetivos del análisis que se deseen responder, y anotar las dimensiones específicas que interesa explorar, como períodos de tiempo específicos, nuevos usuarios, usuarios de ciertos grupos de edad o áreas geográficas, es un paso fundamental en el proceso de Hinkson.
4. Identificar lo que se sabe y lo que no se sabe
Recolectar cualquier investigación previa, conocimientos organizacionales y suposiciones ampliamente aceptadas relacionadas con el tema del análisis. Revisar lo que se ha investigado o analizado previamente para entender lo que ya se conoce y anotar cualquier respuesta histórica relevante a las preguntas de análisis.
5. Comprender lo que es posible con los datos disponibles
Una vez sintetizados los objetivos y preguntas clave, Hinkson aconseja identificar qué datos relevantes están fácilmente disponibles y qué datos suplementarios podrían necesitarse. Verificar los permisos de acceso a cada fuente de datos y solicitar acceso a conjuntos de datos adicionales si es necesario. Familiarizarse con los conjuntos de datos y descartar cualquier pregunta que no sea posible responder con los datos disponibles.
6. Establecer expectativas sobre lo que constituye un análisis
Hacer un ejercicio de priorización con los interesados clave para entender qué preguntas consideran más importantes. Es útil clasificar (S, M, L) la complejidad de las preguntas en la lista antes de esta conversación para ilustrar el nivel de esfuerzo necesario. Si las preguntas en la lista requieren más trabajo del que es factible en un solo análisis, Hinkson sugiere usar estas priorizaciones para determinar cómo escalonarlas en múltiples análisis.
7. Transformar y limpiar los datos según sea necesario
Si las tuberías de datos están en su lugar y los datos ya están en el formato deseado, es necesario evaluar la necesidad de limpieza de datos (buscando valores atípicos, datos faltantes/escasos, duplicados, etc.) y realizar los pasos de limpieza necesarios. Si no, Hinkson recomienda crear tuberías de datos para manejar cualquier reubicación o transformación requerida antes de la limpieza de datos.
8. Utilizar estadísticas descriptivas para entender la "forma" de los datos
Comenzar el análisis con una exploración estadística de alto nivel para entender las distribuciones de las características y las correlaciones entre ellas. Puede que se noten problemas de calidad o escasez de datos que afecten la capacidad para responder preguntas del ejercicio de planificación de análisis. Es importante comunicar tempranamente a los interesados sobre preguntas que no se pueden abordar o que tendrán respuestas "ruidosas" menos valiosas para la toma de decisiones.
9. Responder a las preguntas de análisis
En esta etapa, Hinkson sugiere proceder a responder las preguntas específicas desarrolladas para el análisis. Visualizar a medida que se avanza puede facilitar la identificación de patrones, tendencias y anomalías, y se pueden incorporar visualizaciones interesantes directamente en el borrador del informe.
10. Documentar los hallazgos
El marco de preguntas es útil para documentar los hallazgos a medida que se avanza en el análisis. A medida que se realiza el análisis, Hinkson aconseja anotar las respuestas encontradas bajo cada pregunta. Resaltar los hallazgos interesantes y tomar notas sobre cualquier línea de pensamiento provocada por un hallazgo.
11. Compartir los hallazgos
Cuando el análisis esté listo para ser compartido con los interesados originales, Hinkson recomienda ser considerado con el formato elegido. Dependiendo de la audiencia, pueden responder mejor a una publicación en Slack, una presentación, un recorrido por el documento de análisis, o una combinación de los anteriores. Finalmente, promover el análisis en canales internos, por si los hallazgos son útiles para otros equipos con los que no se estaba trabajando directamente.
Siguiendo estos pasos, Hinkson demuestra cómo se puede construir un proceso de análisis exploratorio de datos que no solo sea riguroso y completo, sino que también esté bien comunicado y alineado con las expectativas de todas las partes interesadas. La clave es la comunicación constante y el establecimiento claro de expectativas, asegurando que cada análisis sea relevante y accionable para quienes tomarán decisiones basadas en él.