En este artículo exponemos nuestra visión sobre los principales hitos en el desarrollo de un proyecto en Data Science. Artículo elaborado por Leire González, experta en modelos predictivos de Lanit Consulting.
Conocimiento de negocio: En primer lugar, es importante dedicar tiempo a analizar el problema de negocio que queremos resolver para evitar recoger y tratar datos que no son relevantes. También es interesante conocer las reglas de negocio, e implementarlas en el modelo para que no proponga soluciones que rompan estas reglas.
Preparación y transformación de los datos: Tras la recogida de los datos, algunas de las tareas más comunes son el tratamiento de valores perdidos, la detección y el tratamiento de outliers, escalado y discretización de variables numéricas o el tratamiento de variables categóricas.
Paralelamente, en esta fase, se incluye la tarea de identificar patrones, relaciones y tendencias en los datos a través de técnicas estadísticas y de exploración visual. Contar con cuadros de mando interactivos, como los que podemos desarrollar con Qlik, agiliza y hace más intuitiva esta tarea.
También es habitual en Machine Learning aplicar técnicas de reducción de dimensionalidad, en función del volumen de datos y del número de dimensiones.
Modelo y validación: El siguiente paso es implementar y validar el modelo. Lo habitual es utilizar alguna técnica de validación cruzada. En general es difícil dar con un buen modelo a la primera, y suele ser necesario iterar con las dos fases anteriores o también plantear distintos modelos, bien completamente diferentes o con la misma técnica y considerando distintos predictores. Para decidir entre dos modelos se utilizan test estadísticos de contraste de hipótesis.
Una vez tenemos un buen modelo, el siguiente paso es testarlo en negocio y analizar los resultados, p. ej. con A/B testing, y en algunos casos también puede interesar llevar el modelo a una fase de producción para que pueda ser ejecutado en futuras ocasiones.