La clave fundamental del Big Data radica en el análisis del dato, con el objetivo de extraer conclusiones y aprovecharlas para proveer de información útil a la organización. En este artículo, Iván Robles (Senior Data Scientist en Orange España y Profesor en el Máster en Big Data Management de ICEMD) nos proporciona un acercamiento a los principales métodos estadísticos usados para este fin en Data Science.
Es la era del dato. Tenemos datos de todas las clases, formas y colores. Se han desarrollado tecnologías para almacenarlos sin tener problemas de volumen, velocidad o diversidad. ¿Qué hacemos con ellos ahora? Queremos analizarlos, entenderlos, predecirlos y, sobre todo, sacar valor de ellos, que nos ayuden a optimizar y a tomar decisiones. ¿Cómo lo hacemos?
Data Science es la disciplina donde se analizan los datos, y los científicos de datos son los encargados de hacerlo con técnicas de Machine Learning. Son los analistas de toda la vida, pero cargados con algoritmos estadísticos y potentes herramientas de cálculo para poder ejecutarlos.
En una de las presentaciones más brillantes que he podido ver como profesor, uno de los alumnos buscó la cifra precisa de cuántos algoritmos de Machine Learning existen. No recuerdo el número exacto, pero hace un par de años eran miles, y sigue creciendo. En este artículo se muestran cuáles son los principales métodos que un científico de datos debe conocer, basándonos tanto en la frecuencia de uso y porque son la base conceptual para el entendimiento de otros algoritmos.
¿Cuáles son los métodos estadísticos más usados en Data Science?
Regresión lineal: La cuna del Machine Learning. Un algoritmo básico que se aprende ya en el instituto. Introduce conceptos como la beta de las variables, p-valor o R Cuadrado. Todo científico de datos debería conocer estos conceptos y saber interpretarlos a la perfección.
Regresión logística: Una modificación de la regresión lineal para poder resolver problemas de clasificación. Aproximadamente el 80% de los proyectos de Machine Learning son problemas de clasificación. Aquí se aprenden conceptos como la diferencia entre efecto multiplicativo y aditivo.
Series temporales: Como decía Lewis Carroll en Alicia en el país de las maravillas “El tiempo es todo un personaje”. Y para estudiarlo, es necesario conocer las series temporales. Otra pequeña modificación de las regresiones lineales, donde se introducen conceptos como estacionalidad y tendencias a través de los modelos ARIMA.
Árbol de decisión: Quizás el más entendible de los algoritmos, de cara a presentar resultados. Los árboles con sus hojas y sus ramas han dado pie a los algoritmos más usados en la actualidad, Random Forest (no se hace un árbol, se hacen miles y se ve lo que se aprende de todos ellos) y XGBoost (cada vez que se hace un árbol, se observa donde se equivoca y se corrige con otro árbol).
Red Neuronal: Uno de los algoritmos más potentes y más oscuros, sabemos que acierta pero no el porqué. Cada vez se están sacando mas herramientas para intentar que esa oscuridad se convierta en luz y entender cómo aciertan las redes. Basadas en el cerebro humano, es básico conocer conceptos como capa, neurona o retropropagación. Las técnicas que usa Deep Learning, ahora tan de moda, sobre todo en el uso de la inteligencia artificial para detección de imágenes, voz o comprensión de texto, están basadas en redes neuronales. Estar actualizados en esta y otras técnicas es imprescindible para no perder competitividad, lo cual se puede conseguir con el Máster en Big Data Management de ICEMD.
K-means: Otra de los algoritmos más conocidos, en este caso para hacer clustering. Nos sirve para agrupar y clasificar por características similares. Conceptos como normalización o distancias son importantes en este algoritmo.
k-NN: También llamado k-vecinos. Usado para los recomendadores. ¿Qué te voy a recomendar? Lo mismo que a tus vecinos, entendiendo como vecinos las personas que tengan tus mismos hábitos.
PCA: Análisis de componentes principales, es una de las técnicas llamadas de reducción de dimensionalidad. Muy usada en las encuestas. ¿Por qué usar cientos de variables si podemos utilizar solo unas pocas que resuman la información? Conceptos como rotación son interesantes de aprender en estas técnicas.
Cadenas de Markov: Sirven para introducir la estadística bayesiana y se ven conceptos como simulación. Muy útil para cuando tenemos pocos datos, pues con estas técnicas se pueden dar pistas al modelo para que aprenda.
Simplex : Este algoritmo está centrado en buscar soluciones óptimas con restricciones. Es el último paso de los modelos, donde puedes pasar de predecir a ser prescriptivo. Predecir es ver las posibles ventas de una empresa bajo ciertas hipótesis. Ser prescriptivo es decir qué palancas hay que tocar para maximizar las ventas. Es el último paso para sacar todo el rendimiento a los algoritmos, y el método del simplex es la base para entender cómo se puede realizar esto.
Muchos algoritmos no se han mencionado aquí y muchos quedan por venir. Un número de algoritmos que está en continuo crecimiento y muy relacionado con la investigación en las universidades y en las empresas. En este artículo se ha querido destacar la base de data science para los interesados en adentrarse en esta disciplina, pero como se puede deducir, hay un camino de aprendizaje que nunca termina.
¿Quieres adquirir los conocimientos necesarios para poder resolver problemas complejos mediante modelos analíticos avanzados? Fórmate con el Máster en Big Data Management de ICEMD.
Fuente: Muy Computer Pro