arrow_back Volver
Inicio keyboard_arrow_right Artículos keyboard_arrow_right Artículo

Las Matemáticas detrás de la Ciencia de Datos

Cynthia "La Matemaga" Castillo

Machine Learning Engineer @ The Ksquare Group

av_timer 9 Min. de lectura

remove_red_eye 9192 visitas

calendar_today 30 Marzo 2023

¿Necesito matemáticas para empezar mi carrera en ciencia de datos? ¿Qué tópicos necesito dominar para poder empezar en este campo? ¿Necesito ser expertx en estos campos para poder dedicarme a la ciencia de datos?

Antes de responder estas preguntas hay algo que me gustaría decirte. Muchas de las preguntas que suelo escuchar de este tipo nacen del miedo o de la aversión hacia las matemáticas. El estigma que existe alrededor de ellas tampoco ayuda: durante nuestra formación desde pequeños se nos ha enseñado que para ser bueno en matemáticas necesitas ser perfecto en aritmética (las operaciones numéricas que hacemos). Y en realidad, esto no es verdad. La matemática trata de conceptos e ideas y la forma en la que las ligamos entre sí. No de las cuentitas, o de las operaciones, sino de la abstracción y conceptos que hicimos a lo largo del camino.

Imgur

Ahora sí, a responder las preguntas.

¿Necesito matemáticas para empezar?

Te tengo una buena noticia: ¡Todxs somos bienvenidos en la Ciencia de Datos! Y, de hecho, es recomendable siempre tener equipos con integrantes de diferentes contextos para tener mejor entendimiento del problema a comprender. Entre más diverso, más amplio el alcance y más grande el éxito. De acuerdo con Wikipedia, la ciencia de los datos es un área interdisciplinaria —es decir, que combina diferentes disciplinas para entender un problema— que utiliza la estadística, la computación científica, el método científico, procesos, algoritmos y sistemas para extraer conocimientos e ideas a partir de datos con ruido, estructurados y no estructurados.

¿Y esto que quiere decir?

Esto significa que no tienes que ser expertx en matemáticas para poder dedicarte a la ciencia de datos. Pero también significa que, como serás parte de un equipo diverso, necesitarás tener un terreno en común en el conocimiento del negocio (o campo de estudio si estás en un medio académico), en computación científica y, por supuesto, en matemáticas, para que la comunicación dentro de tu equipo (y hacia afuera) sea fluida y el intercambio de ideas sea más sencillo.

¿Qué áreas de la matemática necesito para empezar?

Una búsqueda rápida en Google nos lleva al consenso de que para estar dentro de este campo es necesario tener conocimientos de Estadística, Álgebra Lineal y Cálculo. Sin embargo, en mi experiencia trabajando para la industria y para la academia, diría que basta con tener bases de probabilidad y estadística sólidas para empezar en la ciencia de datos.

(Probabilidad y) Estadística

La Estadística es un área que se se encarga de desarrollar y estudiar métodos de recopilación, análisis, interpretación y presentación de datos empíricos.

Durante el Bootcamp de Ciencia de Datos cubrimos los conceptos más fundamentales de la Probabilidad y la Estadística. Te los dejo por si quieres echarles un vistazo.

  • Espacio y punto muestral
  • Evento —en el contexto de probabilidad
  • Variables aleatorias —discretas y continuas
  • Distribuciones y densidades de probabilidad —mencionamos algunos ejemplos
  • Esperanza Matemática —sí, sé que da gracia, pero tiene todo el sentido del mundo que se llame así
  • Población vs. Muestra
  • Medidas de tendencia central —en específico media aritmética, mediana y moda, sus diferencias, interpretaciones y casos de uso
  • Medidas de dispersión —en específico varianza, desviación estándar, rango, y rango intercuartil, sus diferencias e interpretaciones
  • Ley de los Grandes Números —¿ya les dije que es mi teorema favorito?
  • Hipótesis Nula y Pruebas de Hipótesis
  • Exactitud vs. Precisión
  • Matriz de Confusión —tipos de error, métricas de evaluación de modelos (sus casos de uso e interpretación)

Ya que tengas estas bases sólidas podrás tanto expandir tus conocimientos en Probabilidad y Estadística —que, créeme, nunca está de más y estos campos de la matemática son ✨ preciosos ✨— como en otras áreas matemáticas que también te serán de gran utilidad.

💡 Ver más en Bootcamp Replays Estadística 1 y Estadística 2

📖 Fuentes recomendadas para iniciar:

Lane, D. et al. (2003). Introduction to Statistics. Rice University. Bruce, P. C., Bruce, A., & Gedeck, P. (2020). Practical statistics for data scientists: 50+ essential concepts using R and Python. O'Reilly.

Álgebra Lineal

Una vez termines de familiarizarte con los conceptos básicos de la Estadística te recomiendo muchísimo estudiar Álgebra Lineal. Esta área, dentro de la Ciencia de Datos, se utiliza para manipular y transformar los datos gracias a la estructura que tienen objetos matemáticos como las Matrices —que serán tus más grandes amigas en tu carrera profesional.

Una vez que aprendas a utilizar el álgebra lineal a tu favor podrás expresar modelos de muchísimas variables de forma “elegante”, tanto en papel como en código. Esto te ayudará muchísimo al momento de entrenar y evaluar tu modelo, pues podrás hacer mucho con pocas líneas de código si aprovechas el poder de las estructuras algebraicas y las estructuras de datos 😉

¿Quién diría que Y=AX+B es una expresión que podría estar resumiendo un modelo de miles de variables independientes con sus respectivos parámetros?

Durante el Bootcamp de Ciencia de Datos Avanzado tendremos una sesión completa dedicada al Álgebra Lineal para que sea más fácil para ti expresar tus modelos de forma matricial. ¡Créeme que te ayudará muchísimo al momento de programar!

Si quieres familiarizarte con conceptos básicos de Álgebra Lineal para no llegar en ceros, te dejo los conceptos que manejamos durante el Bootcamp de Programación desde Cero:

  • Vector —y sus operaciones: suma, multiplicación, producto escalar y producto vectorial
  • Matriz —y sus operaciones: sumas, multiplicación por escalar, producto matricial, matriz inversa
  • Matrices especiales —identidad, traspuesta, cuadrada, diagonal, fila, columna, triangular superior e inferior

💡 Ver más en Bootcamp Replays Álgebra lineal

📖 Fuentes recomendadas para iniciar:

Cohen, M. (2022). Practical linear algebra for data science: From core concepts to applications using Python. O'Reilly Media. Torfi, A. (2021). Practical Linear Algebra for Machine Learning. Cooper, S. (2018). Data Science from scratch: The #1 data science guide for everything A data scientist needs to know: Python, Linear Algebra, statistics, coding, applications, neural networks, and decision trees. Data Science. Strang, G. (2019). Linear Algebra and learning from data. Wellesley-Cambridge Press. Choudhary, P. (2009). A practical approach to linear algebra. Oxford Book Co.

Cálculo o Análisis Real (real de números reales R)

Sé que mucha gente considera al Cálculo como un área intimidante, pero déjame explicarte por qué es considerada otra gema del infinito para la Ciencia de Datos.

En la Ciencia de Datos normalmente queremos saber cómo se relacionan las diferentes variables entre sí —casi siempre las distintas columnas de nuestro dataset. El cálculo nos ayuda a entender mejor estas relaciones a través de las “razones de cambio” —las famosas “derivadas”— que juegan un rol importante al momento de entender las tendencias en nuestros datos y hacer predicciones. Esto nos ayudará a sugerir mejores decisiones a nuestros stakeholders Como usualmente lidiamos con más de una variable, tendremos que adentrarnos en funciones multivariadas y derivadas parciales —se parece mucho al cálculo usual pero con más variables.

¿Recuerdas que anteriormente hablamos de distribuciones y densidades de probabilidad? Bueno, para poder tener mejor entendimiento al interpretar estas funciones y los resultados en las pruebas de hipótesis necesitamos conocer el concepto de “área bajo la curva” —o “integrales”, en lenguaje matemático. También nos será útil conocer este concepto para evaluar el rendimiento de nuestros modelos, como al medir la exactitud de algún clasificador utilizando la curva ROC (Receiver Operating Characteristic o Curva Característica de Funcionamiento del Receptor), una métrica utilizada inicialmente en la teoría de detección de señales pero ahora usada en muchas otras áreas como medicina, radiología y peligros naturales.

Aunque los contenidos del Cálculo son muchísimos, la realidad es que lo más importante es entender sus principios, cómo estos afectan tus modelos y cómo utilizarlos a tu favor para interpretar de forma más acertada tus resultados.

Algunos conceptos del cálculo que te ayudarán en la Ciencia de Datos son los siguientes:

  • Función
  • Razón de cambio —o “derivada”, pa’ los compas
  • Mínimos y máximos locales —una aplicación bien específica de la “segunda derivada”
  • Áreas bajo la curva —o “integrales”

📖 Fuentes recomendadas para iniciar:

Jean, H. (2021). Essential Math for Data Science: Take Control of your data with fundamental calculus, linear algebra, probability, and statistics. O'Reilly.

Otros campos matemáticos que podrían ser útiles

Si ya estás familiarizado con lo básico de la Estadística, el Álgebra Lineal y el Cálculo, es posible que quieras ver qué más hay en las matemáticas para ti. Las áreas que recomiendo dependerán más bien del rumbo que tomes dentro de la Ciencia de Datos y la clase de problemas que abordes. A modo general, te sugeriría estas cinco áreas adicionales para ampliar tu conocimiento y afinar tus herramientas de análisis.

Optimización

Te recomiendo pasar por esta área una vez te resulten familiares los conceptos del cálculo que mencionamos anteriormente. En esta área estaremos maximizando o minimizando funciones, por lo que el cálculo está presente en todo momento. La Optimización te ayudará a hacer el tan preciado ✨fine-tuning✨ de tus modelos una vez los tengas planteados, para maximizar cualquiera de las métricas que consideres relevante para tu modelo y con ello mejorar su desempeño. Una técnica común para esta tarea es el Gradiente Descendiente —o Gradient Descent, en inglés. Esta técnica nos permite encontrar el valor mínimo de funciones complejas —como funciones de pérdida o costo o loss function en inglés— y mejorar así nuestros modelos de forma iterativa.

📖 Fuentes recomendadas para iniciar:

Sarker, R. A., Abbass, H. A., Newton, C. S., Sarker, R. A., & Newton, C. (2002). Heuristic and optimization for knowledge discovery. Idea Group, Inc.

Diseño Experimental

En muchas ocasiones, especialmente si necesitas mejorar algún producto cambiando sus características, necesitarás centrarte en la obtención de datos mediante diseños experimentales. Sin embargo, hacer experimentos es costoso en tiempo y recursos, por lo que necesitarás una estrategia para maximizar la cantidad y la calidad de la información obtenida a la vez que minimizas el tiempo y recursos utilizados en la obtención de esta información. El Diseño Experimental no sólo te ayudará con esto, sino también a establecer relaciones causales entre variables de manera efectiva.

📖 Fuentes recomendadas para iniciar:

Montgomery, D. C. (2016). Diseño y Análisis de Experimentos. Limusa.

Muestreo

Más vale aumentar la calidad de los datos que su cantidad. Recomiendo no sólo poner más atención en el diseño experimental en la obtención de datos sino también a las técnicas de Muestreo utilizadas para minimizar el sesgo en tus resultados. Si quieres entrar en el mundo del Big Data, Muestreo es un área obligada para poder hacer los análisis de forma eficiente. Además, conocer esta rama te ayudará a saber cuándo parar en la recolección de datos sin comprometer la representatividad de tu muestra, minimizando los costos de su obtención y mejorando la confiabilidad de tus conclusiones sobre una población.

📖 Fuentes recomendadas para iniciar:

Lohr, S. L. (2019). Sampling: Design and analysis. CRC Press.

Teoría de Grafos

Si tienes datos con relaciones entre sí, la Teoría de Grafos te ayudará a desentrañar sus patrones más ocultos. Te ayudarán tanto con el diseño de sistemas de recomendación —de libros, películas, series o videojuegos—, con la detección de anomalías —como un posible fraude—, o a resolver problemas de logística o de procesado de lenguaje natural. El mundo es un gran sistema con conexiones donde lo mires, por lo que los grafos podrán ayudarte a resolver problemas complejos.

💡 Ver más en Bootcamp Replays Introducción a la teoría de grafos

📖 Fuentes recomendadas para iniciar:

Henning, M., & H., V. V. J. (2022). Graph and network theory: An applied approach using Mathematica. Springer. Saoub, K. R. (2021). Graph theory: An introduction to proofs, algorithms, and applications. CRC Press.

Principios de conteo y combinatoria (Matemáticas Discretas)

Es desde la combinatoria donde se define cómo funcionan las distribuciones de probabilidad —las que nos describen el comportamiento de las variables discretas. Estas áreas también nos ayudarán a diseñar de mejor manera nuestros experimentos o nuestras estrategias de muestreo para la obtención de datos: al comprender las posibles combinaciones y arreglos de condiciones experimentales podemos asegurarnos de que nuestro análisis será preciso y representativo de la población.

📖 Fuentes recomendadas para iniciar:

Johnsonbaugh, R. (2005). Matemáticas discretas. Pearson Educación. Bóna Miklós. (2006). A walk through combinatorics: An introduction to enumeration and graph theory. World Scientific Pub.

Comentarios finales de La Matemaga

La Ciencia de Datos es un área que está creciendo cada vez más rápido. Es difícil ponerse al día de inmediato y puede parecer abrumadora la cantidad de modelos y tendencias en Inteligencia Artificial, por lo que te recomiendo centrarte en tener unas bases sólidas que te permitan identificar el conocimiento que requerirás para tus análisis y retomar la teoría por tu cuenta en cuanto lo necesites de acuerdo al camino que tomes en tu carrera profesional.

Durante el Bootcamp de Ciencia de Datos Avanzados veremos de forma teórica dos modelos que nunca pasan de moda ni en industria ni en investigación: Regresión y Árboles de Decisión. Elegimos estos temas por su elegancia, su potencia, y su uso en la industria. Además, familiarizarte con estos modelos en un ambiente grupal guiados por tu tutora —en este caso, yo misma— te permitirá tener más soltura en caso de querer explorar otros modelos por tu cuenta, sin importar su complejidad.

Te esperamos con ansias en las próximas clases del Bootcamp. ¡Y ten una increíble mateaventura en tu carrera en Ciencia de Datos!

Recursos adicionales

“Con las matemáticas podemos conseguir un mundo más igualitario” - Clara Grima, matemática https://www.youtube.com/watch?v=DrLo0iBv2VI

https://flatironschool.com/blog/how-much-math-do-you-need-to-become-a-data-scientist/

Bootcamp Ciencia de Datos

12 semanas de formación intensiva en los conocimientos, fundamentos, y herramientas que necesitas para ser científico de datos

Más información