El saber sin saber#
En esta sección escribiré acerca de qué es la Ciencia de Datos, así como mi experiencia en ella, intentando resolver las siguientes inquietudes:
¿Qué es la Ciencia de Datos? ¿Cómo aprendiste?
¿Es difícil?
¿Qué requiero?
Breve introducción a la Ciencia de Datos#
Un día escuchas sobre Siri, te preguntas cómo funciona. Luego, te preguntas cómo Facebook puede reconocer rostros en las fotografías, o incluso, cómo maneja enormes volúmenes de información. Pues, gran parte de esas interrogantes me las hice en algún momento, y di en Google con muchos resultados, entre ellos, IA (Inteligencia Artificial), Big Data, y muchos otros campos, y todos calzan en un común denominador: Todos los campos pertenecen a la Ciencia de Datos.
Con lo anterior, ya nos podemos hacer una idea:
¿Cómo manejamos la información? ¿Cuál es su volumen?
¿Podemos generar conocimiento con ella?
¿Qué formatos trae la información?
Todas esas interrogantes, como muchas otras más, las responde y soluciona la Ciencia de Datos. ¿Cómo surge? Pensemos en la internet compuesta de enormes sitios, entre ellos, redes sociales, comunidades de educación, de ocio, etc. ¡Millones de personas compartiendo información constantemente! Pensemos en lo dependientes que somos (de una u otra forma). Esos millones de personas generan millones, sino billones de interacciones en un día en internet.
Según la página internetlivestats [Pro21], y a la fecha en que ingresé al sitio (miércoles 2 de junio de 2021 a las 19:39 hrs.), se registraron en poco más de un minuto [1]:
Tráfico de internet: Más de 11.000.000 GB.
Correos enviados: Más de 244.000.000 correos.
Tweets: Más de 1.000.000 tweets en Twitter.
Búsquedas en Google: Más de 6.200.000 búsquedas.
En resumen, ¡enormes volúmenes de información! Todo ésto, gracias a la modernidad y la evolución de las TIC (Tecnologías de la Información). Recuerdo que, en algún texto, leí que existe más información rondando de la que podemos procesar, y tiene lógica. ¿Cómo generamos conocimiento con esa información? Solo pensemos en como las IA modernas son capaces de predecir si una persona tiene cáncer, si puede ser un futuro cliente (o de ser cliente cuál es la probabilidad que lo perdamos), si esa persona tiene depresión, cuál su estado anímico, o en los tiempos de COVID-19 saber su temperatura corporal (para saber si tiene fiebre y ser un potencial caso contagiado del virus), etc. ¡Infinitas posibilidades! Aunque, evidentemente aquí surge otra interrogante, que es el cómo somos éticos en generar ese tipo de algoritmos.
Queda mucho que añadir, pero quiero ser preciso. Así que esa es mi breve introducción, para situarte en qué es la Ciencia de Datos.
A continuación, expondré el cómo me introduje en ella.
¿Qué es un Científico de Datos?#
Un Científico de Datos es una persona que está detrás de una parte de estos procesos expuestos, pudiendo especializarse en alguna específica, pero que tiene cierto dominio básico de gran parte de ellas. Por lo general, depende de dónde deba o quiera trabajar.
¿Qué te consideras?#
¿Qué me considero? ¡Un aspirante a ser Científico de Datos! Dado que aún me falta mucho camino por recorrer.
Recibamos fríamente a los tecnicismos#
¡Alerta! Empezaremos con los tecnicismos. Por lo general, un Científico de Datos debe tener un amplio conocimiento en las áreas antes mencionadas, como también, ser capaz de analizar, buscar patrones, explorar estadísticamente, procesar e idear formas de obtener conocimiento a partir de los datos. Evidentemente, estas actividades son realizadas en Software, ya que de otra forma, no podríamos trabajar con grandes volúmenes de información (del contrario, nos tomaría una eternidad analizar gigabytes, terabytes o más datos). Para ésto, se debe tener cierto dominio de programación, particularmente, y dependiendo de lo que se quiera realizar, R Studio para el análisis de datos, Python para desarrollar algoritmos de predicción (aunque Python es ampliamente diverso en sus utilidades, pudiendo utilizarse en desarrollo web, aplicaciones para smartphones, entre otros), SQL para el leer bases de datos (SQL es un lenguaje de consulta) y muchos otros más.
De todas formas, puedes revisar los notebooks que están en la sección de programación. Allí encontrarás una parte de lo que es hacer Ciencia de Datos (recalco, solo una parte, dado es una enorme área en constante investigación y desarrollo, basada en la Matemática, Estadística, Ciencias de la Computación, y otros campos).
¿Cómo iniciaste en la Ciencia de Datos?#
¿Cómo inicie mi camino? Bueno, todo partió en diciembre de 2019 y verano de 2020. Tuve algunos problemas de salud, y decidí introducirme en el Diseño Web. Aprendí lenguaje de marcación (HTML), hojas de estilo en cascada (creo así era en español, de todas formas es CSS), y JavaScript (abreviado JS), que fue el primer lenguaje de programación que decidí aprender de forma autónoma. Gracias a ello, logré desarrollar la primera página web de Numeral.lab.
Paralelamente, tuve clases de Estadística en la Universidad, donde gracias al docente Francisco Cartes aprendí sobre R Studio (utilizamos principalmente Tidyverse). En ese ramo, desarrollé mi primer informe utilizando Ciencia de Datos y R Studio. Además, Francisco me brindó acceso a Datacamp, que es una plataforma de Ciencia de Datos buenísima, donde es posible aprender, a través de videos y ejercicios de práctica a utilizar R, Python, SQL, entre otros. Con ella, aprendí lo básico de Python, y en concreto, librerías como Numpy, Pandas y Matplotlib. Autónomamente aprendí Plot.ly, librería con la que realicé los primeros gráficos para Numeral.lab, y con ellos, se desarrolló la primera fase del proyecto (visualizar datos).
Numeral#
¿Me dices que todo comenzó con unos gráficos en Python? Sí. Al menos Numeral.lab. Mejor contaré desde el principio. Un día por la noche, andaba recorriendo el sitio web de mi Universidad - probablemente para ver alguna nota o tarea -, hasta que me llamó la atención un portal de la UNAP que redirigía a un sitio donde habían gráficos estáticos. Allí se me ocurrió algo: Dinamizarlos. Sabía que existían muchas formas de realizar gráficos interactivos, y para ello, decidí elaborar algunos gráficos en Plot.ly (muy ciegamente, dado todavía estaba aprendiendo sobre Python). Elaborados esos gráficos, me comuniqué con el encargado del sitio, quien era el Dr. Cristóbal Corral, y allí le expuse la posibilidad de mejorar los gráficos. Luego, desarrollé la primera página web de Numeral.lab, la cual fue reconocida por el Ministerio de Ciencia, Tecnología e Innovación, y todo fue historia hasta el día de hoy.
El estimado Dr. Cristóbal Corral#
Tenemos una relación de muchísima estima y respeto con Dr. Cristóbal Corral. Se los presento. Él es Doctor en Ciencias, mención Física. Actualmente se desempeña como Académico en la Facultad de Ciencias Exactas de la Universidad Arturo Prat.
Elegí esa foto sin pedirle permiso (obviamente se lo pediré luego). ¿Por qué? Bueno, creo retrata mucho su personalidad: Siempre dispuesto a ayudar con una sonrisa. En ese sentido, Cristóbal es una persona muy comprometida, y vez que le solicitaba ayuda me respondía. Para el respaldo matemático recurría a él, y siempre me brindaba buenos consejos en las ideas. Debo agradecer profundamente su gestión en la Universidad, puesto él fue el que hizo las gestiones para que Numeral.lab lograse ser un proyecto de vinculación de la Universidad Arturo Prat.
Compartimos muchos momentos en Microsoft Teams y en charlas, y aprendí mucho de él en ese y varios aspectos más. ¡Le estimo mucho Cristóbal!