El saber sin saber¶

https://images.pexels.com/photos/669615/pexels-photo-669615.jpeg?auto=compress&cs=tinysrgb&dpr=2&h=650&w=940

Fig. 3 Gráficos (Visualización de Datos, una parte de la Ciencia de Datos). Fotografía de @goumbik en Pexels.¶

En esta sección escribiré acerca de qué es la Ciencia de Datos, así como mi experiencia en ella, intentando resolver las siguientes inquietudes:

  • ¬ŅQu√© es la Ciencia de Datos? ¬ŅC√≥mo aprendiste?

  • ¬ŅEs dif√≠cil?

  • ¬ŅQu√© requiero?

Breve introducción a la Ciencia de Datos¶

Un d√≠a escuchas sobre Siri, te preguntas c√≥mo funciona. Luego, te preguntas c√≥mo Facebook puede reconocer rostros en las fotograf√≠as, o incluso, c√≥mo maneja enormes vol√ļmenes de informaci√≥n. Pues, gran parte de esas interrogantes me las hice en alg√ļn momento, y di en Google con muchos resultados, entre ellos, IA (Inteligencia Artificial), Big Data, y muchos otros campos, y todos calzan en un com√ļn denominador: Todos los campos pertenecen a la Ciencia de Datos.

Con lo anterior, ya nos podemos hacer una idea:

  • ¬ŅC√≥mo manejamos la informaci√≥n? ¬ŅCu√°l es su volumen?

  • ¬ŅPodemos generar conocimiento con ella?

  • ¬ŅQu√© formatos trae la informaci√≥n?

Todas esas interrogantes, como muchas otras m√°s, las responde y soluciona la Ciencia de Datos. ¬ŅC√≥mo surge? Pensemos en la internet compuesta de enormes sitios, entre ellos, redes sociales, comunidades de educaci√≥n, de ocio, etc. ¬°Millones de personas compartiendo informaci√≥n constantemente! Pensemos en lo dependientes que somos (de una u otra forma). Esos millones de personas generan millones, sino billones de interacciones en un d√≠a en internet.

Seg√ļn la p√°gina internetlivestats [Pro21], y a la fecha en que ingres√© al sitio (mi√©rcoles 2 de junio de 2021 a las 19:39 hrs.), se registraron en poco m√°s de un minuto 1:

  • Tr√°fico de internet: M√°s de 11.000.000 GB.

  • Correos enviados: M√°s de 244.000.000 correos.

  • Tweets: M√°s de 1.000.000 tweets en Twitter.

  • B√ļsquedas en Google: M√°s de 6.200.000 b√ļsquedas.

En resumen, ¬°enormes vol√ļmenes de informaci√≥n! Todo √©sto, gracias a la modernidad y la evoluci√≥n de las TIC (Tecnolog√≠as de la Informaci√≥n). Recuerdo que, en alg√ļn texto, le√≠ que existe m√°s informaci√≥n rondando de la que podemos procesar, y tiene l√≥gica. ¬ŅC√≥mo generamos conocimiento con esa informaci√≥n? Solo pensemos en como las IA modernas son capaces de predecir si una persona tiene c√°ncer, si puede ser un futuro cliente (o de ser cliente cu√°l es la probabilidad que lo perdamos), si esa persona tiene depresi√≥n, cu√°l su estado an√≠mico, o en los tiempos de COVID-19 saber su temperatura corporal (para saber si tiene fiebre y ser un potencial caso contagiado del virus), etc. ¬°Infinitas posibilidades! Aunque, evidentemente aqu√≠ surge otra interrogante, que es el c√≥mo somos √©ticos en generar ese tipo de algoritmos.

https://images.pexels.com/photos/373543/pexels-photo-373543.jpeg?auto=compress&cs=tinysrgb&dpr=2&h=650&w=940

Fig. 4 Información y masa. Fotografía de Pixabay en Pexels.¶

Queda mucho que a√Īadir, pero quiero ser preciso. As√≠ que esa es mi breve introducci√≥n, para situarte en qu√© es la Ciencia de Datos.

A continuación, expondré el cómo me introduje en ella.

¬ŅQu√© es un Cient√≠fico de Datos?¬∂

https://images.pexels.com/photos/586087/pexels-photo-586087.jpeg?auto=compress&cs=tinysrgb&dpr=2&h=650&w=940

Fig. 5 Lanzamiento. Fotografía de SpaceX en Pexels.¶

Un Científico de Datos es una persona que está detrás de una parte de estos procesos expuestos, pudiendo especializarse en alguna específica, pero que tiene cierto dominio básico de gran parte de ellas. Por lo general, depende de dónde deba o quiera trabajar.

¬ŅQu√© te consideras?¬∂

¬ŅQu√© me considero? ¬°Un aspirante a ser Cient√≠fico de Datos! Dado que a√ļn me falta mucho camino por recorrer.

Recibamos fríamente a los tecnicismos¶

https://images.pexels.com/photos/2081166/pexels-photo-2081166.jpeg?auto=compress&cs=tinysrgb&dpr=3&h=750&w=1260

Fig. 6 Una foto de alerta. Fotografía de David Yu en Pexels.¶

¬°Alerta! Empezaremos con los tecnicismos. Por lo general, un Cient√≠fico de Datos debe tener un amplio conocimiento en las √°reas antes mencionadas, como tambi√©n, ser capaz de analizar, buscar patrones, explorar estad√≠sticamente, procesar e idear formas de obtener conocimiento a partir de los datos. Evidentemente, estas actividades son realizadas en Software, ya que de otra forma, no podr√≠amos trabajar con grandes vol√ļmenes de informaci√≥n (del contrario, nos tomar√≠a una eternidad analizar gigabytes, terabytes o m√°s datos). Para √©sto, se debe tener cierto dominio de programaci√≥n, particularmente, y dependiendo de lo que se quiera realizar, R Studio para el an√°lisis de datos, Python para desarrollar algoritmos de predicci√≥n (aunque Python es ampliamente diverso en sus utilidades, pudiendo utilizarse en desarrollo web, aplicaciones para smartphones, entre otros), SQL para el leer bases de datos (SQL es un lenguaje de consulta) y muchos otros m√°s.

  • De todas formas, puedes revisar los notebooks que est√°n en la secci√≥n de programaci√≥n. All√≠ encontrar√°s una parte de lo que es hacer Ciencia de Datos (recalco, solo una parte, dado es una enorme √°rea en constante investigaci√≥n y desarrollo, basada en la Matem√°tica, Estad√≠stica, Ciencias de la Computaci√≥n, y otros campos).

¬ŅC√≥mo iniciaste en la Ciencia de Datos?¬∂

¬ŅC√≥mo inicie mi camino? Bueno, todo parti√≥ en diciembre de 2019 y verano de 2020. Tuve algunos problemas de salud, y decid√≠ introducirme en el Dise√Īo Web. Aprend√≠ lenguaje de marcaci√≥n (HTML), hojas de estilo en cascada (creo as√≠ era en espa√Īol, de todas formas es CSS), y JavaScript (abreviado JS), que fue el primer lenguaje de programaci√≥n que decid√≠ aprender de forma aut√≥noma. Gracias a ello, logr√© desarrollar la primera p√°gina web de Numeral.lab.

Paralelamente, tuve clases de Estadística en la Universidad, donde gracias al docente Francisco Cartes aprendí sobre R Studio (utilizamos principalmente Tidyverse). En ese ramo, desarrollé mi primer informe utilizando Ciencia de Datos y R Studio. Además, Francisco me brindó acceso a Datacamp, que es una plataforma de Ciencia de Datos buenísima, donde es posible aprender, a través de videos y ejercicios de práctica a utilizar R, Python, SQL, entre otros. Con ella, aprendí lo básico de Python, y en concreto, librerías como Numpy, Pandas y Matplotlib. Autónomamente aprendí Plot.ly, librería con la que realicé los primeros gráficos para Numeral.lab, y con ellos, se desarrolló la primera fase del proyecto (visualizar datos).

Numeral¶

https://adinamarca.github.io/IMG/imglogopeq.png

Fig. 7 Primer logo de Numeral.lab.¶

¬ŅMe dices que todo comenz√≥ con unos gr√°ficos en Python? S√≠. Al menos Numeral.lab. Mejor contar√© desde el principio. Un d√≠a por la noche, andaba recorriendo el sitio web de mi Universidad - probablemente para ver alguna nota o tarea -, hasta que me llam√≥ la atenci√≥n un portal de la UNAP que redirig√≠a a un sitio donde hab√≠an gr√°ficos est√°ticos. All√≠ se me ocurri√≥ algo: Dinamizarlos. Sab√≠a que exist√≠an muchas formas de realizar gr√°ficos interactivos, y para ello, decid√≠ elaborar algunos gr√°ficos en Plot.ly (muy ciegamente, dado todav√≠a estaba aprendiendo sobre Python). Elaborados esos gr√°ficos, me comuniqu√© con el encargado del sitio, quien era el Dr. Crist√≥bal Corral, y all√≠ le expuse la posibilidad de mejorar los gr√°ficos. Luego, desarroll√© la primera p√°gina web de Numeral.lab, la cual fue reconocida por el Ministerio de Ciencia, Tecnolog√≠a e Innovaci√≥n, y todo fue historia hasta el d√≠a de hoy.

El estimado Dr. Cristóbal Corral¶

https://www.unap.cl/prontus_unap/site/artic/20200911/imag/foto_0000000220200911163924.jpg

Fig. 8 Dr. Cristóbal Corral. Fotografía obtenida desde Universidad Arturo Prat.¶

Tenemos una relaci√≥n de much√≠sima estima y respeto con Dr. Crist√≥bal Corral. Se los presento. √Čl es Doctor en Ciencias, menci√≥n F√≠sica. Actualmente se desempe√Īa como Acad√©mico en la Facultad de Ciencias Exactas de la Universidad Arturo Prat.

Eleg√≠ esa foto sin pedirle permiso (obviamente se lo pedir√© luego). ¬ŅPor qu√©? Bueno, creo retrata mucho su personalidad: Siempre dispuesto a ayudar con una sonrisa. En ese sentido, Crist√≥bal es una persona muy comprometida, y vez que le solicitaba ayuda me respond√≠a. Para el respaldo matem√°tico recurr√≠a a √©l, y siempre me brindaba buenos consejos en las ideas. Debo agradecer profundamente su gesti√≥n en la Universidad, puesto √©l fue el que hizo las gestiones para que Numeral.lab lograse ser un proyecto de vinculaci√≥n de la Universidad Arturo Prat.

Compartimos muchos momentos en Microsoft Teams y en charlas, y aprendí mucho de él en ese y varios aspectos más. ¡Le estimo mucho Cristóbal!

Bibliografía de esta página¶

1

Real Time Statistics Project. Internet Live Stats - One Second. 2021. URL: https://www.internetlivestats.com/one-second/.