Data Science: qué es y qué necesito para ser un científico de datos

Data Science: qué es y qué necesito para ser un científico de datos

La ciencia de datos es la disciplina que se encarga de la extracción del conocimiento de los datos.

La misión del científico de datos es la de extraer el conocimiento de los datos disponibles y transmitirlo a los líderes de las organizaciones para tomar las decisiones de negocio de forma más eficaz.

Un científico de datos, en palabras de Anjul Bhambhri, vicepresidente de productos de Big Data en IBM, es “parte analista, parte artista”, es alguien curioso capaz de mirar los datos y las nuevas tendencias  del mercado y el negocio.

Una curiosidad, ¿sabíais que el considerado mejor científico de datos del mundo es el español José Antonio Guerrero?

¿En qué se está usando Data Science?

Más bien habría que decir en qué no se está usando. Actualmente en campos como la economía y las finanzas (modelos predictivos de bolsa, operaciones de alta frecuencia), la medicina (seguimiento y predicción de pandemias, estudios de prevalencia de enfermedades bajo distintas variables), las compañías de transportes (para optimizar rutas aéreas, terrestres, marítimas), compañías alimenticias (seguimiento de popularidad en redes sociales, trazabilidad de las ventas), telecomunicaciones (prevención del fraude, incremento del “rendimiento” de los clientes), retail (incremento de las ventas por conocimiento de hábitos de consumo), etc. 

Las redes sociales, por ejemplo, son uno de los campos dónde más rápido está creciendo esta disciplina puesto que todas (casi todas) las compañías quieren y necesitan saber a quiénes les gusta sus productos y a quiénes no, lo que opinan de ellos, los perfiles de sus seguidores…

Estos son sólo algunos ejemplos de uso en algunos campos, pero existen muchísimos más. El potencial y las perspectivas de crecimiento de la ciencia de datos son enormes puesto que los datos no paran de aumentar exponencialmente y el afán de conocimiento del ser humano (bueno, de las compañías para vender más 😉 ) es infinito.

Donde Data Science y Big Data se separan

Jeff Leek, Bioestadístico, profesor en John Hopkins University e instructor de la especialización en Data Science de Coursera, dice que “la palabra clave en la ciencia de datos no son los datos, sino que es la ciencia”

La ciencia de datos sólo es útil cuando se utilizan los datos para responder a una pregunta, independientemente del tamaño de los datos o de la cantidad de herramientas que utilicemos para el almacenamiento y procesado de dichos datos. Es en este punto dónde la ciencia de datos se separa de lo tradicionalmente conocido como Big Data, puesto que queda fuera de sus competencias diseñar y administrar la infraestructura y sistemas para la obtención, almacenaje y gestión de grandes (o no tan grandes) volúmenes de datos, y para lo que a día de hoy se preparan básicamente los expertos en Big Data.

Alguna de las razones que nos da Jeff Leek por las que es más duro concentrarse en la ciencia (el científico de datos), que en los datos o en las herramientas (el experto en big data) son las siguientes:

  1. La cita de John Tukey: “La combinación de algunos datos y un deseo doloroso de una respuesta, no asegura que una respuesta razonable pueda ser extraída de una determinada masa de datos”. Podemos tener un volumen inmenso de datos y que solo una pequeña cantidad de los mismos nos sean de utilidad.
  2. Cuando nos hacemos la pregunta para la que buscamos respuesta, descubrimos que a menudo es necesario recoger nuevos datos o diseñar un nuevo experimento para confirmar que tenemos la respuesta correcta.
  3. Es fácil descubrir “estructura” o “redes” en un conjunto de datos. Siempre habrá correlaciones para miles de razones si recogemos datos suficientes. Saber si estas correlaciones son importantes para nuestras preguntas específicas es mucho más difícil.
  4. A menudo, la estructura que has encontrado en la primera pasada se debe a un fenómeno (error de medición, artefactos, de procesamiento de datos) que no responde nuestra pregunta.
Basa tus decisiones en datos y deja de mirar la bola de cristal.

Basa tus decisiones en datos y deja de mirar la bola de cristal.

¿Qué diferencia a un científico de datos de un analista de datos tradicional?

A diferencia de un analista de datos tradicional, que suele mirar los datos obtenidos de una única fuente (un CRM por ejemplo), un científico de datos no sólo podrá extraer y examinar los datos de múltiples  fuentes (Google Analytics, CRMs, páginas web, logs de aplicaciones, etc), sino que además deberá tener una fuerte visión de negocio. Su trabajo consiste en obtener las respuestas para las preguntas o problemas de negocio que se planteen en la empresa, buscando los orígenes de datos disponibles, extrayendo los que son relevantes y examinándolos. Del examen de esos datos obtendrá “el conocimiento”, lo que proporcionará una ventaja competitiva a la empresa,  siendo además capaz de extraer y transmitir recomendaciones a los responsables de negocio de la empresa.

¿Qué habilidades son recomendables que tenga un científico de datos?

Como ya hemos indicado, el científico de datos debe responder a cuestiones de negocio basadas en los datos y ser capaz de presentarlas de modo efectivo. Por tanto un científico de datos deberá tener diferentes habilidades y en campos muy distintos:

Habilidades científicas

Que le permitan responder a las cuestiones planteadas. ¿Qué proceso seguirá para responder a esas cuestiones?

  • Extraer los datos, independientemente de su fuente (webs, .csv, logs, apis, etc) y de su volumen (Big Data o Small Data).
  • Limpiar los datos, para eliminar aquello que distorsiona los mismos.
  • Procesar los datos usando diferentes métodos estadísticos (inferencia estadística, modelos de regresión, pruebas de hipótesis, etc.).
  • Diseñar nuevos test o experimentos en caso necesario.
  • Visualizar y presentar gráficamente los datos.

 Por tanto, un científico de datos deberá tener sólidos conocimientos matemáticos/estadísticos e informáticos.

A nivel informático: deberá ser capaz de programar en R y/o Python para la extracción y limpieza de los datos. Además R dispone de diferentes paquetes estadísticos que facilitan el análisis y presentación de los datos.

Si queremos ir un paso más allá (o bastantes pasos más allá), conocimientos de bases de datos SQL y noSQL (Cassandra), Hadoop, Mapreduce, Hive y Pig

A nivel matemático/estadístico: modelado estadístico, inferencia estadística, diseño de test, y si queremos ir un paso más allá, aprendizajes supervisados y no supervisados y machine learning

Para la presentación y visualización de los datos: existen infinidad de herramientas, desde el clásico PowerPoint, pasando por Tableau, Prezi y otras muchas.

Una buena visualización de datos culmina el proceso de análisis y ayuda en la toma de decisiones.

Una buena visualización de datos culmina el proceso de análisis y ayuda en la toma de decisiones.

Habilidades “sociales”

Que le permitan presentar las conclusiones obtenidas de manera exitosa a cualquier “nivel” de la organización. Deberá ser por tanto un buen comunicador capaz de empatizar con la audiencia.

Habilidades de “negocio”

Deberá ser un apasionado del negocio y sus datos, conocer bien la empresa, sus objetivos, necesidades, preocupaciones y motivaciones y, por supuesto, conocer la competencia. Todo ello le proporcionará el contexto adecuado en el que interpretar los datos.

En la próxima entrada con Data Science como tema principal, hablaremos de dónde se puede formar alguien que quiera dirigir su carrera hacia la ciencia de datos.

Imágenes: Stuart Miles , cooldesign , suphakit73 / freedigitalphotos.net

Sobre José Manuel Escudero

Químico de formación. Máster en Analítica Web por KSchool. Máster en Finanzas y Marketing por ESIC y EOI. Certificado en Google Analytics (GAIQ). Más de 15 años de experiencia en el mundo de Internet y Tecnologías de Información. Primer premio de la XIX Edición premios IDEA (Gobierno de Aragón) en la categoría de Servicios avanzados para empresas.

1 Comentario

Trackbacks/Pingbacks

  1. semseoparatodos (@semseoparatodos) - Qué es y qué necesito para ser un científico de datos http://t.co/bn5LpFka01 grandes @la_metrica
  2. Oscar G. Peinado (@ogpeinado) - RT @la_metrica: Data Science: qué es y qué necesito para ser un científico de datos http://t.co/87502cpQnB http://t.co/OSrMzQVwoV
  3. Daniel Escudero (@descuderof) - RT @la_metrica: La palabra clave en Data Science no son los datos, es la ciencia http://t.co/87502cpQnB http://t.co/LQ8aLJTcov
  4. Barbara Gonzalez (@bglasuen) - RT @la_metrica: La palabra clave en Data Science no son los datos, es la ciencia http://t.co/87502cpQnB http://t.co/LQ8aLJTcov
  5. Jesus Sanchez Jara (@jesussjara) - "Data Science: qué es y qué necesito para ser un científico de datos" http://t.co/V8VvYYCSNO
  6. José Manuel Escudero (@piyayo5) - RT @la_metrica: Un científico de datos es parte analista, parte artista. http://t.co/87502cpQnB
  7. Data Science: 7 cursos de ciencia de datos - La Métrica - […] comentábamos en el artículo Data Science: qué es y qué necesito para ser un científico de datos, se necesitan…
  8. @iicervantes - Qué es y qué necesito para ser un científico de datos http://t.co/B5C4ACzjsG
  9. @freitasmanuel - Excelente Artículo. https://t.co/pCoIrLogMj
  10. @EGerencial21 - Data Science: qué es y qué necesito para ser un científico de datos https://t.co/bQ5N1O0nja
  11. @clubdedatos - Data Science: qué es y qué necesito para ser un científico de datos https://t.co/GPQca0wnKx vía @la_metrica
  12. @NFOLatam - RT @clubdedatos: Data Science: qué es y qué necesito para ser un científico de datos https://t.co/GPQca0wnKx vía @la_metrica
  13. @cesartorrejon - Qué es y qué necesito para ser un científico de datos https://t.co/AbzHXUZMTk
  14. @freylev - Qué es y qué necesito para ser un científico de datos https://t.co/HmE2TBlWi9
  15. Big Data Scientist | Big Data Marketing - […] Data Science: qué es y qué necesito para ser un científico de datos 10 habilidades del científico de datos,…
  16. @edugil39 - Data Science: qué es y qué necesito para ser un científico de datos https://t.co/wPc7sBC5j3
  17. @MilaGasco - RT @edugil39: Data Science: qué es y qué necesito para ser un científico de datos https://t.co/wPc7sBC5j3

Deja un comentario