Analítica

Comparativa: ciencia de datos y análisis de datos

Compartir esta publicación:

Una pregunta común es: ¿cuál es la diferencia entre un analista de datos y un científico de datos?

La tarea para cada uno es diferente. Difiere porque ser un científico de datos no lo convierte en un maestro del universo. Cuando decimos que la ciencia de datos es trabajo en equipo, significa que el equipo incluye un periodista de datos que participa en la recopilación de datos y las actividades de discusión de datos. El ingeniero de datos probablemente trabaja con Python y se esfuerza por generar visualizaciones significativas de los datos. El analista de datos puede realizar ambas tareas y está bien versado en SQL, comprende el DBMS o en la nube (y sistemas híbridos cada vez más frecuentes). Piensa en Hadoop, big data y habilidades de minería de datos.

En cambio, el científico de datos es el curioso. Ellos o ellas son los que tienen un punto crítico a resolver. El científico de datos tiene una hipótesis para refutar o validar (ambos son útiles). El científico de datos se aventura fuera de la oficina y siente el frío, la lluvia y toma medidas de los sensores.

A diferencia del analista de datos, el científico de datos (DS) también está muy involucrado con los datos no estructurados. Esto significa que el DS está extrayendo ideas y sentimientos de fuentes como Twitter, de las imágenes de Facebook, y tal vez hacer una representación repentina de la depresión como resultado del distanciamiento social. ¿Es esa depresión más frecuente en una común que otra? ¿Cómo puedo ayudar? Estas ideas no están en IBM DB2, MS SQL Server ni en la base de datos de Oracle, estos puntos de datos están en nuestros dispositivos móviles.

Las herramientas que puede utilizar el DS van más allá de las estadísticas brutas (regresión, árboles forestales aleatorios, inferencias bayesianas) de SPSS o SAS; emplean técnicas de aprendizaje profundo (CNN, RNN, LSTM, redes de cápsulas, GAN) que utilizan vectores de características por entrada. Después de todo, todos los puntos de datos para que una máquina los use deben normalizarse entre 1 y 0. El sistema no solo ve un gato, sino que es una codificación de 1-hot, ¡es un montón de unos y ceros! Lo mismo es cierto si su entrada fue un archivo CSV.

El atributo reinante que más se aprecia en un aspirante a científico de datos es una sensación de curiosidad. Uno que da vueltas y pregunta ‘por qué’ todo el tiempo. Otra característica clave es la comprensión de la estadística inferencial (pensar en regresión) y el cálculo II (pensar en derivadas parciales e integrales). Pueden ver claramente en sus mentes cómo una función integral es lo opuesto a una función derivada.

¿Python? Bueno, ayuda, pero no en la parte más importante de una lista. Hoy en día, enganchamos el código de los Cuadernos Jupyter existentes y se reutilizan, quizás solo cambiando el valor de los ejes x y en el código. Una cosa que es un poco más frecuente con DS es el uso de herramientas de código abierto para ejecutar los cálculos matemáticos (NumPy, Sci-Kit learn) y las visualizaciones de datos (la visualización favorita, es el código abierto Pixiedust, que se creó en IBM por un ex ingeniero distinguido, David Taieb.

El científico de datos tiene una gran comprensión de la matriz de confusión y puede interpretar la distribución en una curva operativa receptora (ROC) en la que establecemos el verdadero positivo (eje x) frente al falso positivo (eje y). Es un científico porque comenzaron con una hipótesis y emplearon el método científico. Comprende el valor del Design Thinking. Se da cuenta de que hay algo como hervir el agua del océano y una alineación aguda de ¿para quién exactamente estamos resolviendo el problema?

Hay una tarea compartida entre todos estos roles que tienen la palabra “datos” en ella: es decir, todos comienzan la semana como gestores de datos. La revisión de Harvard Business que consideraba a Data Scientist como el trabajo más sexy del siglo XXI olvidó mencionar que todo ese atractivo comienza el jueves, no el lunes. Es necesario realizar una limpieza de datos poco atractiva antes de que el aprendizaje automático llegue al juego.

El científico de datos entiende que el ganador de la carrera de IA no es la entidad o el país con cantidades épicas de datos, ni la universidad o empresa con el próximo gran algoritmo, está haciendo IA máxima con datos mínimos. Por ejemplo, tengo el presentimiento de que será un buen día, ¿cuántos datos necesité a primera hora de la mañana para hacer esa predicción? ¡Buena suerte al sistema ML al hacer esa predicción usando una corazonada …por ahora!

More Analítica stories

Novis e IBM ayudan a las empresas mexicanas a acelerar su viaje hacia la nube híbrida

Hoy en día, para ser una empresa líder en cualquier sector es fundamental que las organizaciones reconozcan la transformación digital como la clave para impulsar la eficiencia, la innovación y el crecimiento de su negocio. Liderando esa transformación, está la tecnología de nube híbrida. Esto se ha convertido en una ventaja competitiva que las empresas […]

Continuar leyendo

Acelerar el descubrimiento en ciencia para construir un futuro más sostenible

Para abordar con éxito el cambio climático necesitamos una forma nueva y mucho más eficiente de descubrir nuevos materiales, utilizando ciencia y tecnología de vanguardia. El método científico tradicional de prueba y error, con siglos de antigüedad, ha sido muy útil para la sociedad, pero es increíblemente costoso y requiere mucho tiempo. Con el clima, […]

Continuar leyendo

La seguridad primero: 3 avances clave para el futuro de la criptografía

Pocas empresas argumentarían que sus sistemas de TI no se beneficiarían de medidas de seguridad adicionales. Particularmente en América Latina, considerando el aumento de ciberataques en la región, que representó el 9% del total de ataques observados por IBM Security X-Force en 2020, frente al 5% en 2019. La pregunta en torno a las mejoras de seguridad, […]

Continuar leyendo