¿Qué es la minería de datos?

El horizonte de Toronto con edificios modernos bajo un cielo azul

Autores

Jim Holdsworth

Staff Writer

IBM Think

¿Qué es la minería de datos?

La minería de datos es el uso del machine learning y el análisis estadístico para descubrir patrones y otra información valiosa de grandes conjuntos de datos.

Dada la evolución del machine learning, el almacenamiento de datos y el crecimiento del big data, la adopción de la minería de datos, también conocida como descubrimiento de conocimiento en bases de datos (KDD), se aceleró rápidamente en las últimas décadas. Sin embargo, aunque esta tecnología evoluciona continuamente para manejar datos a gran escala, los líderes aún pueden enfrentar desafíos con la escalabilidad y la automatización.

Las técnicas de minería de datos que sustentan los análisis de datos se pueden desplegar para dos propósitos principales:

  • Describir el conjunto de datos objetivo
  • Predecir resultados mediante algoritmos de machine learning

Estos métodos se emplean para organizar y filtrar los datos, sacando a la luz la información más útil, desde el fraude hasta los comportamientos de los usuarios, los cuellos de botella e incluso las violaciones de seguridad. El uso de algoritmos de ML e inteligencia artificial (IA) permite la automatización del análisis, lo que puede acelerar enormemente el proceso.

Cuando se combina con herramientas de análisis y visualización de datos, como Apache Spark, el software de minería de datos es cada vez más sencillo y la extracción de información relevante se puede obtener más rápido que nunca. Los avances en IA continúan acelerando la adopción en todas las industrias.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona la minería de datos

El proceso de minería de datos implica varios pasos, desde la recopilación de datos hasta la visualización para extraer información valiosa de grandes conjuntos de datos. Las técnicas de minería de datos se pueden emplear para generar descripciones y predicciones sobre un conjunto de datos objetivo.

Los científicos de datos o especialistas en business intelligence (BI) describen los datos a través de sus observaciones de patrones, asociaciones y correlaciones. También clasifican y agrupan datos a través de métodos de clasificación y regresión, e identifican valores atípicos para casos de uso, como la detección de spam.

La minería de datos suele incluir cinco pasos principales:

  1. Establecimiento de objetivos del negocio
  2. Selección de datos
  3. Preparación de datos
  4. Construcción de modelos de datos y minería de patrones
  5. Evaluación de resultados y aplicación de las mejoras

Establecimiento de objetivos del negocio

 

Esta puede ser la parte más difícil del proceso de minería de datos, y muchas organizaciones dedican muy poco tiempo a este importante paso.

Incluso antes de que los datos sean identificados, extraídos o limpiados, los científicos de datos y las partes interesadas del negocio pueden trabajar juntos para definir el problema del negocio preciso, lo que ayuda a informar las preguntas y parámetros de datos para un proyecto. Es posible que los analistas también necesiten realizar más investigaciones para comprender completamente el contexto del negocio.

Selección de datos

 

Cuando se define el alcance del problema, es más fácil para los científicos de datos identificar qué conjunto de datos ayudará a responder las preguntas pertinentes para el negocio. Ellos y el equipo de TI también pueden determinar dónde deben almacenar y proteger los datos.

Preparación de datos

 

Los datos relevantes se recopilan y limpian para eliminar cualquier ruido, como duplicados, valores faltantes y valores atípicos. Dependiendo del conjunto de datos, se puede tomar un paso adicional de gestión de datos para reducir la cantidad de dimensiones, ya que demasiadas funciones pueden ralentizar cualquier cálculo posterior.

Los científicos de datos buscan conservar los predictores más importantes para ayudar a garantizar una precisión óptima dentro de cualquier modelo. La ciencia de datos responsable implica pensar en el modelo más allá del código y el rendimiento, y se ve enormemente afectada por los datos que se emplean y su fiabilidad.

Construcción de modelos y minería de patrones

 

Dependiendo del tipo de análisis, los científicos de datos podrían investigar cualquier tendencia o relación de datos interesantes, como patrones secuenciales, reglas de asociación o correlaciones.

Si bien los patrones de alta frecuencia tienen aplicaciones más amplias, a veces las desviaciones en los datos pueden ser más interesantes, destacando áreas de posible fraude. Los modelos predictivos pueden ayudar a evaluar tendencias o resultados futuros. En los sistemas más sofisticados, los modelos predictivos pueden hacer predicciones en tiempo real para respuestas rápidas a los mercados cambiantes.

Los algoritmos de aprendizaje profundo también se pueden usar para clasificar o agrupar un conjunto de datos según los datos disponibles.

Si los datos de entrada están etiquetados (como en el aprendizaje supervisado), se podría usar un modelo de clasificación para categorizar los datos o, alternativamente, se podría aplicar una regresión para predecir la probabilidad de una asignación en individual.

Si el conjunto de datos no está etiquetado (es decir, aprendizaje no supervisado), los puntos de datos individuales en el conjunto de entrenamiento se comparan para descubrir similitudes subyacentes, agrupándolos en función de esas características.

Evaluación de los resultados y aplicación de las mejoras

 

Una vez agregados los datos, pueden prepararse para su presentación, a menudo mediante técnicas de visualización de datos, de modo que los resultados puedan evaluarse e interpretarse. Lo ideal es que los resultados finales sean válidos, novedosos, útiles y comprensibles.

Cuando se cumplen estos criterios, los responsables de la toma de decisiones pueden emplear estos conocimientos para aplicar nuevas estrategias y alcanzar los objetivos previstos.

Hombre observando un gráfico de caída en la bolsa de valores en un entorno financiero

Beneficios y desventajas

Beneficios

Descubra insights y tendencias ocultas

 

La minería de datos toma los datos sin procesar y encuentra el orden en el caos: ver el bosque por los árboles.

Esto puede resultar en una planificación mejor informada en todas las funciones e industrias corporativas, incluyendo publicidad, finanzas, gobierno, salud, recursos humanos (RH), fabricación, marketing, investigación, ventas y administración de la cadena de suministro (SCM).

Reduzca costos

 

Al analizar los datos de rendimiento de múltiples fuentes, se pueden identificar los cuellos de botella en los procesos empresariales para acelerar la resolución y aumentar la eficiencia.

Resuelva múltiples desafíos

 

La minería de datos es una herramienta versátil. Los datos de casi cualquier fuente y cualquier aspecto de una organización se pueden analizar para descubrir patrones y mejores formas de hacer negocios. Casi todos los departamentos de una organización que recopilan y analizan datos pueden beneficiarse de la minería de datos.

Desventajas

Complejidad y riesgo

 

Los insights útiles requieren datos válidos, además de expertos con experiencia en programación. Es útil el conocimiento de lenguajes de minería de datos, incluyendo Python, R y SQL.

Un enfoque poco cauteloso de la minería de datos podría dar lugar a resultados engañosos o peligrosos. Algunos datos de los consumidores empleados en la minería de datos pueden ser información de identificación personal (PII) que debe manejarse con cuidado para evitar problemas legales o de relaciones públicas.

Costo

 

Para obtener los mejores resultados, suele ser necesaria una amplia y profunda recopilación de conjuntos de datos. Si una organización debe recopilar nueva información, la creación de un canal de datos puede representar un nuevo gasto. Si hay que comprar los datos a una fuente externa, eso también impone un costo.

Incertidumbre

 

En primer lugar, un gran esfuerzo de minería de datos podría estar bien ejecutado, pero producir resultados poco claros, sin grandes beneficios. O los datos inexactos pueden generar insights incorrectos, ya sea que se seleccionaron datos incorrectos o se manejó mal el preprocesamiento. Otros riesgos incluyen errores de modelado o datos obsoletos de un mercado que cambia rápidamente.

Otro problema potencial es que los resultados podrían parecer válidos, pero de hecho son aleatorios y no son de confianza. Es importante recordar que “la correlación no es causalidad”. Un famoso ejemplo de “dragado de datos”—ver una aparente correlación y exagerar su importancia—fue presentado recientemente por el bloguero Tyler Vigen: “El precio de las acciones de Amazon.com coincide estrechamente con el número de niños llamados ‘Stevie’ de 2002 a 2022”.1 Pero, por supuesto, el nombramiento de Stevies no influyó en el precio de las acciones ni viceversa. Las aplicaciones de minería de datos encuentran los patrones, pero el juicio humano sigue siendo significativo.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Diferencias entre la minería de datos, minería de texto y minería de procesos

Minería de datos

 

La minería de datos es el proceso general de identificar patrones y extraer información útil de grandes conjuntos de datos. Esto se puede emplear para evaluar datos estructurados y no estructurados para identificar nueva información y se emplea comúnmente para analizar los comportamientos de los consumidores para los equipos de marketing y ventas. Por ejemplo, los métodos de minería de datos se pueden emplear para observar y predecir comportamientos, incluida la pérdida de clientes, la detección de fraudes, el análisis de la cesta de la compra y más.

La minería de texto

 

También conocida como minería de datos de texto, es un subcampo de la minería de datos cuyo objetivo es transformar texto no estructurado en un formato estructurado para identificar patrones significativos y generar conocimientos novedosos.

Los datos no estructurados pueden incluir texto de fuentes como publicaciones en redes sociales, reseñas de productos, artículos, correos electrónicos o formatos multimedia como archivos de video y audio. Gran parte de los datos disponibles públicamente en todo el mundo no están estructurados, lo que hace que la minería de texto sea una práctica valiosa.

Minería de procesos

 

La minería de procesos se encuentra en la intersección de la gestión de procesos de negocio (BPM) y la minería de datos. La minería de procesos proporciona una forma de aplicar algoritmos a los datos de registro de eventos para identificar tendencias, patrones y detalles de cómo se desarrollan los procesos. La minería de procesos aplica ciencia de datos para descubrir cuellos de botella, y luego validar y mejorar flujos de trabajo.

BPM generalmente recopila datos de manera más informal a través de talleres y entrevistas y luego emplea software para documentar ese flujo de trabajo como un mapa de procesos. Dado que los datos que informan estos mapas de procesos suelen ser cualitativos, la minería de procesos aporta un enfoque más cuantitativo a un problema de proceso, detallando el proceso real a través de datos de eventos.

Los sistemas de información, como las herramientas de ERP o CRM, proporcionan una pista de auditoría de procesos a partir de datos de registro.

La minería de procesos emplea estos datos de los sistemas de TI para ensamblar un modelo de proceso o un gráfico de proceso. A partir de ahí, las organizaciones pueden examinar el proceso de principio a fin con los detalles y cualquier variación descrita.

Técnicas de minería de datos

Estos son algunos de los tipos más populares de minería de datos:

Reglas de asociación

 

Una regla de asociación es un método basado en reglas para encontrar relaciones entre variables en un conjunto de datos. Las fortalezas de las relaciones se miden por el apoyo y la confianza. El nivel de confianza se basa en la frecuencia con la que las afirmaciones si o entonces son verdaderas. La medida de soporte es la frecuencia con la que se muestran los elementos relacionados en los datos.

Estos métodos se emplean con frecuencia para el análisis de la canasta de la compra, lo que permite a las empresas comprender mejor las relaciones entre diferentes productos, como los que se compran juntos con frecuencia. Comprender los hábitos de los clientes permite a las empresas desarrollar mejores estrategias de venta cruzada y motores de recomendación.

Clasificación

 

Las clases de objetos están predefinidas, según las necesidades de la organización, con definiciones de las características que los objetos tienen en común. Esto permite agrupar los datos subyacentes para facilitar el análisis.

Por ejemplo, una empresa de productos de consumo podría examinar su estrategia de cupones revisando los canjes de cupones anteriores junto con los datos de ventas, las estadísticas de inventario y cualquier dato del consumidor disponible para encontrar la mejor estrategia de campaña futura.

Agrupamiento en clústeres

 

Estrechamente relacionada con la clasificación, el agrupamiento en clústeres informa similitudes, pero también proporciona más agrupaciones basadas en diferencias. Las clasificaciones preestablecidas para un fabricante de jabón pueden incluir detergente, lejía, suavizante para ropa, aseador para pisos y cera para pisos; mientras que el agrupamiento en clústeres podría crear grupos que incluyan productos de lavandería y cuidado de pisos.

Árbol de decisión

 

Esta técnica de minería de datos emplea analytics de clasificación o regresión para clasificar o predecir resultados potenciales basados en un conjunto de decisiones. Como sugiere el nombre del árbol de decisiones, emplea una visualización similar a un árbol para representar los resultados potenciales de estas decisiones.

KNN

 

Es un algoritmo no paramétrico que clasifica los puntos de datos en función de su proximidad y asociación con otros datos disponibles. Este algoritmo asume que se encuentran puntos de datos similares. Como resultado, busca calcular la distancia entre los puntos de datos, generalmente a través de la distancia euclidiana, y luego asigna una categoría basada en la categoría más frecuente o promedio.

Redes neuronales

 

Utilizadas para el aprendizaje profundo de algoritmos. Cada nodo se compone de entradas, ponderaciones, un sesgo (o umbral) y una salida.

Si ese valor de salida excede el umbral establecido, “dispara” o activa el nodo, pasa los datos a la siguiente capa de la red. Las redes neuronales aprenden esta función de mapeo a través del aprendizaje supervisado, realizando ajustes basados en la función de pérdida a través del proceso de descenso del gradiente. Cuando la función de costo está en cero o cerca de cero, una organización puede confiar en la precisión del modelo para dar la respuesta correcta.

Análisis predictivo

 

Al combinar la minería de datos con técnicas de modelado estadístico y machine learning, los datos históricos pueden analizarse mediante análisis predictivos para crear modelos gráficos o matemáticos destinados a identificar patrones, pronosticar eventos y resultados futuros e identificar riesgos y oportunidades.

Análisis de regresión

 

Esta técnica descubre relaciones en los datos prediciendo resultados basados en variables predeterminadas. Esto puede incluir árboles de decisión y regresión multivariante y lineal. Los resultados pueden jerarquizarse en función de la cercanía de la relación para ayudar a determinar qué datos son más o menos significativos. Un ejemplo sería que un fabricante de refrescos calculara las existencias de bebidas necesarias antes de la llegada del caluroso verano previsto.

Persona que analiza gráficos financieros y tendencias del mercado

Casos de uso de minería de datos

Las técnicas de minería de datos son ampliamente adoptadas por los equipos de business intelligence y análisis de datos, ayudándolos a extraer conocimiento para su organización e industria. Algunos casos de uso de minería de datos incluyen:

Detección de anomalías

Si bien los patrones frecuentes en los datos pueden proporcionar a los equipos insights valiosos, la observación de anomalías en los datos también es beneficiosa, ya que ayuda a las organizaciones con la detección de fraudes, intrusiones en la red y defectos de productos. 

Aunque este es un caso de uso bien conocido dentro de la banca y otras instituciones financieras, las empresas basadas en SaaS también comenzaron a adoptar estas prácticas para eliminar las cuentas de usuario falsas de sus conjuntos de datos. La detección de anomalías también puede ser una oportunidad para encontrar estrategias nuevas y novedosas o mercados objetivo que se pasaron por alto en el pasado.

Evalúe el riesgo

Las organizaciones pueden localizar y determinar con mayor precisión la escala del riesgo con la minería de datos. Se pueden descubrir patrones y anomalías en los campos de ciberseguridad, finanzas y legal para identificar descuidos o amenazas.

Centrarse en los mercados objetivo

Al buscar en múltiples bases de datos para encontrar relaciones cercanas, la minería de datos puede conectar con precisión los comportamientos y los antecedentes de los clientes con las ventas de artículos específicos. Esto puede permitir campañas más específicas para ayudar a impulsar las ventas.

Mejore la atención al cliente

Los problemas de los clientes se pueden descubrir y solucionar antes si la suma total de las acciones del cliente—en el sitio, en línea, a través de aplicaciones móviles o por teléfono—se puede revisar con minería de datos. Los agentes de atención al cliente pueden tener acceso a información más completa y perspicaz sobre los clientes que atienden.

Aumente el tiempo de actividad del equipo

Los datos operativos se pueden extraer de equipos industriales que pueden ayudar a predecir el rendimiento futuro y el tiempo de inactividad, y permitir la planificación del mantenimiento preventivo.

Optimización de las operaciones

La minería de procesos utiliza técnicas de minería de datos para reducir los costos en todas las funciones operativas, lo que permite a las organizaciones funcionar de manera más eficiente. Esta práctica puede ayudar a identificar cuellos de botella costosos y mejorar la toma de decisiones para los líderes empresariales.

Casos de uso en la industria

Atención al cliente

La minería de datos puede crear una fuente de datos más rica para la atención al cliente al ayudar a determinar qué factores agradan más a los clientes y qué factores causan fricción o insatisfacción.

Educación

Las instituciones educativas han comenzado a recopilar datos para comprender a sus poblaciones estudiantiles y qué entornos son propicios para el éxito. Como los cursos a menudo emplean plataformas en línea, pueden emplear varias dimensiones y métricas para observar y evaluar el desempeño, como pulsaciones de teclas, perfiles de estudiantes, clases a las que asistieron y tiempo dedicado.

Finanzas

Al investigar el riesgo, las instituciones financieras y los bancos a menudo quieren lanzar una red amplia, para capturar cualquier factor que pueda afectar negativamente el flujo de efectivo y la recuperación. Las herramientas de minería de datos pueden ser útiles para encontrar y sopesar una combinación de factores que indiquen un riesgo bueno o malo.

Atención médica

La minería de datos es una herramienta útil para el diagnóstico de afecciones médicas—incluyendo la lectura de escaneos e imágenes—y luego ayuda a sugerir tratamientos beneficiosos.

Recursos humanos

Las organizaciones pueden obtener nuevos insights sobre el desempeño y la satisfacción de los empleados analizando múltiples factores y encontrando patrones. Los datos pueden incluir fecha de inicio, antigüedad, promociones, salario, capacitación, desempeño de los colegas, entrega del trabajo, uso de beneficios y viajes.

Manufactura

Desde las materias primas hasta la entrega final, todos los aspectos del proceso de fabricación pueden analizar para mejorar el rendimiento. ¿Cuál es el costo de los materiales y hay opciones? ¿Qué tan eficiente es la producción? ¿Dónde están los cuellos de botella? ¿Cuáles son los problemas de calidad y dónde surgen, tanto internamente como con los clientes?

Venta minorista

Al extraer los datos y las acciones de los clientes, los minoristas pueden identificar las campañas, los precios, las promociones, las ofertas especiales de productos y las ventas cruzadas y adicionales más productivas.

Ventas y marketing

Las empresas recopilan cantidades masivas de datos sobre sus clientes y prospectos. Al observar la demografía de los consumidores, las respuestas de los medios de comunicación y el comportamiento de los clientes, las empresas pueden emplear los datos para optimizar sus campañas de marketing, mejorar la segmentación y la orientación y los programas de fidelización de clientes, todo lo cual ayuda a obtener un mayor retorno de la inversión (ROI) en los esfuerzos de marketing. 

Los análisis predictivos también pueden ayudar a los equipos a establecer expectativas con sus stakeholders, proporcionando estimaciones de rendimiento para cualquier aumento o disminución de la inversión en marketing.

Redes sociales

El análisis de los datos de los usuarios puede ayudar a descubrir nuevas oportunidades editoriales o nuevas fuentes de ingresos publicitarios para audiencias objetivo específicas.

Gestión de la cadena de suministro (SCM)

Mediante la minería de datos, los gerentes de producto pueden predecir mejor la demanda, preparar la producción, ajustar los proveedores o adaptar los esfuerzos de marketing. Los gerentes de la cadena de suministro pueden planificar mejor el envío y el almacenamiento.

Soluciones relacionadas
Herramientas y soluciones de ciencia de datos

Utilice herramientas y soluciones de ciencia de datos para descubrir patrones y crear predicciones mediante el uso de datos, algoritmos, machine learning y técnicas de IA.

Explorar las soluciones de ciencia de datos
IBM Cognos Analytics

Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.

Explorar Cognos Analytics
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Utilice herramientas y soluciones de ciencia de datos para descubrir patrones y crear predicciones mediante el uso de datos, algoritmos, machine learning y técnicas de IA.

Explorar las soluciones de ciencia de datos Explorar los servicios de analytics