La minería de datos es el uso del machine learning y el análisis estadístico para descubrir patrones y otra información valiosa de grandes conjuntos de datos.
Dada la evolución del machine learning, el almacenamiento de datos y el crecimiento del big data, la adopción de la minería de datos, también conocida como descubrimiento de conocimiento en bases de datos (KDD), se aceleró rápidamente en las últimas décadas. Sin embargo, aunque esta tecnología evoluciona continuamente para manejar datos a gran escala, los líderes aún pueden enfrentar desafíos con la escalabilidad y la automatización.
Las técnicas de minería de datos que sustentan los análisis de datos se pueden desplegar para dos propósitos principales:
Estos métodos se emplean para organizar y filtrar los datos, sacando a la luz la información más útil, desde el fraude hasta los comportamientos de los usuarios, los cuellos de botella e incluso las violaciones de seguridad. El uso de algoritmos de ML e inteligencia artificial (IA) permite la automatización del análisis, lo que puede acelerar enormemente el proceso.
Cuando se combina con herramientas de análisis y visualización de datos, como Apache Spark, el software de minería de datos es cada vez más sencillo y la extracción de información relevante se puede obtener más rápido que nunca. Los avances en IA continúan acelerando la adopción en todas las industrias.
Boletín de la industria
Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
El proceso de minería de datos implica varios pasos, desde la recopilación de datos hasta la visualización para extraer información valiosa de grandes conjuntos de datos. Las técnicas de minería de datos se pueden emplear para generar descripciones y predicciones sobre un conjunto de datos objetivo.
Los científicos de datos o especialistas en business intelligence (BI) describen los datos a través de sus observaciones de patrones, asociaciones y correlaciones. También clasifican y agrupan datos a través de métodos de clasificación y regresión, e identifican valores atípicos para casos de uso, como la detección de spam.
La minería de datos suele incluir cinco pasos principales:
Esta puede ser la parte más difícil del proceso de minería de datos, y muchas organizaciones dedican muy poco tiempo a este importante paso.
Incluso antes de que los datos sean identificados, extraídos o limpiados, los científicos de datos y las partes interesadas del negocio pueden trabajar juntos para definir el problema del negocio preciso, lo que ayuda a informar las preguntas y parámetros de datos para un proyecto. Es posible que los analistas también necesiten realizar más investigaciones para comprender completamente el contexto del negocio.
Cuando se define el alcance del problema, es más fácil para los científicos de datos identificar qué conjunto de datos ayudará a responder las preguntas pertinentes para el negocio. Ellos y el equipo de TI también pueden determinar dónde deben almacenar y proteger los datos.
Los datos relevantes se recopilan y limpian para eliminar cualquier ruido, como duplicados, valores faltantes y valores atípicos. Dependiendo del conjunto de datos, se puede tomar un paso adicional de gestión de datos para reducir la cantidad de dimensiones, ya que demasiadas funciones pueden ralentizar cualquier cálculo posterior.
Los científicos de datos buscan conservar los predictores más importantes para ayudar a garantizar una precisión óptima dentro de cualquier modelo. La ciencia de datos responsable implica pensar en el modelo más allá del código y el rendimiento, y se ve enormemente afectada por los datos que se emplean y su fiabilidad.
Dependiendo del tipo de análisis, los científicos de datos podrían investigar cualquier tendencia o relación de datos interesantes, como patrones secuenciales, reglas de asociación o correlaciones.
Si bien los patrones de alta frecuencia tienen aplicaciones más amplias, a veces las desviaciones en los datos pueden ser más interesantes, destacando áreas de posible fraude. Los modelos predictivos pueden ayudar a evaluar tendencias o resultados futuros. En los sistemas más sofisticados, los modelos predictivos pueden hacer predicciones en tiempo real para respuestas rápidas a los mercados cambiantes.
Los algoritmos de aprendizaje profundo también se pueden usar para clasificar o agrupar un conjunto de datos según los datos disponibles.
Si los datos de entrada están etiquetados (como en el aprendizaje supervisado), se podría usar un modelo de clasificación para categorizar los datos o, alternativamente, se podría aplicar una regresión para predecir la probabilidad de una asignación en individual.
Si el conjunto de datos no está etiquetado (es decir, aprendizaje no supervisado), los puntos de datos individuales en el conjunto de entrenamiento se comparan para descubrir similitudes subyacentes, agrupándolos en función de esas características.
Una vez agregados los datos, pueden prepararse para su presentación, a menudo mediante técnicas de visualización de datos, de modo que los resultados puedan evaluarse e interpretarse. Lo ideal es que los resultados finales sean válidos, novedosos, útiles y comprensibles.
Cuando se cumplen estos criterios, los responsables de la toma de decisiones pueden emplear estos conocimientos para aplicar nuevas estrategias y alcanzar los objetivos previstos.
La minería de datos toma los datos sin procesar y encuentra el orden en el caos: ver el bosque por los árboles.
Esto puede resultar en una planificación mejor informada en todas las funciones e industrias corporativas, incluyendo publicidad, finanzas, gobierno, salud, recursos humanos (RH), fabricación, marketing, investigación, ventas y administración de la cadena de suministro (SCM).
Al analizar los datos de rendimiento de múltiples fuentes, se pueden identificar los cuellos de botella en los procesos empresariales para acelerar la resolución y aumentar la eficiencia.
La minería de datos es una herramienta versátil. Los datos de casi cualquier fuente y cualquier aspecto de una organización se pueden analizar para descubrir patrones y mejores formas de hacer negocios. Casi todos los departamentos de una organización que recopilan y analizan datos pueden beneficiarse de la minería de datos.
Los insights útiles requieren datos válidos, además de expertos con experiencia en programación. Es útil el conocimiento de lenguajes de minería de datos, incluyendo Python, R y SQL.
Un enfoque poco cauteloso de la minería de datos podría dar lugar a resultados engañosos o peligrosos. Algunos datos de los consumidores empleados en la minería de datos pueden ser información de identificación personal (PII) que debe manejarse con cuidado para evitar problemas legales o de relaciones públicas.
Para obtener los mejores resultados, suele ser necesaria una amplia y profunda recopilación de conjuntos de datos. Si una organización debe recopilar nueva información, la creación de un canal de datos puede representar un nuevo gasto. Si hay que comprar los datos a una fuente externa, eso también impone un costo.
En primer lugar, un gran esfuerzo de minería de datos podría estar bien ejecutado, pero producir resultados poco claros, sin grandes beneficios. O los datos inexactos pueden generar insights incorrectos, ya sea que se seleccionaron datos incorrectos o se manejó mal el preprocesamiento. Otros riesgos incluyen errores de modelado o datos obsoletos de un mercado que cambia rápidamente.
Otro problema potencial es que los resultados podrían parecer válidos, pero de hecho son aleatorios y no son de confianza. Es importante recordar que “la correlación no es causalidad”. Un famoso ejemplo de “dragado de datos”—ver una aparente correlación y exagerar su importancia—fue presentado recientemente por el bloguero Tyler Vigen: “El precio de las acciones de Amazon.com coincide estrechamente con el número de niños llamados ‘Stevie’ de 2002 a 2022”.1 Pero, por supuesto, el nombramiento de Stevies no influyó en el precio de las acciones ni viceversa. Las aplicaciones de minería de datos encuentran los patrones, pero el juicio humano sigue siendo significativo.
La minería de datos es el proceso general de identificar patrones y extraer información útil de grandes conjuntos de datos. Esto se puede emplear para evaluar datos estructurados y no estructurados para identificar nueva información y se emplea comúnmente para analizar los comportamientos de los consumidores para los equipos de marketing y ventas. Por ejemplo, los métodos de minería de datos se pueden emplear para observar y predecir comportamientos, incluida la pérdida de clientes, la detección de fraudes, el análisis de la cesta de la compra y más.
También conocida como minería de datos de texto, es un subcampo de la minería de datos cuyo objetivo es transformar texto no estructurado en un formato estructurado para identificar patrones significativos y generar conocimientos novedosos.
Los datos no estructurados pueden incluir texto de fuentes como publicaciones en redes sociales, reseñas de productos, artículos, correos electrónicos o formatos multimedia como archivos de video y audio. Gran parte de los datos disponibles públicamente en todo el mundo no están estructurados, lo que hace que la minería de texto sea una práctica valiosa.
La minería de procesos se encuentra en la intersección de la gestión de procesos de negocio (BPM) y la minería de datos. La minería de procesos proporciona una forma de aplicar algoritmos a los datos de registro de eventos para identificar tendencias, patrones y detalles de cómo se desarrollan los procesos. La minería de procesos aplica ciencia de datos para descubrir cuellos de botella, y luego validar y mejorar flujos de trabajo.
BPM generalmente recopila datos de manera más informal a través de talleres y entrevistas y luego emplea software para documentar ese flujo de trabajo como un mapa de procesos. Dado que los datos que informan estos mapas de procesos suelen ser cualitativos, la minería de procesos aporta un enfoque más cuantitativo a un problema de proceso, detallando el proceso real a través de datos de eventos.
Los sistemas de información, como las herramientas de ERP o CRM, proporcionan una pista de auditoría de procesos a partir de datos de registro.
La minería de procesos emplea estos datos de los sistemas de TI para ensamblar un modelo de proceso o un gráfico de proceso. A partir de ahí, las organizaciones pueden examinar el proceso de principio a fin con los detalles y cualquier variación descrita.
Estos son algunos de los tipos más populares de minería de datos:
Una regla de asociación es un método basado en reglas para encontrar relaciones entre variables en un conjunto de datos. Las fortalezas de las relaciones se miden por el apoyo y la confianza. El nivel de confianza se basa en la frecuencia con la que las afirmaciones si o entonces son verdaderas. La medida de soporte es la frecuencia con la que se muestran los elementos relacionados en los datos.
Estos métodos se emplean con frecuencia para el análisis de la canasta de la compra, lo que permite a las empresas comprender mejor las relaciones entre diferentes productos, como los que se compran juntos con frecuencia. Comprender los hábitos de los clientes permite a las empresas desarrollar mejores estrategias de venta cruzada y motores de recomendación.
Las clases de objetos están predefinidas, según las necesidades de la organización, con definiciones de las características que los objetos tienen en común. Esto permite agrupar los datos subyacentes para facilitar el análisis.
Por ejemplo, una empresa de productos de consumo podría examinar su estrategia de cupones revisando los canjes de cupones anteriores junto con los datos de ventas, las estadísticas de inventario y cualquier dato del consumidor disponible para encontrar la mejor estrategia de campaña futura.
Estrechamente relacionada con la clasificación, el agrupamiento en clústeres informa similitudes, pero también proporciona más agrupaciones basadas en diferencias. Las clasificaciones preestablecidas para un fabricante de jabón pueden incluir detergente, lejía, suavizante para ropa, aseador para pisos y cera para pisos; mientras que el agrupamiento en clústeres podría crear grupos que incluyan productos de lavandería y cuidado de pisos.
Esta técnica de minería de datos emplea analytics de clasificación o regresión para clasificar o predecir resultados potenciales basados en un conjunto de decisiones. Como sugiere el nombre del árbol de decisiones, emplea una visualización similar a un árbol para representar los resultados potenciales de estas decisiones.
Es un algoritmo no paramétrico que clasifica los puntos de datos en función de su proximidad y asociación con otros datos disponibles. Este algoritmo asume que se encuentran puntos de datos similares. Como resultado, busca calcular la distancia entre los puntos de datos, generalmente a través de la distancia euclidiana, y luego asigna una categoría basada en la categoría más frecuente o promedio.
Utilizadas para el aprendizaje profundo de algoritmos. Cada nodo se compone de entradas, ponderaciones, un sesgo (o umbral) y una salida.
Si ese valor de salida excede el umbral establecido, “dispara” o activa el nodo, pasa los datos a la siguiente capa de la red. Las redes neuronales aprenden esta función de mapeo a través del aprendizaje supervisado, realizando ajustes basados en la función de pérdida a través del proceso de descenso del gradiente. Cuando la función de costo está en cero o cerca de cero, una organización puede confiar en la precisión del modelo para dar la respuesta correcta.
Al combinar la minería de datos con técnicas de modelado estadístico y machine learning, los datos históricos pueden analizarse mediante análisis predictivos para crear modelos gráficos o matemáticos destinados a identificar patrones, pronosticar eventos y resultados futuros e identificar riesgos y oportunidades.
Esta técnica descubre relaciones en los datos prediciendo resultados basados en variables predeterminadas. Esto puede incluir árboles de decisión y regresión multivariante y lineal. Los resultados pueden jerarquizarse en función de la cercanía de la relación para ayudar a determinar qué datos son más o menos significativos. Un ejemplo sería que un fabricante de refrescos calculara las existencias de bebidas necesarias antes de la llegada del caluroso verano previsto.
Las técnicas de minería de datos son ampliamente adoptadas por los equipos de business intelligence y análisis de datos, ayudándolos a extraer conocimiento para su organización e industria. Algunos casos de uso de minería de datos incluyen:
Si bien los patrones frecuentes en los datos pueden proporcionar a los equipos insights valiosos, la observación de anomalías en los datos también es beneficiosa, ya que ayuda a las organizaciones con la detección de fraudes, intrusiones en la red y defectos de productos.
Aunque este es un caso de uso bien conocido dentro de la banca y otras instituciones financieras, las empresas basadas en SaaS también comenzaron a adoptar estas prácticas para eliminar las cuentas de usuario falsas de sus conjuntos de datos. La detección de anomalías también puede ser una oportunidad para encontrar estrategias nuevas y novedosas o mercados objetivo que se pasaron por alto en el pasado.
Al buscar en múltiples bases de datos para encontrar relaciones cercanas, la minería de datos puede conectar con precisión los comportamientos y los antecedentes de los clientes con las ventas de artículos específicos. Esto puede permitir campañas más específicas para ayudar a impulsar las ventas.
Los problemas de los clientes se pueden descubrir y solucionar antes si la suma total de las acciones del cliente—en el sitio, en línea, a través de aplicaciones móviles o por teléfono—se puede revisar con minería de datos. Los agentes de atención al cliente pueden tener acceso a información más completa y perspicaz sobre los clientes que atienden.
Los datos operativos se pueden extraer de equipos industriales que pueden ayudar a predecir el rendimiento futuro y el tiempo de inactividad, y permitir la planificación del mantenimiento preventivo.
La minería de procesos utiliza técnicas de minería de datos para reducir los costos en todas las funciones operativas, lo que permite a las organizaciones funcionar de manera más eficiente. Esta práctica puede ayudar a identificar cuellos de botella costosos y mejorar la toma de decisiones para los líderes empresariales.
La minería de datos puede crear una fuente de datos más rica para la atención al cliente al ayudar a determinar qué factores agradan más a los clientes y qué factores causan fricción o insatisfacción.
Las instituciones educativas han comenzado a recopilar datos para comprender a sus poblaciones estudiantiles y qué entornos son propicios para el éxito. Como los cursos a menudo emplean plataformas en línea, pueden emplear varias dimensiones y métricas para observar y evaluar el desempeño, como pulsaciones de teclas, perfiles de estudiantes, clases a las que asistieron y tiempo dedicado.
Al investigar el riesgo, las instituciones financieras y los bancos a menudo quieren lanzar una red amplia, para capturar cualquier factor que pueda afectar negativamente el flujo de efectivo y la recuperación. Las herramientas de minería de datos pueden ser útiles para encontrar y sopesar una combinación de factores que indiquen un riesgo bueno o malo.
La minería de datos es una herramienta útil para el diagnóstico de afecciones médicas—incluyendo la lectura de escaneos e imágenes—y luego ayuda a sugerir tratamientos beneficiosos.
Las organizaciones pueden obtener nuevos insights sobre el desempeño y la satisfacción de los empleados analizando múltiples factores y encontrando patrones. Los datos pueden incluir fecha de inicio, antigüedad, promociones, salario, capacitación, desempeño de los colegas, entrega del trabajo, uso de beneficios y viajes.
Desde las materias primas hasta la entrega final, todos los aspectos del proceso de fabricación pueden analizar para mejorar el rendimiento. ¿Cuál es el costo de los materiales y hay opciones? ¿Qué tan eficiente es la producción? ¿Dónde están los cuellos de botella? ¿Cuáles son los problemas de calidad y dónde surgen, tanto internamente como con los clientes?
Al extraer los datos y las acciones de los clientes, los minoristas pueden identificar las campañas, los precios, las promociones, las ofertas especiales de productos y las ventas cruzadas y adicionales más productivas.
Las empresas recopilan cantidades masivas de datos sobre sus clientes y prospectos. Al observar la demografía de los consumidores, las respuestas de los medios de comunicación y el comportamiento de los clientes, las empresas pueden emplear los datos para optimizar sus campañas de marketing, mejorar la segmentación y la orientación y los programas de fidelización de clientes, todo lo cual ayuda a obtener un mayor retorno de la inversión (ROI) en los esfuerzos de marketing.
Los análisis predictivos también pueden ayudar a los equipos a establecer expectativas con sus stakeholders, proporcionando estimaciones de rendimiento para cualquier aumento o disminución de la inversión en marketing.
El análisis de los datos de los usuarios puede ayudar a descubrir nuevas oportunidades editoriales o nuevas fuentes de ingresos publicitarios para audiencias objetivo específicas.
Mediante la minería de datos, los gerentes de producto pueden predecir mejor la demanda, preparar la producción, ajustar los proveedores o adaptar los esfuerzos de marketing. Los gerentes de la cadena de suministro pueden planificar mejor el envío y el almacenamiento.
Utilice herramientas y soluciones de ciencia de datos para descubrir patrones y crear predicciones mediante el uso de datos, algoritmos, machine learning y técnicas de IA.
Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.