¿Qué es el aprendizaje no supervisado?

¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado, también conocido como machine learning no supervisado, utiliza algoritmos de machine learning (ML) para analizar y agrupar conjuntos de datos no etiquetados. Estos algoritmos descubren patrones ocultos o agrupaciones de datos sin necesidad de intervención humana.

La capacidad del aprendizaje no supervisado para descubrir similitudes y diferencias en la información lo convierte en la solución ideal para el análisis exploratorio de datos, las estrategias de venta cruzada, la segmentación de clientes y el reconocimiento de imágenes.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Enfoques comunes de aprendizaje no supervisado

Los modelos de aprendizaje no supervisado se utilizan para tres tareas principales: clustering, asociación y reducción de la dimensionalidad. A continuación definiremos cada método de aprendizaje y destacaremos los algoritmos y enfoques comunes para llevarlos a cabo con eficacia.

Clustering

El clustering es una técnica de minería de datos que agrupa datos no etiquetados en función de sus similitudes o diferencias. Los algoritmos de clustering se utilizan para procesar objetos de datos sin procesar y sin clasificar en grupos representados por estructuras o patrones en la información. Los algoritmos de clustering se pueden clasificar en varios tipos, específicamente exclusivos, superpuestos, jerárquicos y probabilísticos.

Clustering exclusivo y superpuesto

El clustering exclusivo es una forma de agrupación que estipula que un punto de datos solo puede existir en un clúster. Esto también puede denominarse clustering "duro". El clustering de K-medias es un ejemplo común de un método de agrupamiento exclusivo en el que los puntos de datos se asignan a K grupos, donde K representa el número de clústeres en función de la distancia desde el centroide de cada grupo. Los puntos de datos más cercanos a un centroide determinado se agruparán en la misma categoría. Un valor K mayor será indicativo de agrupaciones más pequeñas con más granularidad, mientras que un valor K más pequeño tendrá agrupaciones más grandes y menos granularidad. El clustering de K-medias se utiliza comúnmente en la segmentación de mercados, el clustering de documentos, la segmentación de imágenes y la compresión de imágenes.

La superposición de clústeres difiere del clustering exclusivo en que permite que los puntos de datos pertenezcan a varios clústeres con distintos grados de pertenencia. El clustering "suave" o difuso de k-medias es un ejemplo de clustering superpuesto.

Clustering jerárquico

El clustering jerárquico, también conocidoa como análisis jerárquico de clústeres (HCA), es un algoritmo de clustering sin supervisión que se puede clasificar de dos maneras: aglomerativo o divisivo.

El clustering aglomerativo se considera un “enfoque ascendente”. Sus puntos de datos se aíslan inicialmente como agrupaciones separadas y luego se fusionan iterativamente en función de la similitud hasta lograr un clúster. Se utilizan comúnmente cuatro métodos diferentes para medir la similitud:

  1. Vinculación de Ward: este método establece que la distancia entre dos clústeres se define por el aumento en la suma de cuadrados después de fusionar los clústeres.

  2. Vinculación promedio: este método se define por la distancia media entre dos puntos de cada clúster.

  3. Vinculación completa (o máxima): este método se define por la distancia máxima entre dos puntos de cada clúster.

  4. Vinculación única (o mínima): este método se define por la distancia mínima entre dos puntos de cada clúster.

La distancia euclidiana es la métrica más utilizada para calcular estas distancias; sin embargo, en la literatura sobre clustering también se citan otras métricas, como la distancia Manhattan.

El clustering divisivo puede definirse como lo opuesto al clustering aglomerante; en su lugar, adopta un enfoque "descendente". En este caso, un único clúster de datos se divide en función de las diferencias entre los puntos de datos. El clustering divisivo no se usa comúnmente, pero merece la pena destacarlo en el contexto de la agrupación jerárquica. Estos procesos de clustering generalmente se visualizan mediante un dendrograma, un diagrama en forma de árbol que documenta la fusión o división de puntos de datos en cada iteración.

Un dendograma o diagrama en forma de árbol

Clustering probabilístico

Un modelo probabilístico es una técnica no supervisada que nos ayuda a resolver problemas de estimación de densidad o clustering "suave". En el clustering probabilístico, los puntos de datos se agrupan en función de la probabilidad de que pertenezcan a una distribución determinada. El modelo de mezcla gaussiana (GMM) es uno de los métodos de clustering probabilístico más utilizados.

  • Los modelos de mezcla gaussiana se clasifican como modelos de mezcla, lo que significa que están compuestos por un número no especificado de funciones de distribución de probabilidad. Los GMM se aprovechan principalmente para determinar a qué distribución de probabilidad gaussiana, o normal, pertenece un punto de datos determinado. Si se conocen la media o la varianza, podemos determinar a qué distribución pertenece un punto de datos determinado. Sin embargo, en los GMM, estas variables no se conocen, por lo que suponemos que existe una variable latente u oculta para clúster los puntos de datos de forma adecuada. Aunque no es necesario utilizar el algoritmo de maximización de expectativas (EM), se utiliza comúnmente para estimar las probabilidades de asignación de un punto de datos determinado a un clúster de datos concreto.
Diagrama de distribuciones normales dentro de un modelo de mezcla gaussiana

Reglas de asociación

Una regla de asociación es un método basado en reglas para encontrar relaciones entre variables en un conjunto de datos determinado. Estos métodos se utilizan con frecuencia para el análisis de la cesta de la compra, lo que permite a las empresas comprender mejor las relaciones entre los distintos productos. Comprender los hábitos de consumo de los clientes permite a las empresas desarrollar mejores estrategias de venta cruzada y motores de recomendación. Ejemplos de ello son las listas de reproducción de Amazon “Los clientes que compraron este artículo también compraron” o de Spotify "Descubrimiento semanal". Aunque existen algunos algoritmos diferentes para generar reglas de asociación, como Apriori, Eclat y FP-Growth, el algoritmo Apriori es el más utilizado.

Algoritmos Apriori

Los algoritmos Apriori se han popularizado a través de análisis de cestas de la compra, dando lugar a diferentes motores de recomendación para plataformas musicales y minoristas en línea. Se utilizan en conjuntos de datos transaccionales para identificar conjuntos de artículos frecuentes, o colecciones de artículos, para identificar la probabilidad de consumir un producto dado el consumo de otro producto. Por ejemplo, si pongo la radio de Black Sabbath en Spotify, empezando por su canción "Orchid", una de las otras canciones de este canal será probablemente una canción de Led Zeppelin, como "Over the Hills and Far Away". Esto se basa en mis hábitos de escucha anteriores y en los de otros. Los algoritmos Apriori utilizan un árbol hash para contar los conjuntos de elementos, navegando a través del conjunto de datos "en anchura".

Reducción de dimensionalidad

Aunque un mayor número de datos suele arrojar resultados más precisos, también puede afectar al rendimiento de los algoritmos de machine learning (p. ej. sobreajuste) y también puede dificultar la visualización de conjuntos de datos. La reducción de dimensionalidad es una técnica utilizada cuando el número de características, o dimensiones, en un conjunto de datos determinado es demasiado alto. Reduce el número de entradas de datos a un tamaño manejable y, al mismo tiempo, preserva la integridad del conjunto de datos en la medida de lo posible. Se utiliza comúnmente en la etapa de preprocesamiento de datos, y existen algunos métodos diferentes de reducción de dimensionalidad que se pueden utilizar, como:

Análisis de componentes principales

El análisis de componentes principales (PCA) es un tipo de algoritmo de reducción de dimensionalidad que se utiliza para reducir redundancias y comprimir conjuntos de datos mediante la extracción de características. Este método utiliza una transformación lineal para crear una nueva representación de datos, produciendo un conjunto de "componentes principales". El primer componente principal es la dirección que maximiza la varianza del conjunto de datos. Aunque el segundo componente principal también encuentra la varianza máxima en los datos, no está en absoluto correlacionado con el primer componente principal, lo que produce una dirección perpendicular u ortogonal al primer componente. Este proceso se repite según el número de dimensiones, donde el siguiente componente principal es la dirección ortogonal a los componentes anteriores con mayor varianza.

Descomposición de valores singulares

La descomposición de valores singulares (SVD) es otro enfoque de reducción de dimensionalidad que factoriza una matriz, A, en tres matrices de bajo rango. SVD se representa mediante la fórmula A = USVT, donde U y V son matrices ortogonales. S es una matriz diagonal y los valores S se consideran valores singulares de la matriz A. Al igual que PCA, se usa comúnmente para reducir el ruido y comprimir datos, como archivos de imagen.

Autocodificadores

Los autocodificadores aprovechan las redes neuronales para comprimir datos y luego recrear una nueva representación de la entrada de los datos originales. Si observa la imagen inferior, puede ver que la capa oculta actúa específicamente como cuello de botella para comprimir la capa de entrada antes de reconstruirla en la capa de salida. La etapa que va de la capa de entrada a la capa oculta se denomina “codificación”, mientras que la etapa que va de la capa oculta a la capa de salida se conoce como “decodificación”.

Diagrama de capas de red neuronal

Aplicaciones de aprendizaje no supervisado

Las técnicas de machine learning se han convertido en un método común para mejorar la experiencia de usuario de un producto y probar los sistemas para garantizar la calidad. El aprendizaje no supervisado proporciona una ruta exploratoria para ver datos, lo que permite a las empresas identificar patrones en grandes volúmenes de datos más rápidamente en comparación con la observación manual. Algunas de las aplicaciones más comunes en el mundo real del aprendizaje no supervisado son:

  • Secciones de noticias: Google Noticias utiliza el aprendizaje no supervisado para categorizar los artículos sobre una misma historia procedentes de diversos medios de noticias en línea. Por ejemplo, los resultados de unas elecciones presidenciales podrían clasificarse bajo su etiqueta de noticias "estadounidenses".

  • Visión artificial: los algoritmos de aprendizaje no supervisado se utilizan para tareas de percepción visual, como el reconocimiento de objetos.

  • Imágenes médicas: el machine learning no supervisado proporciona características esenciales a los dispositivos de imágenes médicas, como la detección, la clasificación y la segmentación de imágenes, que se utilizan en radiología y patología para diagnosticar pacientes de forma rápida y precisa.

  • Detección de anomalías:los modelos de aprendizaje no supervisados pueden analizar grandes cantidades de datos y descubrir puntos de datos atípicos dentro de un conjunto de datos. Estas anomalías pueden llamar la atención sobre equipos defectuosos, errores humanos o fallos de seguridad.

  • Perfiles de los clientes: definir los perfiles de los clientes facilita la comprensión de los rasgos comunes y los hábitos de compra de los clientes empresariales. El aprendizaje no supervisado permite a las empresas crear mejores perfiles de compradores, lo que permite a las organizaciones alinear los mensajes de sus productos de forma más adecuada.

  • Motores de recomendación: al utilizar datos de comportamiento de compra anteriores, el aprendizaje no supervisado puede ayudar a descubrir tendencias de datos que pueden utilizarse para desarrollar estrategias de venta cruzada más eficaces. Se utiliza para ofrecer a los clientes asesoramiento adicional pertinente durante el proceso de pago de los minoristas en línea.
Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Aprendizaje no supervisado vs. aprendizaje supervisado y semisupervisado

A menudo se habla de aprendizaje no supervisado y aprendizaje supervisado de forma conjunta. A diferencia de los algoritmos de aprendizaje no supervisado, los algoritmos de aprendizaje supervisado utilizan datos etiquetados. A partir de esos datos, predice resultados futuros o asigna datos a categorías específicas en función del problema de regresión o clasificación que intenta resolver.

Aunque los algoritmos de aprendizaje supervisado tienden a ser más precisos que los modelos de aprendizaje no supervisado, requieren una intervención humana inicial para etiquetar los datos adecuadamente. Sin embargo, estos conjuntos de datos etiquetados permiten que los algoritmos de aprendizaje supervisado eviten la complejidad computacional, ya que no necesitan un gran conjunto de entrenamiento para producir los resultados previstos. Las técnicas habituales de regresión y clasificación son la regresión lineal y logística, el algoritmo Naïve Bayes, el algoritmo KNN y el bosque aleatorio.

El aprendizaje semisupervisado se produce cuando solo se ha etiquetado una parte de los datos de entrada dados. El aprendizaje no supervisado y semisupervisado puede ser una alternativa más atractiva, ya que puede llevar mucho tiempo y ser costoso confiar en la experiencia en el campo para etiquetar los datos de manera adecuada para el aprendizaje supervisado.

Para profundizar en las diferencias entre estos enfoques, consulte "Aprendizaje supervisado vs. aprendizaje no supervisado: ¿Cuál es la diferencia?"

Desafíos del aprendizaje no supervisado

Aunque el aprendizaje no supervisado tiene muchos beneficios, pueden surgir algunos desafíos cuando permite que los modelos de machine learning se ejecuten sin intervención humana. Algunos de estos desafíos pueden incluir:

  • Complejidad computacional debido a un gran volumen de datos de entrenamiento

  • Tiempos de entrenamiento más largos

  • Mayor riesgo de resultados inexactos

  • Intervención humana para validar variables de salida

  • Falta de transparencia en la base sobre la que se agruparon los datos
Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo