Mi IBM Iniciar sesión Suscríbase

¿Qué son los datos sintéticos?

31 de enero de 2023

¿Qué son los datos sintéticos?

Los datos sintéticos son datos artificiales diseñados para imitar datos de palabras reales. Se genera a través de métodos estadísticos o mediante el uso de técnicas de inteligencia artificial (IA), como el aprendizaje profundo y la IA generativa.

A pesar de ser generados artificialmente, los datos sintéticos conservan las propiedades estadísticas subyacentes de los datos originales en que se basan. Como tal, los conjuntos de datos sintéticos pueden complementar o incluso reemplazar los conjuntos de datos reales.

Los datos sintéticos pueden actuar como marcador de posición para los datos de prueba y se utilizan principalmente para entrenar modelos de machine learning, sirviendo como una solución potencial a la creciente necesidad, aunque escasa, de datos de entrenamiento del mundo real de alta calidad para modelos de IA. Sin embargo, los datos sintéticos también están ganando terreno en sectores, como las finanzas y la atención médica, donde los datos son escasos, requieren mucho tiempo para obtenerlos o son de difícil acceso debido a la privacidad y los requisitos de seguridad de los datos. De hecho, la empresa de investigación Gartner predice que el 75 % de las empresas usará IA generativa para crear datos sintéticos de clientes para 2026.1

Tipos de datos sintéticos

Los datos sintéticos pueden presentarse en forma multimedia, tabular o textual. Los datos de texto sintéticos pueden emplearse para procesamiento de lenguaje natural (PLN), mientras que los datos tabulares sintéticos pueden emplearse para crear tablas de bases de datos relacionales. Los recursos multimedia sintéticos, como videos, imágenes u otros datos no estructurados, pueden aplicarse a tareas de visión artificial, como la clasificación de imágenes, el reconocimiento de imágenes y la detección de objetos.

Los datos sintéticos también se pueden clasificar según su nivel de síntesis:

  • Totalmente sintéticos

  • Parcialmente sintéticos

  • Híbrido

Totalmente sintéticos

Los datos totalmente sintéticos implican generar datos completamente nuevos que no incluyen ninguna información del mundo real. Estima los atributos, patrones y relaciones que sustentan los datos reales para emularlos lo más fielmente posible.

Las organizaciones financieras, por ejemplo, pueden carecer de muestras de transacciones sospechosas para entrenar eficazmente los modelos de IA en la detección de fraude. Luego pueden generar datos totalmente sintéticos que representan transacciones fraudulentas para mejorar el entrenamiento del modelo, que es similar al enfoque de la empresa de servicios financieros JP Morgan.

Parcialmente sintéticos

Los datos parcialmente sintéticos se derivan de información del mundo real, pero reemplazan partes del conjunto de datos original, generalmente aquellos que contienen información confidencial, con valores artificiales. Esta técnica de preservación de la privacidad ayuda a proteger los datos personales sin perder las características de los datos reales.

Los datos parcialmente sintéticos pueden ser especialmente valiosos en la investigación clínica, por ejemplo, donde los datos reales son cruciales para los resultados, pero proteger la información de identificación personal (PII) de los pacientes y los registros médicos es igualmente crítico.

Híbrido

Los datos sintéticos híbridos combinan conjuntos de datos reales con conjuntos de datos completamente sintéticos. Toma registros del conjunto de datos original y los empareja aleatoriamente con registros de sus contrapartes sintéticas. Los datos sintéticos híbridos se pueden usar para analizar y obtener insights de los datos de los clientes, por ejemplo, sin rastrear ningún dato confidencial hasta un cliente específico.

¿Cómo se generan los datos sintéticos?

Las organizaciones pueden optar por generar sus propios datos sintéticos. También pueden usar soluciones, como Synthetic Data Vault, una biblioteca Python para crear datos sintéticos, u otros algoritmos de código abierto, infraestructuras, paquetes y herramientas. Los conjuntos de datos prediseñados, como IBM® Synthetic Data Sets, son otra opción.

Estas son algunas técnicas comunes de generación de datos sintéticos:

  • Métodos estadísticos

  • Redes generativas adversativas (GAN)

  • Modelos de transformadores

  • Autocodificadores variacionales (VAE, por sus siglas en inglés)

  • Modelado basado en agentes

Métodos estadísticos

Estas metodologías son adecuadas para datos cuya distribución, correlaciones y rasgos son bien conocidos y, por lo tanto, pueden simularse a través de modelos matemáticos.

En los enfoques basados en la distribución, se pueden utilizar funciones estadísticas para definir la distribución de datos. Luego, mediante un muestreo aleatorio de esta distribución, se pueden generar nuevos puntos de datos.

Para las estrategias basadas en la correlación, se puede aplicar la interpolación o la extrapolación. En los datos de series temporales, por ejemplo, la interpolación lineal puede crear nuevos puntos de datos entre los adyacentes, mientras que la extrapolación lineal puede generar puntos de datos más allá de los existentes.

Redes generativas adversativas (GAN)

Las redes generativas adversativas (GAN) involucran un par de redes neuronales: un generador que crea datos sintéticos y un discriminador que actúa como un adversario que distingue los datos reales de los artificiales. Ambas redes están entrenadas iterativamente, donde el feedback del discriminador mejora la salida del generador hasta que el discriminador ya no sea capaz de diferenciar entre datos artificiales y reales. Las GAN se utilizan a menudo para la generación de imágenes.

modelos de transformador

Los modelos de transformadores, como los transformadores generativos preentrenados (GPT) de OpenAI, sirven como base tanto de los modelos de lenguaje pequeños (SLM) como de los modelos de lenguaje grandes (LLM). Los transformadores procesan datos mediante codificadores y decodificadores.

Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas incrustaciones, que capturan la semántica y la posición de los tokens en la secuencia de entrada. Un mecanismo de autoatención permite a los transformers "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición. Los decodificadores utilizan luego este mecanismo de autoatención y las incrustaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.

Los modelos transformadores se destacan en la comprensión de la estructura y los patrones del lenguaje. Como tales, se pueden utilizar para crear datos de texto artificiales o generar datos tabulares sintéticos.

Autocodificadores variacionales (VAE, por sus siglas en inglés)

Los autocodificadores variacionales (VAE) son modelos generativos que producen variaciones de los datos con los que se entrenan. Un codificador comprime los datos de entrada en un espacio de menor dimensionalidad, capturando la información significativa contenida en la entrada. Luego, un decodificador reconstruye nuevos datos a partir de esta representación comprimida. Al igual que las GAN, los VAE se pueden utilizar para generar imágenes sintéticas.

Modelado basado en agentes

Esta estrategia de simulación implica modelar un sistema complejo como un entorno virtual que contiene entidades individuales, también conocidas como agentes. Los agentes operan en función de un conjunto predefinido de reglas, interactuando con su entorno y otros agentes. El modelado basado en agentes simula estas interacciones y comportamientos de los agentes para producir datos sintéticos.

Por ejemplo, los modelos basados en agentes en epidemiología representan a los individuos de una población como agentes. Al modelar las interacciones entre agentes, se pueden generar datos sintéticos, como la tasa de contacto y la probabilidad de infección. Los datos pueden ayudar a predecir la propagación de enfermedades infecciosas y examinar los efectos de las intervenciones.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA 


Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Beneficios de los datos sintéticos

Los datos sintéticos son una tecnología en crecimiento que ofrece estas ventajas para las empresas:

  • Personalización

  • Eficiencia

  • Aumento de la privacidad de datos

  • Datos más completos

Personalización

Los equipos de ciencia de datos pueden adaptar los datos sintéticos para que se ajusten a las especificaciones y necesidades exactas de una empresa. Y debido a que los científicos de datos tienen un mayor control sobre los conjuntos de datos sintéticos, gestionarlos y analizarlos se vuelve más fácil.

Eficiencia

La generación de datos sintéticos elimina el largo proceso de recopilación de datos reales, lo que agiliza la producción y ayuda a acelerar los flujos de trabajo. Los datos sintéticos también vienen preetiquetados, lo que elimina el tedioso paso de etiquetar manualmente volúmenes de datos y anotarlos a mano.

Aumento de la privacidad de datos

Los datos sintéticos se asemejan a los datos del mundo real, pero se pueden generar de tal manera que los datos personales no se puedan rastrear hasta un individuo en particular. Esto actúa como una forma de anonimización de datos, ayudando a mantener segura la información confidencial. Los datos sintéticos también permiten a las empresas evitar problemas de propiedad intelectual y derechos de autor, eliminando los rastreadores web que extraen y recopilan información de sitios web sin el conocimiento o consentimiento de los usuarios.

Datos más completos

Los conjuntos de datos artificiales pueden ayudar a impulsar la diversidad de datos, creando o aumentando datos para grupos subrepresentados en el entrenamiento de IA. Los datos sintéticos también pueden llenar los vacíos cuando los datos originales son escasos o no existen datos reales. E incluir casos extremos o valores atípicos como puntos de datos puede ampliar el alcance de los conjuntos de datos sintéticos, reflejando la variabilidad e imprevisibilidad del mundo real.

Desafíos de los datos sintéticos

A pesar de los beneficios de los datos sintéticos, también tienen algunas desventajas. Seguir las  mejores prácticas para la generación de datos sintéticos de la dirección puede ayudar a abordar estos inconvenientes y permitir a las empresas maximizar el valor de los datos artificiales.

Estos son algunos desafíos asociados con los datos sintéticos:

  • Sesgo

  • Modelo de colapso

  • Compromiso entre precisión y privacidad

  • Verificación

Sesgo

Los datos sintéticos aún pueden mostrar los sesgos que podrían estar presentes en los datos del mundo real en los que se basan. El uso de diversas fuentes de datos y la adición de múltiples fuentes de datos, incluso de diversas regiones y grupos demográficos, pueden ayudar a mitigar el sesgo.

Colapso del modelo

El colapso del modelo se produce cuando un modelo de IA se entrena repetidamente con datos generados por IA, lo que hace que el rendimiento del modelo disminuya. Una combinación saludable de conjuntos de datos de entrenamiento reales y artificiales puede ayudar a prevenir este problema.

Equilibrio entre precisión y privacidad

Durante el proceso de generación de datos sintéticos, se produce una batalla entre la precisión y la privacidad. Priorizar la precisión podría significar retener más datos personales, mientras que mantener la privacidad como prioridad podría resultar en una reducción de la precisión. Encontrar el equilibrio adecuado para los casos de uso de una empresa es vital.

Verificación

Se deben realizar verificaciones y pruebas adicionales para validar la calidad de los datos sintéticos después de generarlos. Esto introduce un paso adicional en el flujo de trabajo, pero es crucial para asegurarse de que los conjuntos de datos artificiales estén libres de errores, incongruencias o inexactitudes.

Casos de uso de datos sintéticos

Los datos sintéticos son versátiles y se pueden generar para una amplia gama de aplicaciones. Estas son algunas industrias en las que los datos sintéticos pueden ser de gran ayuda:

  • Automotriz

  • Finanzas

  • Atención médica

  • Manufactura

Automotriz

El modelado basado en agentes se puede emplear para generar datos artificiales relacionados con el flujo de tráfico, lo que ayuda a mejorar los sistemas de carreteras y transporte. El uso de datos sintéticos puede ayudar a los fabricantes de automóviles a evitar el costoso y lento proceso de obtener datos reales de accidentes para las pruebas de seguridad de los vehículos. Los fabricantes de vehículos autónomos pueden utilizar datos sintéticos para entrenar a los vehículos autónomos en la navegación por diferentes escenarios.

Finanzas

Los datos financieros sintéticos se pueden implementar para evaluar y gestionar el riesgo, modelar predictivamente y hacer forecasting y probar algoritmos de negociación, entre otras aplicaciones. IBM Synthetic Data Sets, por ejemplo, consiste en datos simulados para ayudar a la detección de fraudes en reclamaciones de tarjetas de crédito y seguros de hogar, y transacciones bancarias simuladas para soluciones contra el lavado de dinero.

Atención médica

Los conjuntos de datos sintéticos pueden ayudar a las farmacéuticas a acelerar el desarrollo de medicamentos. Mientras tanto, los investigadores médicos pueden emplear datos parcialmente sintéticos para ensayos clínicos o datos totalmente sintéticos para crear registros de pacientes artificiales o imágenes médicas para formular tratamientos innovadores o preventivos. El modelado basado en agentes también se puede aplicar en epidemiología para estudiar la transmisión de enfermedades y las intervenciones.

Manufactura

Las empresas manufactureras pueden utilizar datos sintéticos para mejorar las capacidades de inspección visual de los modelos de visión artificial que examinan los productos en tiempo real en busca de defectos y desviaciones de los estándares. Los conjuntos de datos artificiales también pueden mejorar el mantenimiento predictivo, con datos de sensores sintéticos que ayudan a los modelos de machine learning a anticipar mejor las fallas del equipamiento y recomendar medidas adecuadas y oportunas.

Mixture of Experts | Podcast

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Notas de pie de página
Soluciones relacionadas

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga IBM watsonx a trabajar a escala en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo
Notas de pie de página