合成数据可以采用多媒体、表格或文本形式。合成文本数据可用于自然语言处理 (NLP),而合成表格数据可用于创建关系数据库表。合成多媒体(例如视频、图像或其他非结构化数据)可应用于计算机视觉任务,包括图像分类、图像识别和对象检测。
合成数据还可根据其合成程度进行分类:
全合成数据需要生成不包含任何真实世界信息的全新数据。它会估算支持真实数据的属性、模式和关系,以尽可能接近地模拟数据。
例如,金融组织可能缺乏可疑交易样本,无法有效训练 AI 模型进行欺诈检测。然后,它们可以生成代表欺诈交易的完全合成数据,以改进模型训练。
部分合成数据来自现实世界的信息,但用人工值替换了原始数据集的部分内容(通常包含敏感信息)。这种隐私保护技术有助于保护个人数据,同时仍保持真实数据的特征。
部分合成数据在临床研究中尤其有价值,例如,真实数据对结果至关重要,但保护患者的个人身份信息 (PII) 和医疗记录也同样重要。
混合合成数据将真实数据集与全合成数据集相结合。它从原始数据集中获取记录,并将它们与来自合成数据集的记录随机配对。例如,混合合成数据可用于分析和收集客户数据的洞察分析,而无需将任何敏感数据追溯到特定客户。
组织可以选择生成自己的合成数据。他们还可以使用 Synthetic Data Vault(用于创建合成数据的 Python 库)或其他开源算法、框架、软件包和工具等解决方案。预构的数据集,例如 IBM® 合成数据集,是另一种选择。
以下是一些常见的合成数据生成技术:
这些方法适用于分布、相关性和特征众所周知的数据,因此可以通过数学模型进行模拟。
在基于分布的方法中,可使用统计函数来定义数据分布。然后,通过从此分布中随机采样,可以生成新的数据点。
对于基于相关性的策略,可以应用内插法或外推法。例如,在时间序列数据中,线性内插法可以在相邻数据点之间创建新的数据点,而线性外推法可以在现有数据点之外生成数据点。
生成式对抗网络 (GAN) 涉及一对神经网络:一个创建合成数据的生成器,和一个充当区分真实与人工数据的对手的鉴别器。这两个网络都经过迭代训练,判别器的反馈增强生成器的输出,直到判别器不再能够区分人工数据和真实数据。GAN 通常用于图像生成。
转换器模型,例如 OpenAI 的生成式预训练转换器 (GPT),是小型语言模型 (SLM) 和大型语言模型 (LLM) 的基础。转换器使用编码器和解码器处理数据。
编码器将输入序列转换为称作“嵌入”的数字表示,以捕捉输入序列中词元的语义和位置。自关注机制允许转换器“将注意力集中”在输入序列中最重要的词元上,而不管这些词元的位置如何。解码器随后使用这种自关注机制和编码器的嵌入来生成统计上最可能的输出序列。
转换器模型擅长理解语言的结构和模式。因此,它们可用于创建人工文本数据或生成合成表格数据。
变分自编码器 (VAE) 是一种生成模型,它能生成训练数据的变体。编码器将输入数据压缩到低维空间,捕获输入中包含的有意义信息。然后,解码器根据压缩后的表示重建新数据。与 GAN 一样,VAE 可用于生成合成图像。
该模拟策略需要将复杂系统建模为包含单个实体(也称为主体)的虚拟环境。主体根据一组预定义的规则进行作,与其环境和其他主体进行交互。基于主体的建模模拟这些互动和主体行为,从而生成合成数据。
例如,流行病学中基于主体的模型将人群中的个体表示为主体。在建立主体互动模型后,可生成接触率和感染可能性等合成数据。然后,这些数据可以帮助预测传染病的传播和检查干预措施的效果。
合成数据是一项不断发展的技术,可为企业带来以下优势:
数据科学团队可以量身定制合成数据以满足企业的确切规格和需求。而且由于数据科学家对合成数据集拥有更大的控制权,因此管理和分析它们变得更加容易。
生成合成数据可省去收集真实数据的耗时过程,从而更快地生成数据,有助于加快工作流。合成数据也是预先标记的,从而省去了手动标记大量数据并手动注释的繁琐步骤。
合成数据类似于现实世界的数据,但它的生成方式使得任何个人数据都无法追溯到特定的个人。这是一种数据匿名化形式,有助于保护敏感信息的安全。合成数据还使企业可以避开知识产权和版权问题,避免使用在用户不知情或未同意的情况下从网站抓取和收集信息的网络爬虫。
人工数据集有助于提高数据多元性,为 AI 训练中代表性不足的群体创建或扩充数据。当原始数据匮乏或不存在真实数据时,合成数据也能填补空白。将边缘情况或异常值作为数据点纳入可以扩大合成数据集的范围,反映现实世界的多变性和不可预测性。
尽管合成数据有优点,但它也有一些缺点。遵循合成数据生成的最佳实践有助于消除这些缺点并使公司可以最大限度地提高人工数据的价值。
以下是一些与合成数据相关的挑战:
合成数据仍可能表现出它所基于的真实数据中可能存在的偏见。使用不同的数据源并添加多个数据源(包括来自不同地区和人口统计群体的数据)有助于减少偏见。
当 AI 模型反复使用 AI 生成的数据进行训练时,就会发生模型崩溃,从而导致模型性能下降。真实数据集和人工训练数据集的健康组合有助于防止此问题。
在合成数据生成过程中,存在准确性与隐私之间的较量。优先考虑准确性可能意味着保留更多的个人数据,而将隐私放在首位可能会导致准确性降低。为公司的用例找到适当的平衡点至关重要。
生成合成数据后,必须进行额外的检查和测试以验证其质量。这为工作流引入了额外的步骤,但为了确保人工数据集不存在任何错误、不一致或不准确之处,这一步骤至关重要。
合成数据用途广泛,可用于多种应用。以下列出一些可以利用合成数据的便利的行业:
基于主体的建模可用于生成与交通流量相关的人工数据,帮助改善道路和运输系统。使用合成数据可以帮助汽车制造商免去为车辆安全测试获取真实碰撞数据这一昂贵且耗时的过程。自动驾驶汽车制造商可以使用合成数据来训练自动驾驶汽车在不同场景中行驶。
合成财务数据可用于评估和管理风险、预测建模以及预测和测试交易算法等应用。例如,IBM 合成数据集由模拟数据组成,用于帮助信用卡欺诈检测和房屋保险索赔,以及用于反洗钱解决方案的模拟银行交易。
合成数据集可以帮助制药公司加快药物开发。同时,医学研究人员可以使用部分合成的数据进行临床试验,或使用完全合成的数据创建人工患者记录或医学影响,以制定创新或预防性的治疗方法。基于主体的建模也可以应用于流行病学,以研究疾病传播和干预措施。
制造公司可以利用合成数据来改善计算机视觉模型的视觉检查功能,更准确地实时检查产品是否存在缺陷和偏离标准的情况。人工数据集还可以增强预测性维护,合成传感器数据可帮助机器学习模型更好地预测设备故障并推荐适当且及时的措施。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12 April 2024