IBM Synthetic Data Sets

旨在加快 AI 的采用并提高预测准确性,推动业务创新并增加价值

以数字组件和未来主义设计为重点、代表技术与创新的 3D 方块数字插图。

为 AI 预构建的合成数据集

IBM® Synthetic Data Sets 是预构建的人工数据集,旨在训练预测性 AI 模型和大语言模型 (LLM),让金融服务行业中使用 IBM Z 和 LinuxONE 的企业受益。

这些数据集基于 IBM 的金融服务专业知识构建,提供丰富且符合隐私要求的数据(能以 CSV 或 DDL 格式下载),能够实现快速、安全、准确的 AI 开发。

网络研讨会:IBM Synthetic Data Sets 简介
安全地加速 AI 模型训练

使用可下载的、无 PII 的数据集快速启动 AI 模型创建,以实现快速、合规地使用。

利用更丰富的数据增强模型

访问丰富的合成数据,包括欺诈标签和多个实体,以获得更强大、更广泛的洞察分析。

验证 AI 模型的准确性

使用标记交易作为答案来测试、验证和改进欺诈检测模型。

优化金融风险检测

利用精选数据集提高预测准确性并降低金融服务 AI 项目的风险。

不含真实 PII 的 IBM 合成数据集图表
合规数据集

基于智能体的模型生成方法处于统计总体水平,因此,无需借助可能需花费数月才能访问的真实源数据。数据集符合数据隐私法规,因为它们不含任何真实或匿名的 PII,而是人工生成的。

展示保持的逻辑的 IBM 合成数据集图表
真实的合成数据

IBM 合成数据集以我们基于智能体的模型中多年来所积累的自定义输入和代码为基础,而这正是其他合成数据生成器所欠缺的。这些数据集保留并准确反映现实世界中的复杂关系和约束,而这些关系和约束在使用其他合成数据生成器来生成数据时通常会带来挑战。

展示已知真实信息的 IBM 合成数据集图表
提高 AI 模型的准确性

真实训练数据添加了已知真实信息的注释,从而提高了 AI 模型的准确性。IBM 合成数据集包含已知真实信息,其中每笔交易都被标记为欺诈和洗钱。

展示引用完整性的 IBM 合成数据集图表
连接数据表

引用完整性是指不同表之间的关系,且该关联是有意义、准确、一致且最新的。IBM 合成数据集包含引用完整性,但这一点在使用标准合成数据生成器的数据中并不常见。

不含真实 PII 的 IBM 合成数据集图表
合规数据集

基于智能体的模型生成方法处于统计总体水平,因此,无需借助可能需花费数月才能访问的真实源数据。数据集符合数据隐私法规,因为它们不含任何真实或匿名的 PII,而是人工生成的。

展示保持的逻辑的 IBM 合成数据集图表
真实的合成数据

IBM 合成数据集以我们基于智能体的模型中多年来所积累的自定义输入和代码为基础,而这正是其他合成数据生成器所欠缺的。这些数据集保留并准确反映现实世界中的复杂关系和约束,而这些关系和约束在使用其他合成数据生成器来生成数据时通常会带来挑战。

展示已知真实信息的 IBM 合成数据集图表
提高 AI 模型的准确性

真实训练数据添加了已知真实信息的注释,从而提高了 AI 模型的准确性。IBM 合成数据集包含已知真实信息,其中每笔交易都被标记为欺诈和洗钱。

展示引用完整性的 IBM 合成数据集图表
连接数据表

引用完整性是指不同表之间的关系,且该关联是有意义、准确、一致且最新的。IBM 合成数据集包含引用完整性,但这一点在使用标准合成数据生成器的数据中并不常见。

用例
信用卡插图
信用卡欺诈检测

准确的欺诈检测可保持客户满意度和忠诚度,同时最大限度地减少财务损失。适用于支付卡的 IBM Synthetic Data Sets 通过提供标记的交易数据改进了欺诈保护 AI 模型。

货币的等距插图
反洗钱

适用于核心银行和洗钱业务的 IBM Synthetic Data Sets 提供标记数据,包括真实银行数据中不可用的全球交易和现金交易。这有助于建立更强大的反洗钱模型,降低风险和误报,节省调查时间和成本。

保险大楼的等距插图
保险理赔欺诈

保险公司使用真实的理赔数据,但适用于房屋保险的 IBM Synthetic Data Sets 添加了合成的“假设”场景,涵盖不同的理赔类型和欺诈案例。每项理赔都标记了是否为欺诈、检测状态及原因,从而为训练、验证和改进用于欺诈检测的 AI 模型提供丰富的数据集。

2025 年美国银行技术大奖
IBM Synthetic Data Sets 荣获 Banking Tech Award 的“最佳 AI 解决方案”奖。
采取下一步行动

了解如何利用合成数据集在 IBM Z 和 LinuxONE 上快速启动 AI 项目。

  1. 阅读 IBM 红皮书
  2. 观看产品网络研讨会回放