作者:MOSTLY AI 的 Georgios Loizou,AI 与机器学习产品负责人
更新:SDV 于 2023 年更改了其许可模式,已不再是开源软件。
随着企业努力提取相关见解并构建强大的机器学习模型,对高质量、准确的合成数据集的需求日益增长。MOSTLY AI 很荣幸能展示我们最新的发现。在这篇博文中,我们将展示一项实验结果,该实验比较了 MOSTLY AI 和一个最受欢迎的开源合成数据生成器(SDV)生成的合成数据,并通过使用生成的合成数据构建机器学习模型来评估合成数据的质量。
MOSTLY AI 有何过人之处?
我们的合成数据生成方法结合了最新的生成式人工智能进展以及对数据保护和合规性的透彻理解。我们通过利用最先进的算法和模型,确保 MOSTLY AI 创建的每个合成数据集都保持原始数据的统计特性,保持其真实性,同时保护敏感信息。
在我们寻找改进合成数据生成方法的过程中,我们发现了 Databricks 博客上 Sean Owen 撰写的一篇文章。该文章描述了使用 Synthetic Data Vault (SDV) 生成合成数据集。我们很好奇 MOSTLY AI 与 SDV 相比如何,因此决定进行一项研究,以比较我们解决方案与 SDV 的性能。
样本数据
在我们的评估过程中,我们遵循了系统性的方法。首先,我们获取了文章中提到的数据集,确保我们有一个可靠的基准进行比较。该数据可在 Databricks 的“/databricks-datasets/nyctaxi/tables/nyctaxi_yellow”中找到。这是众所周知的纽约出租车数据集。十多年来,它收集了纽约市出租车行程的基本信息,例如上车和下车地点、距离、票价、通行费和车费。
接下来,我们使用 Synthetic Data Vault (SDV) 和 MOSTLY AI 的合成数据生成器来合成数据集的 80%,旨在准确捕捉其特征和模式。为了进行公平的评估,我们将剩余的 20% 作为测试和验证的预留数据。此步骤使我们能够全面评估我们的合成数据集与 SDV 结果的性能。
合成数据 – 质量评估
为了评估 MOSTLY AI 和 SDV 生成的合成数据的质量和准确性,我们采用了两种不同的测量指标。根据 MOSTLY AI QA 报告,我们的合成数据集的准确性达到了 **96%**。相比之下,SDV 的性能测量为 40% 的准确性,这突显了结果的显著差异。此外,在使用 SDV 的质量报告评估质量分数时,MOSTLY AI 的合成数据集获得了 **97%** 的评分,这表明其高度符合现实世界的分布和统计特征。SDV 的质量得分为 77%。
通过构建 ML 模型进行评估
在我们评估的最后阶段,我们使用 LightGBM 构建了一个回归模型,该模型与参考博文中所使用的方法相呼应。本质上,目标是构建一个回归模型,试图预测客户更可能给出租车司机的小费金额。预留数据集用作测试平台,用于评估在原始数据集以及 MOSTLY AI 和 SDV 生成的合成数据集上训练的模型的预测性能。值得注意的是,原始数据的 RMSE(均方根误差)为 0.99,这展示了其强大的预测能力。MOSTLY AI 生成的合成数据集紧随其后,RMSE 为 **1.00**,这肯定了其准确近似原始数据分布的能力。相比之下,SDV 合成数据集的 RMSE 较高,为 1.64,表明其与原始数据集的预测性能存在较大偏差。
与博文中报道的 RMSE 1.52 相比,我们的评估显示出显著的改进。MOSTLY AI 生成的合成数据集的 RMSE 为 1.00,非常接近原始数据的准确性,这表明其性能得到了显著提升。我们还使用 SDV 的更高级算法 TVAE 进行了实验,结果的 RMSE 为 1.06。尽管 SDV 的 TVAE 算法表现具有竞争力,但我们的合成数据仍然优于它。
结论
在比较 MOSTLY AI 和 SDV 生成的合成数据集的评估中,很明显 MOSTLY AI 的解决方案在准确性和质量方面均优于竞争对手。我们的合成数据集的 RMSE 为 1.00,非常接近原始数据的性能,这证明了我们合成数据生成能力的极高精度和保真度。值得注意的是,我们的合成数据在性能上优于 SDV 的标准算法及其更高级的 TVAE 算法。
通过利用合成数据,组织可以受益于多种优势。首先,我们合成数据的高准确性和高质量确保了可靠的模型训练和测试,使数据科学家能够在不完全依赖原始数据的情况下开发强大的机器学习模型。其次,合成数据最大限度地减少了隐私问题,因为敏感信息被合成但统计上具有代表性的值所取代。这使得组织能够在利用数据驱动洞察力的同时,遵守严格的数据隐私法规。
一如既往,我们非常乐意向您介绍我们的平台。您可以亲身体验合成数据生成,并注册一个帐户,每天免费生成 100,000 行合成数据。如果您想在企业环境中使用 MOSTLY AI 的合成数据生成器,请与我们联系,我们将很乐意为您提供帮助!
你好 Matthew Mayo,
感谢您的帖子。
根据这篇博文,我试用了 MostlyAI,结果与您的结果相似——预测模型的性能略低于原始数据。
我想知道,当合成数据不像原始数据那样提高模型性能(即 RMSE)时,我们为什么需要创建合成数据?另外,有没有可能(例如,表格数据)创建可以提高机器学习模型性能的合成数据,使其优于原始数据?
此致,
Cuong
你好 Cuong,
谢谢你的提问。
我们的客户使用合成数据,是因为与组织内可能需要它的众多利益相关者分享原始数据是不安全、不明智或非法的。尽管与原始数据非常相似的合成数据对于训练模型仍然有价值(如本文所示),但它是隐私安全的。
确实存在合成数据优于真实数据的情况。这可能是因为原始数据不完整、太小,或者存在偏差/不平衡。一个例子是欺诈——银行通常只看到约 0.01% 的欺诈交易,并且希望有更多的示例来训练其检测欺诈的模型。有了合成数据,他们就可以做到这一点。
希望这有帮助。