听到“数据即新石油”这句话,全球的工程师都会感到头痛,并觉得非常不适。好吧,如果真是这样,那我们为什么不去最近的数据泵加满油箱,然后在机器学习山谷里畅游一番呢?
事情没那么简单。数据是杂乱无章的。数据需要被清理、转换、匿名化,最重要的是,数据需要可用。总而言之,那个数据石油井挖掘起来很棘手,很难获得稳定合规且随时可用的数据流。
合成油,或者更准确地说,合成数据来帮忙!但如今合成数据是什么?人工智能生成的合成数据即将成为构建人工智能和机器学习模型的标准数据替代方案。合成数据最初是一种增强隐私的技术,用于在不损失智能的情况下进行数据匿名化,有望在人工智能和机器学习项目中取代或补充原始数据。合成数据生成器可以打开比喻中的数据井的龙头,让工程师将新的领域知识注入他们的模型中。
像 MOSTLY AI 这样的合成数据公司提供最先进的生成式人工智能数据。选择合适的平台或选择开源合成数据必须是一个实践过程,需要大量的实验。为了充分利用这项新技术,最好牢记一些合成数据生成的基本原则。
- 您需要足够大的数据样本。
用于训练合成数据生成算法的数据样本或种子数据,应该至少包含 1000 个数据主体,具体数量取决于您的具体数据集。即使样本量较少,也请尝试一下——MOSTLY AI 的合成数据生成器具有自动隐私检查功能,因此您不会得到低质量数据或隐私泄露。 - 将描述主体的静态数据与描述事件的动态数据分开到不同的表中。如果数据集中没有任何时间序列数据,则只使用一个表进行合成。
- 如果您想合成时间序列数据并运行双表设置,请确保您的表通过主键和外键相互引用。
- 选择合适的合成数据生成器。MOSTLY AI 的免费合成数据生成器带有内置的质量检查功能,并允许您密切评估合成数据的准确性和隐私性。
机器学习性能提升
很多人尝试自己构建合成数据但失败了。生成的数据集的准确性和隐私性可能差异很大,而且如果没有自动隐私检查,您可能会得到一些潜在危险的东西。但这并非全部。用于机器学习的合成数据用例远远超出了隐私的范畴。
算法的好坏取决于用于训练它们的数据。合成数据通过两种方式提供机器学习性能提升:一是为训练提供更多数据,二是使用比可用样本更多的少数类合成样本。根据具体的数据集和模型,机器学习模型的性能最多可提高 15%。
公平性和可解释性
据一些估计,高达 85% 的算法因偏差而存在错误。人工智能生成可用于强制执行公平性定义,并通过可与监管机构和第三方安全共享的数据,深入了解算法的决策过程。高质量的人工智能生成合成数据可用作局部可解释性的“即插即用”,用于验证机器学习模型。
当然,您要尝试后才知道。MOSTLY AI 的强大合成数据生成器每天提供高达 10 万行的免费合成数据,并附带交互式质量保证报告。立即开始合成您的第一个数据集。如果您有关于数据准备的问题,请阅读我们博客上关于如何生成合成数据的更多内容。
我与机器学习模型打过很多交道,我个人发现合成数据可以生成比原始数据更强大的训练。例如,有一项关于图像分类算法的研究。用于训练算法的大量原始数据中,包含在冬季山地地形中的狼。因为狼经常出现在山地地形中,结果发现算法更多地利用了山地和雪的细节来识别狼,而不是实际的狼本身。你看,问题在于,对于“真实”的原始数据,常常存在你不想让算法关注的模式,但由于在原始数据中几乎不可能消除这些模式,它还是会关注。然而,如果研究人员能够拍摄狼的照片并将其放到各种背景中,算法就会学会不关注背景,从而提高其性能。因此,如果您希望算法学习特定的偏差,那么通过合成数据创建和控制该偏差可以显著提高模型的性能。
你好 Matthew…你提出了许多很棒的观点!以下资源提供了一些额外的考虑因素:
https://www.spiceworks.com/tech/artificial-intelligence/articles/synthetic-data-in-machine-learning/
我认为在某种程度上,合成数据的价值只是我们当前机器学习方法运作方式的一种产物。人类不需要看到成千上万或数百万个例子就能理解某件事。人类还能以极少的例子了解反例和例外情况,尤其是当有人指出它们是例外时。提高低概率事件采样率的需要源于我们当前算法在学习数据分布中表示不足的区域时遇到的失败。我们需要确保分布的所有方面都得到充分表示。
我认为合成数据在训练更好模型方面的作用会逐渐减小,因为机器学习方法的目标是学习底层统计分布的形状,而合成数据仅反映算法基于其训练的真实数据对该分布的当前假设。合成数据无法提供关于真实分布的新信息,因为它源于假设分布,也就是我们最好的猜测。它只会巩固(也许是完善)我们最好的猜测,而不会给我们任何真正新的东西。
合成数据在隐私方面仍将有用,也可用于传达统计分布形状的信息。但它不一定总能帮助我们进行更多训练。[
Zac,精彩的反馈!我们非常感谢!
很棒的帖子,我一直在使用合成数据进行训练,我的主要观察是神经网络的损失有所降低。我唯一的“建设性批评”是,如果你们能在帖子中包含一些或更多实际使用这些技术并展示这些“改进”和“益处”的研究论文,那就太好了。这只是我作为一个研究人员的个人观点。不过,这个网站一直是我灵感和资源的绝佳来源,感谢你们的精彩内容!