科创板日报 郑远方

AI公司们为了满足AI大模型对数据的庞大需求,开始探索一条获取数据的“新路”——通过合成数据来训练AI模型。

微软与OpenAI的“数据永动机”:合成数据的甜蜜抑或毒药?

微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型。Cohere首席执行官Aiden Gomez表示,合成数据可以适用于很多训练场景,目前还未全面推广。

过去通用的数据资源似乎已经接近极限,开发人员认为网络上的通用数据已经不足以推动AI模型的性能发展。Gomez指出,网络的信息嘈杂混乱,无法满足我们的所有需求。

过去,聊天机器人的训练数据主要来自互联网,例如电子书、新闻文章、博客、推特和Reddit上的帖子、Youtube视频和Flickr图片等。随着AI技术的复杂性增加,获取高质量数据变得越来越困难。开发AI模型的科技公司们也因为不当使用数据而受到了批评。

今年5月,OpenAI首席执行官Sam Altman在一次活动中被问及是否担心监管机构调查ChatGPT可能侵犯用户隐私的问题。Altman没有给出明确答复,只表示自己对所有数据最终都会是合成数据的前景非常有信心。

为了显著提高AI模型的性能,在科学、医学、商业等领域提升它们的水平,AI模型需要的是独特且复杂的数据集。这些数据要么需要来自于科学家、医生、作家、演员、工程师等专业人士,要么需要从药企、银行、零售商等大型企业获取专业数据。这也导致AI公司们转向合成数据的另一个原因——真实数据价格昂贵。

更不用说那些技术含量极高的制药和科学数据了,光是Reddit和推特的数据采集费用就被Gomez嫌贵。Reddit从本月起开始收费,根据第三方软件Apollo的开发者Christian Selig透露,Reddit的收费标准为0.24美元/1000次API响应,对于Apollo来说,相当于每月200万美元的开销。据推特今年3月发布的API政策,企业需要为抓取推文的API支付每月4万美元至20万美元不等的费用,相应可以获得5000万至2亿条推文。而根据数据计算,最低档套餐只相当于推文总量的0.3%。

在这种情况下,合成数据成为更为实惠的选择,不仅可以避免高昂的数据价格,还能生成更复杂的数据来训练AI。

那么,如何使用合成数据来训练AI大模型呢?Gomez举了一个例子:在训练一个高级数学模型时,Cohere可能会使用两个AI模型进行对话,其中一个扮演数学老师,另一个扮演学生。然后这两个模型就会就三角函数等数学问题进行对话,所有对话的内容都是模型“想象”出来的。如果模型在对话中说错了什么,人类将纠正错误。微软研究院最近的研究也证明了合成数据可以用来训练AI模型,这些模型通常比OpenAI的GPT-4和谷歌的PaLM-2要小、要简单。在其中一篇论文中,GPT-4生成了一个名为“TinyStories”的短篇故事合成数据集,这些故事中使用的单词都非常简单,甚至四岁的孩子都能理解。这个数据集用来训练一个简单的大语言模型,后者可以生成流畅且语法正确的故事。另一篇论文中,AI通过合成的Python代码进行训练,在后续的编码任务中表现较好。

合成数据的供应商也应运而生,例如Scale AI和Gretel.ai等初创公司。Gretel.ai由来自美国国家安全局和中央情报局的前情报分析师创立,已经与谷歌、汇丰银行、Riot Games、Illumina等公司合作,使用合成数据来增补现有数据,帮助训练人工智能模型。Gretel.ai首席执行官Ali Golshan表示,合成数据的关键在于保护个人隐私和保持数据的统计完整性。同时,合成数据还可以消除现有数据中的偏差和不平衡。他举例说,对冲基金可以研究黑天鹅事件,而Gretel的软件可以生成成千上万种欺诈案例来训练AI模型。然而,也有人对合成数据持保留态度,认为并不是所有合成数据都经过精心调试,能够反映或改进真实世界。来自牛津、剑桥、帝国理工等机构的研究人员发现,合成数据的负面影响甚至堪比“毒药”。如果大量使用合成数据进行训练,会导致模型崩溃,产生不可逆的缺陷。新一代模型的训练数据会被上一代模型生成的数据所污染,导致对真实世界的感知出现错误。随着时间的推移,模型将遗忘真实数据的一部分。即使在长期学习的理想状态下,这种情况也无法避免,研究人员将之形容为“AI大模型患上‘痴呆症’”。即使是合成数据从业人员Golshan也承认,使用低质量的合成数据进行训练可能会阻碍进步。他说“随着时间的推移,越来越多网上的内容都是由AI生成的。这确实会导致退化,因为这些大模型生成的知识都是重复的,没有任何新的见解。