AI公司们正在尝试一种新的途径来获取数据,即从零开始自行“创建”数据。微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型。合成数据可以适用于很多训练场景,但目前尚未全面推广。现有的通用数据资源已接近效能极限,开发人员认为网络上的通用数据已不足以推动AI模型的性能发展。网络是嘈杂混乱的,不能提供真正需要的数据,无法满足所有需求。
过去,聊天机器人的训练数据多来自于互联网,如电子书、新闻文章、博客、推特、Reddit的推文帖子、Youtube视频和Flickr图片等。随着AI技术的复杂化,获取高质量数据变得越来越困难。科技公司在开发AI模型时也因不当使用数据而受到批评。
今年5月,OpenAI首席执行官Sam Altman在一场活动上被问及是否担心监管机构调查ChatGPT是否侵犯用户隐私。Altman对此表示不置可否,并表示很快所有数据都将是合成数据。
为了大幅提高AI模型的性能,AI模型需要独特且复杂的数据集,这些数据可能需要来自科学家、医生、作家、演员、工程师等专业人士,或者需要从大型企业如药企、银行和零售商等获取专业数据。此外,获取这些数据非常昂贵。一些公司如Scale AI和Gretel.ai等开始提供合成数据。合成数据成为一个相对实惠的选择,可以避开昂贵的真实数据,并能生成更加复杂的数据来训练AI。
具体如何使用合成数据训练AI大模型?例如,在训练一个高级数学模型时,可以使用两个AI模型进行对话,一个扮演数学老师,另一个扮演学生。这些模型可以就数学问题如三角函数进行对话,所有的对话都是模型“想象”出来的。如果模型说错了什么,人类可以在查看这段对话时进行纠正。
微软研究院最近的研究表明,合成数据可以用来训练AI模型,这些模型一般比OpenAI的GPT-4和谷歌的PaLM-2更小更简单。其中一个研究生成一个名为“TinyStories”的短篇故事合成数据集,使用的单词非常简单,一个四岁的孩子都能理解。这个数据集被用来训练一个简单的大语言模型,后者能生成流畅且语法正确的故事。另一个研究展示了通过合成的Python代码进行训练,在编码任务中表现较好。
一些公司如Gretel.ai提供合成数据来扩充现有数据,帮助训练人工智能模型。合成数据能保护数据集中个人的隐私,同时保持数据的统计完整性。合成数据还能消除现有数据中的偏差和不平衡。然而,也有人对合成数据持怀疑态度。研究人员发现,不是所有合成数据都能反映或改进真实世界,大量使用AI生成的内容会导致模型崩溃,对现实世界产生错误理解,使模型忘记真实基础数据部分。
虽然合成数据有一些潜在问题,但它仍然是获取高质量数据的一种实惠方案,能帮助AI模型提升性能。随着技术的不断发展,人们将继续探索如何更好地使用合成数据训练AI模型。