币圈网报道:
随着AI模型消费互联网的免费内容,迫在眉睫的危机正在出现:当没有什么可以训练的时候会发生什么?
最近的海角报告揭示了这一点DeepSeek,一种中国人工智能模型通常会产生与Chatgpt几乎相同的回答,从而引起了人们对Openai产出的培训的担忧。
这导致一些人怀疑AI开发中“低悬一起”的时代可能已经结束。
12月,Google首席执行官Sundar Pichai承认这一现实警告说,AI开发人员正在迅速耗尽免费的高质量培训数据的供应。
“在当前一代的LLM车型中,大约有几家公司汇聚在顶部,但我认为我们也都在研究下一个版本,” Pichai在12月的《纽约时报》年度交易书峰会上说。 “我认为进步将变得越来越困难。”
随着高质量培训数据的供应,许多AI研究人员正在转向其他AI产生的合成数据。
合成数据并不新鲜 - 它可以追溯到晚期1960年代- 并依靠算法和仿真来创建模仿现实世界信息的人工数据集。但是它在AI开发中的作用不断增长,引发了新的关注,尤其是当AI系统集成到分散技术中时。
“综合数据永远存在于统计数据中,这就是所谓的自举数据,”麻省理工学院软件工程教授穆里尔·梅达德(MurielMédard)告诉解密在ETH DENVER 2025的采访中。“您从实际数据开始,然后思考,‘我想要更多,但不想为此付费。我会根据自己的东西来弥补。’”
Medard,分散的内存基础设施平台的共同创始人最佳,说训练AI模型的主要挑战不是缺乏数据,而是其可访问性。
她说:“您要么搜索更多,要么用自己的东西伪造它。” “访问数据,尤其是在链上,检索和更新至关重要的链上 - 添加了另一层复杂性。”
AI开发人员将面临越来越多的隐私限制,并且对现实世界数据集的访问有限,合成数据成为模型培训的至关重要替代方案。
“随着隐私限制和一般内容政策得到越来越多的保护,利用合成数据将成为必要的,既是出于易于访问的便利性和对法律追索性的恐惧的必要性,''你有德鲁伊尼克·桑切斯(Nick Sanchez)告诉解密。
他补充说:“目前,这不是一个完美的解决方案,因为合成数据可以包含您在现实世界中发现的相同偏见,但是它在处理同意,版权和隐私问题中的作用只会随着时间的推移而增长。”
随着合成数据的使用的增长,因此请担心其操纵和滥用的潜力。
桑切斯说:“合成数据本身可以用来将虚假信息插入训练集中,故意误导AI模型,这在将其应用于诸如欺诈检测之类的敏感应用程序中时尤其令人担忧,在这种情况下,不好的参与者可以在其中使用合成数据来训练一些忽略某些欺诈模式的模型。”
Medard解释说,区块链技术可以帮助减轻合成数据的风险,强调目标是使数据防篡改而不是不变。
她说:“更新数据时,您不会愿意做到这一点 - 您会改变一点并观察。” “当人们谈论不变性时,它们确实是指耐用性,但完整的框架很重要。”
编辑塞巴斯蒂安·辛克莱(Sebastian Sinclair)