研究显示，人工智能公司的培训数据正在枯竭

扫描分享

本文共字，预计阅读时间。

随着科技公司开发的人工智能模型变得更大、更快、能力更强，它们需要越来越多的高质量数据来进行训练。然而与此同时，各大网站开始做出反击，禁止上述企业使用其平台文本、图像和视频进行人工智能训练。麻省理工学院（MIT）研究人员领导的“数据起源倡议”（Data Provenance Initiative）最近发表的一项研究显示，这一举措限制了数据集的大量内容，构成了“正在出现的数据同意危机”。

该研究发现，仅在过去一年里，由于担心人工智能使用公共数据的道德和法律挑战，引发了“来自网络来源的数据限制迅速增加”，商业和学术人工智能机构大受影响。2023年4月至2024年4月期间，研究人员通过查看大约14，000个用于构成三个主要数据集（即C4、RefinedWeb和Dolma）的网络域发现，所有数据的5%和来自最高质量来源的数据的25%受到限制。

主要人工智能公司通常通过被称为“网络爬虫”的自动机器人收集数据。以C4数据集为例，45%的数据由于网站协议限制，无法通过网络爬虫进行访问。根据这项研究，这些限制不成比例地影响了不同科技公司的爬虫，通常有利于“不太知名的人工智能开发者”。

例如，OpenAI的爬虫被限制访问近26%的高质量数据源，而谷歌和Meta的爬虫被限制访问的数据占比分别为10%和4%。

除此之外，用于训练人工智能模型的公共数据供应预计也将很快耗尽。研究集团Epoch AI于6月发布的一项研究显示，鉴于目前公司改进人工智能模型的速度，开发者的可用训练数据可能会在2026年至2032年之间耗尽。

面对这样的困境，大型科技公司开始争相寻找足够的数据来支持他们雄心勃勃的人工智能目标。一些公司与内容丰富的出版商达成协议，以获得对其档案资料的访问权。例如，OpenAI为这种合作关系向出版商提供的资金总额在100万至500万美元之间。据统计，这家人工智能巨头已经与《大西洋月刊》、Vox Media、美联社、《金融时报》、新闻集团等出版物达成协议，使用它们的档案进行人工智能模型训练，作为回报，OpenAI则会向上述合作伙伴提供ChatGPT等产品的使用权。

为了解锁新数据，OpenAI甚至考虑使用其语音识别工具Whisper来转录YouTube等网站的视频和音频。无独有偶，谷歌也讨论过这种方法。与此同时，Meta等其他人工智能开发商也在考虑收购Simon & Schuster等出版公司，以获得其所拥有的大量图书资源。

人工智能数据危机的另一个可能的解决方案是合成数据，这是一个用来描述人工智能模型而不是人类产生的数据的术语。OpenAI的Sam Altman在今年早些时候的一次采访中提出了这种方法，他认为，“互联网数据最终会‘耗尽’......‘只要能越过合成数据事件的门槛，迎来足够聪明的人工智能模型，就可以产生良好的合成数据。”

然而一些著名的人工智能研究人员认为，对正在出现的数据危机的担忧被夸大了。斯坦福大学计算机科学家、“人工智能教母”李飞飞在5月出席彭博社技术峰会上时表示，对数据限制的担忧是一种“非常狭隘的观点”。

虽然对互联网内容的限制可能正在收紧，但李飞飞指出，人工智能还需要利用各种替代性的相关数据来源。例如，“医疗保健行业的数据并没有耗尽，教育等行业也没有。所以我不认为我们已经没有可用的数据了”。

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文版权归原作者所有，如有侵权，请联系删除。