AI胃口太大,人类的语料库数据都不够吃。
Epoch团队的一篇新论文显示,AI将在5年内用完所有优质语料库。
要知道,这是考虑到人类语言数据的增长速度而预测出来的结果。换句话说,即使把人类近年来新写的论文、新编的代码全部喂给AI,也不够。
这样发展下去,依靠高质量数据提升水平的大语言模式很快就会遇到瓶颈。
有网友坐不住了:
这太荒谬了。人类不需要阅读互联网的所有内容,就可以高效地训练自己。
我们需要一个更好的模型,而不是更多的数据。
也有网友调侃。还不如让AI吃它吐的东西:
AI本身生成的文本可以作为低质量的数据喂给AI。
我们来看看,留给人类的数据还有多少?
和文本图像数据ldquo库存rdquo怎么样?
本文主要预测两种数据:文本和图像。
第一,文字资料。
数据质量通常有好有坏。根据现有大型模型中使用的数据类型和其他数据,作者将可用的文本数据分为两部分:低质量和高质量。
优质语料是指Pile、PaLM、MassiveText等大型语言模型使用的训练数据集,包括维基百科、新闻、GitHub上的代码、出版的书籍等。
据统计,高质量语言数据的存量仅为4.6×10 ^ 12 ~ 1.7倍左右;10 ^ 13个单词,比当前最大的文本数据集大不到一个数量级。
结合增长率,论文预测2023-2027年优质文本数据将被AI耗尽,节点估计在2026年左右。
看起来有点快,helliphellip
当然也可以加入低质量的文本数据救急。据统计,目前文本数据整体存量还剩7倍;10^13~7times;10 ^ 16个字,比最大数据集大1.5~4.5个数量级。
如果对数据质量要求不高,那么AI将在2030年到2050年之间耗尽所有的文本数据。
再看看图像数据。这里,纸张不区分图像质量。
显然,大语言模型比图像模型面临着更大的压力。缺失数据rdquo情况。
那么这个结论是怎么得出的呢?
计算网民日均发帖量。
本文从两个方面分析了文本图像数据生成的效率和训练数据集的增长。
值得注意的是,论文中所有的统计数据都没有标注数据。考虑到无监督学习是热点,未标记数据也包括在内。
以文本数据为例。大部分数据将来自社交平台、博客和论坛。
为了估计文本数据产生的速度,需要考虑三个因素,即总人口、互联网普及率和互联网用户产生的平均数据量。
例如,这是根据历史人口数据和互联网用户数量估计的未来人口和互联网用户增长趋势:
结合用户平均产生的数据量,可以计算出数据产生的速率。
按照这种方法计算,语言数据的增长率约为7%,但这个增长率会随着时间的推移而逐渐降低。
预计到2100年,我们的语言数据增长率会降低到1%。
用同样的方法分析图像数据,目前的增长率约为8%,但到2100年图像数据的增长率也将放缓至1%左右。
有网友对此调侃,以后可能会有类似科幻故事情节的东西:
为了训练AI,为了启动大规模的文本生成项目,人们都在拼命为AI写作。
他称之为一种ldquo人工智能教育;:
我们每年向AI发送14万到260万字的文本数据,听起来比人类在《黑客帝国》中充当电池的时候还酷?
你怎么想呢?
相关信息当大厂的程序员已经开始用AI写代码的时候,人类会被AIGC淘汰吗?谁能想到呢?人类历史上第一次反抗AI:居然发生在艺术圈ChatGPT遇到智障的时候:爆笑“密码神器”LastPass官方承认:部分用户隐私数据被黑客窃取进入美颜直播工作室后:NV AI为响应支持悬赏演唱《铃儿响叮当》。
支持0个人
反对
报酬
商品价值评分
快科技1997-2022版权所有。
ICP编号18024899 -2王编号41010502003949