未来已来:数据如何驱动AI大模型的竞争 世界时讯
随着人工智能的迅猛发展,高质量数据的重要性已愈发明显。以大型语言模型为例,近年来的飞跃式进展在很大程度上依赖于高质量和丰富的训练数据集。相比于GPT-2,GPT-3在模型架构上的改变微乎其微,更大的精力是投入到了收集更大、更高质量的数据集来进行训练。例如,ChatGPT与GPT-3的模型架构类似,但使用了RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标注数据。
认识到这一现象,人工智能领域的权威学者吴承恩发起了“以数据为中心的 AI”运动,这是一种新的理念,它主张在模型架构相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。这其中包括添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。因此,未来在大模型开发中,数据成本(包括数据采集、清洗、标注等成本)所占的比例可能会逐步提高。
AI大模型需要的数据集应具备以下特性:
【资料图】
(1)高质量:高质量的数据集可以提高模型的精度和可解释性,同时缩短模型收敛到最优解的时间,也就是训练时长。
(2)大规模:在《Scaling Laws for Neural Language Models》一文中,OpenAI提出了LLM模型的"伸缩法则",即独立增加训练数据量、模型参数规模或延长模型训练时间,预训练模型的效果会持续提升。
(3)多样性:数据的多样性有助于提高模型的泛化能力,过于单一的数据可能会导致模型过度拟合训练数据。
数据集的生成与处理数据集的建立流程主要包括以下步骤:
数据采集:数据采集的对象可能包括各种类型和格式的视频、图片、音频和文本等。数据采集常用的方式有系统日志采集方法、网络数据采集方法以及ETL。数据清洗:因为采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题,数据清洗就显得尤为重要。数据清洗作为数据预处理中至关重要的环节,清洗后的数据质量在很大程度上决定了AI算法的有效性。数据标注:这是流程中最重要的一个环节。管理员会根据不同的标注需求,将待标注的数据划分为不同的标注任务。每一个标注任务都有不同的规范和标注点要求,一个标注任务将会分配给多个标注员完成。模型训练:模型训练人员会利用标注好的数据训练出需要的算法模型。模型测试:测试人员进行模型测试并将测试结果反馈给模型训练人员,模型训练人员通过不断地调整参数,以便获得性能更好的算法模型。产品评估:产品评估人员需要反复验证模型的标注效果,并对模型是否满足上线目标进行评估。只有经过产品评估环节的数据才算是真正过关。然而,尽管中国的数据资源丰富,但由于数据挖掘不足,数据无法在市场上自由流通等因素,导致优质的中文数据集仍然稀缺。据统计,ChatGPT的训练数据中,中文资料的比重不足千分之一,而英文资料占比超过92.6%。此外,加利福尼亚大学和Google研究机构的研究发现,目前机器学习和自然语言处理模型使用的数据集有50%是由12家顶级机构提供,其中10家为美国机构,1家为德国机构,只有1家机构来自中国,即香港中文大学。
我们认为,国内缺乏高质量数据集的原因主要有以下几点:
高质量数据集需要巨大的资金投入,但目前国内对数据挖掘和数据治理的投入不足。国内相关公司往往缺乏开源意识,导致数据无法在市场上自由流通。国内相关公司成立较晚,数据积累相对于国外公司要少。在学术领域,中文数据集的重视程度低。国产数据集的市场影响力和普及度相对较低。目前,国内科技互联网头部企业主要通过公开数据和自身特有数据来训练大模型。例如,百度的“文心”大模型使用的特有数据主要包括万亿级的网页数据,数十亿的搜索数据和图片数据等。阿里的“通义”大模型的训练数据主要来自阿里达摩院。腾讯的“混元”大模型的特有训练数据主要来自微信公众号、微信搜索等优质数据。华为的“盘古”大模型的训练数据,除了公开数据,还有B端行业数据加持,包括气象、矿山、铁路等行业数据。商汤的“日日新”模型的训练数据中,包括了自行生成的Omni Objects 3D多模态数据集。
中国的数据环境和未来尽管现状尚有不足,但中国的数据环境仍有巨大的潜力。首先,中国是全球最大的互联网用户群体,日产数据量巨大,为构建大规模高质量数据集提供了基础。其次,中国政府对于AI和数据治理的重视,无论是政策支持还是资金投入,都为数据环境的改善和发展提供了有利条件。
未来,中国需要在以下几个方面进行努力:
建立数据采集和清洗系统:建立一套完整的数据采集和清洗系统,确保数据的质量和有效性,为后续的模型训练提供可靠的数据基础。提高公开数据的可获取性和使用性:鼓励公司、研究机构等公开数据,让数据在市场中自由流通,从而提高数据的可获取性和使用性。加大数据标注投入:通过提高标注效率和质量,降低标注成本,从而获取更多、更高质量的标注数据。培养更多的数据科学家和AI工程师:通过教育和培训,增加数据科学家和AI工程师的数量和素质,以推动中国的AI研究和应用。加强国内外的数据合作:通过数据合作,借鉴国外的成功经验,改进数据的采集、处理、使用等方面的技术和方法,以提升中国数据的质量和价值。数据是AI模型的"燃料",未来AI大模型的竞争,无疑将更加依赖高质量的数据。因此,对数据的投入和利用,将决定中国在全球AI竞赛中的地位和成绩。
标签:
-
2023-06-27 09:37:43
未来已来:数据如何驱动AI大模型的竞争 世界时讯<
随着人工智能的迅猛发展,高质量数据的重要性已愈发明显。以大型语言模
-
2023-06-27 08:31:31
海南屯昌:打好“组合拳”筑牢禁毒“防火墙” 天天微头条<
原标题:综合推动禁毒工作提质升级屯昌:打好“组合拳”筑牢禁毒“防火
-
2023-06-27 06:55:17
“泰坦”号潜水器失事,网飞重播《泰坦尼克号》被批“蹭流量”<
【环球时报综合报道】美国好莱坞打造的经典爱情灾难片《泰坦尼克号》将
-
2023-06-27 05:57:29
【世界聚看点】经纪人爆料:利物浦愿为姆巴佩支付2.5亿欧,皇马将报价2亿欧<
经纪人爆料:利物浦愿为姆巴佩支付2 5亿欧,皇马将报价2亿欧,西甲,皇马
-
2023-06-27 05:01:21
每日时讯!1600亿市值!上海一龙头车企,在印度被强行收购、丧失控制权?刚刚,公司紧急回应<
6月26日,上汽集团(600104 SH,14 04元 股,总市值1640 4亿元)官微发
-
2023-06-27 09:37:43
未来已来:数据如何驱动AI大模型的竞争 世界时讯
随着人工智能的迅猛发展,高质量数据的重要性已愈发明显。以大型语言模
-
2023-06-27 08:31:31
海南屯昌:打好“组合拳”筑牢禁毒“防火墙” 天天微头条
原标题:综合推动禁毒工作提质升级屯昌:打好“组合拳”筑牢禁毒“防火
-
2023-06-27 07:45:30
出道25年不温不火,为现任分手前妻,今妻子身家过亿他却成这样-热消息
娱乐圈确实是交通拥挤的地方。现在的交通支持着明星,比如现在的许多小
-
2023-06-27 06:51:13
神奇宝贝角色解密大图鉴
1、终于完成了,386只神奇宝贝大集合!这次要一口气全部介绍!各种奇幻
-
2023-06-27 06:55:17
“泰坦”号潜水器失事,网飞重播《泰坦尼克号》被批“蹭流量”
【环球时报综合报道】美国好莱坞打造的经典爱情灾难片《泰坦尼克号》将
-
2023-06-27 05:57:29
【世界聚看点】经纪人爆料:利物浦愿为姆巴佩支付2.5亿欧,皇马将报价2亿欧
经纪人爆料:利物浦愿为姆巴佩支付2 5亿欧,皇马将报价2亿欧,西甲,皇马
-
2023-06-27 06:03:54
全球看点:一汽奔腾T90正式上市,售价十万起,六大定制包打出“个性牌”
电动化时代中,燃油车要想博得一个好的销量表现,多数车企都会将车辆定
-
2023-06-27 05:05:40
当前速讯:文班亚马:会拥抱担任联盟门面球员的责任,积极影响人们
马刺状元秀维克托-文班亚马近日参加了前NBA球员JJ-雷迪克的播客。在播
-
2023-06-27 05:01:21
每日时讯!1600亿市值!上海一龙头车企,在印度被强行收购、丧失控制权?刚刚,公司紧急回应
6月26日,上汽集团(600104 SH,14 04元 股,总市值1640 4亿元)官微发
-
2023-06-27 04:41:19
qq2g在线是怎么回事(qq2g在线是什么意思)
来为大家解答以上问题。qq2g在线是怎么回事,qq2g在线是什么意思这个很
-
2023-06-27 02:37:23
6月26日基金净值:南方创新驱动混合A最新净值0.6754,跌1.19% 世界滚动
6月26日,南方创新驱动混合A最新单位净值为0 6754元,累计净值为0 6754
-
2023-06-27 01:55:56
iPhone这个新功能,让无数用户社会性死亡
手机误触这事儿,不大不小,有时也挺吓人的。误触导致后果最轻的,无非
-
2023-06-27 00:56:35
速读:四氧化三铁放入盐酸中_四氧化三铁投入盐酸
1、Fe3O4+8HCl=FeCl2+2FeCl3+4H2O四氧化三铁,化学式Fe3O4。2、俗称氧
-
2023-06-27 00:57:17
一分钱一分货的英文_一分钱一分货用英语怎么说-新资讯
1、一分钱一分货,Yougetwhatyoupayfor一分钱一分货,Yougetwhatyoupay
-
2023-06-26 22:55:16
手机怎样截长图(怎样截长图) 世界今亮点
诸多的对于手机怎样截长图,怎样截长图这个问题都颇为感兴趣的,为大家
-
2023-06-26 22:28:36
环球关注:和胜股份:签订约2.55亿元新能源汽车主体结构件先进装备制造项目工程建设施工合同
和胜股份6月26日公告,公司与广东建安昌盛控股集团有限公司(简称“建安
-
2023-06-26 21:57:20
天天最新:家常版麻辣香锅做法来啦~口口麻辣鲜香,绝对吃到超过瘾!
先把煮熟的牛肉丸和墨鱼丸放进锅里翻炒2分钟左右,因为肉丸不好入味,
-
2023-06-26 19:43:28
lol库奇皮肤手感_lol库奇皮肤 讯息
1、lol蛇年限定皮肤已出。2、下面我们一起来看看详细的活动信息吧!价
-
2023-06-26 21:43:45
世界热讯:广州市波米陶瓷有限公司(广州市秋瓷科技有限公司)
广州市秋瓷科技有限公司于2016年10月08日成立。法定代表人朱世豪,公司
-
2023-06-26 21:29:58
国泰航空再出事故!客机漏水,深夜停飞,可能是人为
香港星岛网26日报道称,日前发生故障而造成11名乘客受伤送院的飞往洛杉
-
2023-06-26 20:08:12
射洪市公安局召开全市道路交通安全执法领域突出问题专项整治工作推进会|最新消息
百姓生活遂宁讯(郎涛)6月25日,射洪市公安局召开全市道路交通安全执
-
2023-06-26 20:33:55
回购价远高于市价,又2家公司抛回购计划;北交所公司增持方案密集出炉-世界热文
股价走弱,一些北交所公司抛出了回购股份计划。其中海泰新能披露的方案
-
2023-06-26 17:47:40
港交所(00388)与宁波政府签订合作备忘录 共同支持宁波企业到港上市
智通财经获悉,6月26日,港交所(00388)与宁波市人民政府(宁波政府)签署
-
2023-06-26 19:29:42
今日精选:择业期是什么意思_择业
1、最好是自己喜欢的行业,任何行业只要深耕,都会闯出来一片天地。但
-
2023-06-26 17:48:38
当前最新:河南省2023年统一考试录用公务员驻马店市第二批拟录用人员公示
河南省2023年统一考试录用公务员驻马店市第二批拟录用人员公示按照《河
-
2023-06-26 18:53:34
追起来,王源新剧《追光的日子》登陆央视
近年来,中国娱乐圈涌现出许多备受瞩目的新生代演员,而其中一位备受关注
-
2023-06-26 18:44:00
梁家辉代言MAZDA CX-50行也 长安马自达2023粉丝盛典唱响蔚蓝海岸
长安马自达2023粉丝盛典在海南万宁举行,梁家辉成为MAZDACX-50行也代言
-
2023-06-26 17:10:49
由可口可乐制成的实用微型洗衣机感觉就像一个完美的DIY夏季项目
这台完全运转的洗衣机非常小,甚至无法容纳一只袜子。然而,仅仅因为有
-
2023-06-26 16:36:27
厦门象屿拟发行不超15亿元公司债券,用于补充公司本部及子公司流动资金
乐居财经王敏 6月26日,厦门象屿股份有限公司发布2023年面向专业投
-
2023-06-26 12:35:01
和美城乡 四大行动|丹寨县龙泉镇得禄村:废墟地变成了后花园
近日,走进得禄村,一阵阵花香扑面而来,一个个用竹子片围起来的小花园
-
特写:风吹稻香忆袁老——袁隆平逝世一周年的墓前追思
2022-05-23 16:13:29 -
北京5月21日区域核酸筛查初筛10管混采阳性
2022-05-23 16:13:29 -
北京两地由高风险降为中风险 一地降为低风险地区
2022-05-23 16:13:29 -
5月21日15时至22日15时,北京新增本土新冠肺炎病毒感染者94例
2022-05-23 16:13:29 -
108岁病人顺利出院,瑞金医院卢湾分院已收治10位百岁老人
2022-05-23 16:13:29 -
生态花园助力乡村振兴 重庆小山村展现“乡土美学”
2022-05-23 16:13:29 -
上海金山政务服务场所逐步恢复服务
2022-05-23 16:13:29