GPT-4变笨引爆舆论!文本代码质量都下降,OpenAI刚刚回应了降本减料质疑-世界即时看
声明:本文来自于微信公众号 量子位(ID:QbitAI),梦晨 克雷西 发自 凹非寺,授权站长之家转载发布。
【资料图】
大模型天花板GPT-4,它是不是……变笨了?
先是少数用户提出质疑,随后大量网友表示自己也注意到了,还贴出不少证据。
有人反馈,把GPT-4的3小时25条对话额度一口气用完了,都没解决自己的代码问题。
无奈切换到GPT-3.5,反倒解决了。
总结下大家的反馈,最主要的几种表现有:
以前GPT-4能写对的代码,现在满是Bug
回答问题的深度和分析变少了
响应速度比以前快了
这就引起不少人怀疑,OpenAI是不是为了节省成本,开始偷工减料?
两个月前GPT-4是世界上最伟大的写作助手,几周前它开始变得平庸。我怀疑他们削减了算力或者把它变得没那么智能。
这就不免让人想起微软新必应“出道即巅峰”,后来惨遭“前额叶切除手术”能力变差的事情……
网友们相互交流自己的遭遇后,“几周之前开始变差”,成了大家的共识。
一场舆论风暴同时在Hacker News、Reddit和Twitter等技术社区形成。
这下官方也坐不住了。
OpenAI开发者推广大使Logan Kilpatrick,出面回复了一位网友的质疑:
API 不会在没有我们通知您的情况下更改。那里的模型处于静止状态。
不放心的网友继续追问确认“就是说GPT-4自从3月14日发布以来都是静态的对吧?”,也得到了Logan的肯定回答。
“我注意到对于某些提示词表现不一致,只是由于大模型本身的不稳定性吗?”,也得到了“Yes”的回复。
但是截至目前,针对网页版GPT-4是否被降级过的两条追问都没有得到回答,并且Logan在这段时间有发布别的内容。
那么事情究竟如何,不如自己上手测试一波。
对于网友普遍提到GPT-4写代码水平变差,我们做了个简单实验。
实测GPT-4“炼丹”本领下降了吗?
3月底,我们曾实验过让GPT-4“炼丹”,用Python写一个多层感知机来实现异或门。
△ShareGPT截图,界面稍有不同
让GPT-4改用numpy不用框架后,第一次给出的结果不对。
在修改两次代码后,运行得到了正确结果。第一次修改隐藏神经元数量,第二次把激活函数从sigmoid修改成tanh。
6月2日,我们再次尝试让GPT-4完成这个任务,但换成了中文提示词。
这回GPT-4第一次就没有使用框架,但给的代码仍然不对。
后续只修改一次就得到正确结果,而且换成了力大砖飞的思路,直接增加训练epoch数和学习率。
回答的文字部分质量也未观察到明显下降,但响应速度感觉确实有变快。
由于时间有限,我们只进行了这一个实验,且由于AI本身的随机性,也并不能否定网友的观察。
最早4月19日就有人反馈
我们在OpenAI官方Discord频道中搜索,发现从4月下旬开始,就不时有零星用户反馈GPT-4变差了。
但这些反馈并未引发大范围讨论,也没有得到官方正式回应。
5月31日,Hacker News和Twitter同天开始大量有网友讨论这个问题,成为整个事件的关键节点。
HackerNews一位网友指出,在GPT-4的头像还是黑色的时候更强,现在紫色头像版在修改代码时会丢掉几行。
在Twitter上较早提出这个问题的,是HyperWrite(一款基于GPT API开发的写作工具)的CEO,Matt Shumer。
但这条推文却引发了许多网友的共鸣,OpenAI员工回复的推文也正是针对这条。
不过这些回应并没让大家满意,反而讨论的范围越来越大。
比如Reddit上一篇帖子提到,原来能回答代码问题的GPT-4,现在连哪些是代码哪些是问题都分不出来了。
在其他网友的追问下,帖子作者对问题出现的过程进行了概述,还附上了和GPT的聊天记录。
对于OpenAI声称模型从三月就没有改动过,公开层面确实没有相关记录。
ChatGPT的更新日志中,分别在1月9日、1月30日、2月13日提到了对模型本身的更新,涉及改进事实准确性和数学能力等。
但自从3月14日GPT-4发布之后就没提到模型更新了,只有网页APP功能调整和添加联网模式、插件模式、苹果APP等方面的变化。
假设真如OpenAI所说,GPT-4模型本身的能力没有变化,那么这么多人都感觉它表现变差是怎么回事呢?
很多人也给出了自己的猜想。
第一种可能的原因是心理作用。
Keras创始人François Chollet就表示,不是GPT的表现变差,而是大家渡过了最初的惊喜期,对它的期待变高了。
Hacker News上也有网友持相同观点,并补充到人们的关注点发生了改变,对GPT失误的敏感度更高了。
抛开人们心理感受的差异,也有人怀疑API版本和网页版本不一定一致,但没什么实据。
还有一种猜测是在启用插件的情况下,插件的额外提示词对要解决的问题来说可能算一种污染。
△WebPilot插件中的额外提示词
这位网友就表示,在他看来GPT表现变差正是从插件功能开始公测之后开始的。
也有人向OpenAI员工询问是否模型本身没变,但推理参数是否有变化?
量子位也曾偶然“拷问”出ChatGPT在iOS上的系统提示词与网页版并不一致。
如果在手机端开启一个对话,它会知道自己在通过手机与你交互。
会把回答控制在一到两句话,除非需要长的推理。
不会使用表情包,除非你明确要求他使用。
△不一定成功,大概率拒绝回答
那么如果在网页版继续一个在iOS版开启的对话而没意识到,就可能观察到GPT-4回答变简单了。
总之,GPT-4自发布以来到底有没有变笨,目前还是个未解之谜。
但有一点可以确定:
3月14日起大家上手玩到的GPT-4,从一开始就不如论文里的。
与人类对齐让AI能力下降
微软研究院发表的150多页刷屏论文《AGI的火花:GPT-4早期实验》中明确:
他们早在GPT-4开发未完成时就得到了测试资格,并进行了长期测试。
后来针对论文中很多惊艳例子,网友都不能成功用公开版GPT-4复现。
目前学术界有个观点是,后来的RLHF训练虽然让GPT-4更与人类对齐——也就更听从人类指示和符合人类价值观——但让也让它自身的推理等能力变差。
论文作者之一、微软科学家张弋在中文播客节目《What’s Next|科技早知道》S7E11期中也提到:
那个版本的模型,比现在外面大家都可以拿得到的GPT-4还要更强,强非常非常多。
举例来说,微软团队在论文中提到,他们每隔相同一段时间就让GPT-4使用LaTeX中的TikZ画一个独角兽来追踪GPT-4能力的变化。
论文中展示的最后一个结果,画得已经相当完善。
但论文一作Sebastien Bubeck后续在MIT发表演讲时透露了更多信息。
后来当OpenAI开始关注安全问题的时候,后续版本在这个任务中变得越来越糟糕了。
与人类对齐但并不降低AI自身能力上限的训练方法,也成了现在很多团队的研究方向,但还在起步阶段。
除了专业研究团队之外,关心AI的网友们也在用自己的办法追踪着AI能力的变化。
有人每天让GPT-4画一次独角兽,并在网站上公开记录。
从4月12日开始,直到现在也还没看出来个独角兽的大致形态。
当然网站作者表示,自己让GPT-4使用SVG格式画图,与论文中的TikZ格式不一样也有影响。
并且4月画的与现在画的似乎只是一样差,也没看出来明显退步。
最后来问问大家,你是GPT-4用户么?最近几周有感到GPT-4能力下降么?欢迎在评论区聊聊。
Bubeck演讲:
https://www.youtube.com/watch?v=qbIk7-JPB2c
张弋访谈:
https://xyzfm.link/s/UfTan0
每天一个GPT-4独角兽
https://gpt-unicorn.adamkdean.co.uk
参考链接:
[1]https://news.ycombinator.com/item?id=36134249
[2]https://twitter.com/nabeelqu/status/1663915378265800705
[3]https://twitter.com/OfficialLoganK/status/1663934947931897857
[4]https://discord.com/channels/974519864045756446/1001151820170801244
[5]https://twitter.com/mattshumer_/status/1663744527448829954
[6]https://www.reddit.com/r/ChatGPT/comments/13xik2o/chat_gpt_4_turned_dumber_today/
[7]https://help.openai.com/en/articles/6825453-chatgpt-release-notes
[8]https://twitter.com/fchollet/status/1664036777416597505
[9]https://news.ycombinator.com/item?id=36155267
—完—
(举报)
标签:
-
2023-06-02 14:27:00
GPT-4变笨引爆舆论!文本代码质量都下降,OpenAI刚刚回应了降本减料质疑-世界即时看<
GPT-4变笨引爆舆论!文本代码质量都下降,OpenAI刚刚回应了降本减料质疑
-
2023-06-02 14:01:58
发生了什么?中国资产反攻,A50暴拉,中概股暴涨超4%!人民币反弹…<
美股三大指数周四集体收涨,纳指涨1 28%,标普500指数涨0 99%,道指涨0 47%。美联储哈克表示,美联储的
-
2023-06-02 13:42:37
兰州海关打造入境种子“安检快速通道”<
中国甘肃网6月2日讯据兰州晚报报道(通讯员刘晶刘长河记者李莉)外包装检查、外形查验、按比例抽样、送样…
-
2023-06-02 12:09:10
每日快报!《2023微博未成年人保护报告》发布<
报告显示,微博对于不满14周岁未成年人不开放账号注册环节,并在个人信息保护政策中针对未成年人部分进行显
-
2023-06-02 12:01:33
刺客的隐身衣:二战黑科技“声纳隐身技术”-天天最资讯<
老大们好!码字不易,赏个赞吧!今天给大家讲一下美国海军在二战期间秘密研制的声纳隐身技术。首先我们先来
-
2023-06-02 14:27:00
GPT-4变笨引爆舆论!文本代码质量都下降,OpenAI刚刚回应了降本减料质疑-世界即时看
GPT-4变笨引爆舆论!文本代码质量都下降,OpenAI刚刚回应了降本减料质疑
-
2023-06-02 14:16:56
七台河市:依托“十个一”活动载体 把学习成果转化为实际成效
台河市以“十个一”活动为载体,引导广大党员干部切实把学习成果转化为实际成效。以“学”为先走好思想理论
-
2023-06-02 14:01:58
发生了什么?中国资产反攻,A50暴拉,中概股暴涨超4%!人民币反弹…
美股三大指数周四集体收涨,纳指涨1 28%,标普500指数涨0 99%,道指涨0 47%。美联储哈克表示,美联储的
-
2023-06-02 13:50:26
商务部:1月至4月我国服务进出口额同比增长9.1%
商务部:1月至4月我国服务进出口额同比增长9 1%,商务部,密集型,进出口额,外资金额
-
2023-06-02 13:42:37
兰州海关打造入境种子“安检快速通道”
中国甘肃网6月2日讯据兰州晚报报道(通讯员刘晶刘长河记者李莉)外包装检查、外形查验、按比例抽样、送样…
-
2023-06-02 13:12:05
【每周经济观察】C919商飞迈出产业化第一步
C919大飞机的首次商飞具有里程碑意义,它标志着C919大飞机已经从“产品”变成了“商品”,中国也由此打通了
-
2023-06-02 12:09:10
每日快报!《2023微博未成年人保护报告》发布
报告显示,微博对于不满14周岁未成年人不开放账号注册环节,并在个人信息保护政策中针对未成年人部分进行显
-
2023-06-02 12:01:33
刺客的隐身衣:二战黑科技“声纳隐身技术”-天天最资讯
老大们好!码字不易,赏个赞吧!今天给大家讲一下美国海军在二战期间秘密研制的声纳隐身技术。首先我们先来
-
2023-06-02 11:45:13
【环球速看料】城乡居民医疗保险是不是医保?要交多少年?
城乡居民医疗保险属于医保的范围内,虽然城乡居民医疗保险的管理方式和参保条件与职工医疗保险不同,但它们
-
2023-06-02 11:30:58
战三夏 夺丰收丨安阳市小麦开镰!
战三夏夺丰收5月31日,在内黄县二安镇胡庄村,小麦联合收割机正在作业。(王文东摄)我市小麦开镰截至6月1
-
2023-06-02 10:40:49
【独家】石墨烯固态电池正式发布,中星电领跑未来能源,实现重大突破
近期中星电在广东东莞成功举办了「中星电固态石墨烯电池发布会」,宣布成为中国首家实现固态石墨烯电池
-
2023-06-02 10:45:24
世界要闻:2023年6月2日安徽省乙二醇乙醚醋酸酯价格最新行情预测
中国报告大厅2023年6月2日安徽省乙二醇乙醚醋酸酯价格最新走势监测显示:安徽铠天化工产品有限责任公司报价
-
2023-06-02 10:21:09
通辽市食药安办开展食品安全“两个责任”落实情况督查工作
为进一步压紧压实食品安全属地管理责任,督促企业主体责任落实,持续推动食品安全“两个责任”走深走实,5
-
2023-06-02 10:08:55
报告:中国7家房企前5月销售额超千亿元
中新社北京6月1日电(记者庞无忌)今年以来,中国房地产开发企业销售额小幅回升,但企业间分化加剧。中指研究
-
2023-06-02 09:13:36
重庆宠物店比较集中的地方(重庆哪里的宠物商店多) 天天时讯
想必现在有很多小伙伴对于重庆哪里的宠物商店多方面的知识都比较想要了解,那么今天小好小编就为大家收集了
-
2023-06-02 08:59:53
迪柯尼的“关店收缩”:营收净利润大降,销售费用率近两倍同行
递表深市主板近一年,广州迪柯尼服饰股份有限公司(以下简称,迪柯尼)日前更新了招股书。对于这家主打商务
-
2023-06-02 08:29:07
原油收盘:美油周四上涨 美参议院通过法案 推翻学生贷款减免计划|当前滚动
基本消息面北京时间2日凌晨,美国WTI原油期货周四上涨,并于近一周来首次回升至每桶70美元以上。CCarktUK首
-
2023-06-02 08:32:31
千年玉兰王“藏身”秦岭深处|全球今热点
千年玉兰王古树名木兼具自然生态与历史文化双重价值,是经历千百年岁月洗礼的“绿色钻石”。作为拥有悠久历
-
2023-06-02 07:42:52
全球速读:腾讯公司利用微信产品切入即时通讯业务的目的(微信 腾讯公司的通讯服务应用程序)
当前大家对于微信腾讯公司的通讯服务应用程序都是颇为感兴趣的,大家都想要了解一下微信腾讯公司的通讯服务
-
2023-06-02 07:48:54
世界观速讯丨37度4发烧该怎么处理(37度4)
来为大家解答以上问题。37度4发烧该怎么处理,37度4这个很多人还不知道,现在让我们一起来看看吧!1、我老师
-
2023-06-02 06:53:39
芝加哥农产品期价1日涨跌不一 世界实时
芝加哥农产品期价1日涨跌不一---芝加哥期货交易所玉米、小麦和大豆期价1日涨跌不一。
-
2023-06-02 06:59:12
45家房企都来抢的一宗地,被北京土拍新面孔福建雄旺摇中,它是谁?
6月1日,北京土拍成交4宗地块,2宗位于顺义新街区、1宗位于石景山衙门口、1宗在经开区,共计成交95 2亿元,
-
2023-06-02 06:03:24
最新版小学生造句大全_对于最新版小学生造句大全简单介绍
1、《最新版小学生造句大全》是1999年3月由湖南教育出版社出版的图书。2、本书内容的造句尽可能简于解释而
-
2023-06-02 05:47:29
瑞丽市边城街属于哪个区_瑞丽市属于什么市-天天资讯
1、瑞丽市隶属于德宏傣族景颇族自治州,自治州的行政级别相当于地级市;瑞丽市是自治州所辖的县级市,是一个
-
2023-06-02 05:15:57
全球新动态:那位感动全网的父亲,终于带儿子坐上了复兴号
那位感动全网的父亲,终于带儿子坐上了复兴号---为了孩子,他自己造火车。航航的父亲李家伟是一名电工,看
-
2023-06-02 05:02:41
董刘马陈董吕传_关于董刘马陈董吕传的简介|天天日报
音频解说1、《董刘马陈董吕传》是西晋时史学家陈寿创作的一篇传。本文关于董刘马陈董吕传的简介就讲解完毕
-
2023-06-02 04:17:25
韩国最高法:韩日慰安妇谈判文件保密为妥-看点
据韩联社,韩国大法院(最高法院)6月1日裁定韩国和日本政府2015年签署的《韩日慰安妇问题协议》有关谈判文
-
2023-06-02 04:29:19
电脑电池充不进电一直显示0_电脑电池充不进电
1、有一个方法可以一试,用餐巾纸把电池包起来,注意多包几层。2、然后用透明绞布再在外面粘好,注意要用绞
-
2023-06-02 03:35:08
smart精灵#3售20.99-28.99万!轿跑车身 3.6s破百
6月1日,smart精灵 3正式上市,官方售价区间为20 99万元-28 99万元。smart精灵 3沿用了家族式设计语言,采
-
2023-06-02 03:19:42
安徽皖通高速公路(00995.HK):6月1日南向资金减持11.8万股-环球今日报
6月1日北向资金减持11 8万股安徽皖通高速公路(00995 HK)。近5个交易日中,获南向资金增持的有2天,累计净
-
特写:风吹稻香忆袁老——袁隆平逝世一周年的墓前追思
2022-05-23 16:13:29 -
北京5月21日区域核酸筛查初筛10管混采阳性
2022-05-23 16:13:29 -
北京两地由高风险降为中风险 一地降为低风险地区
2022-05-23 16:13:29 -
5月21日15时至22日15时,北京新增本土新冠肺炎病毒感染者94例
2022-05-23 16:13:29 -
108岁病人顺利出院,瑞金医院卢湾分院已收治10位百岁老人
2022-05-23 16:13:29 -
生态花园助力乡村振兴 重庆小山村展现“乡土美学”
2022-05-23 16:13:29 -
上海金山政务服务场所逐步恢复服务
2022-05-23 16:13:29