当前位置：77分类目录 » 站长资讯 » 资讯文章 » 站长新闻 » 文章详细

大模型集体失智！9.11和9.9哪个大，几乎全翻车了(大模型集体失智怎么办)

来源：网络　浏览：62次　时间：2024-07-16

没眼看……“9.11和9.9哪个大”这样简单的问题，居然把主流大模型都难倒了??

强如GPT-4o，都坚定地认为9.11更大。

谷歌Gemini Advanced付费版，同样的口径。

新王Claude3.5Sonnet，还一本正经的给出离谱的计算方法。

到这一步还是对的，但下一步突然就不讲道理了

这你还解释啥啊解释，简直要怀疑是全世界AI联合起来欺骗人类了。

艾伦AI研究所成员林禹臣换了个数字测试，GPT-4o依旧翻车，他表示:

也有网友发现了华点，如果是说软件版本号，那么9.11版本确实比9.9版本更大（更新）。

而AI都是软件工程师开发的，所以……

那么，究竟是怎么回事?

先进大模型集体翻车

一觉醒来，一众响当当的大模型开始认为“9.11>9.9”了?

发现这个问题的是Riley Goodside，有史以来第一个全职提示词工程师。

简单介绍下，他目前是硅谷独角兽Scale AI的高级提示工程师，也是大模型提示应用方面的专家。

最近他在使用GPT-4o时偶然发现，当提问:

GPT-4o竟毫不犹豫回答前者更大。

面对这一常识性“错误”，他不死心地又去问了其他大模型，结果几乎全军覆没。

好家伙，身为一名提示工程师，他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法，将提问限定在“实数”，结果还是翻车了。

不过，有网友试着给提问换了个顺序，没想到这下AI竟反应过来了。

看到AI对词序如此“敏感”，该网友进一步推测:

看到这里，其他网友也纷纷拿相同提示试了一把，结果翻车的不在少数。

面对这一个诡异的问题，国产大模型表现如何呢?

我们简单测试一番，问题也换成中文提问，结果翻车率也比较高，选取几个有代表性的展示:

Kimi也是不加解释就直接给出错误结论。

智谱清言APP上的ChatGLM，自动触发了联网查询，然后描述了自己的比较方法，可惜却执行错了。

不过也有表现不错的，腾讯元宝先复述了一遍选项，然后直接做对。

字节豆包是少数能把比较方法描述清楚，而且用对的。甚至还联系实际举例来验证。

比较可惜的是文心一言，面对这个问题，也是触发了联网查询。

本来都已经做对了，但突然话锋一转又导向了错误结论。

不过从文心一言的思路解释上，也可以看出背后问题所在。

由于大模型以token的方式来理解文字，当9.11被拆成“9”、“小数点”和“11”三部分时，11确实比9大。

由于OpenAI使用的Tokenizer开源，可以用来观察大模型是如何理解这个问题。

上图可以看出，9和小数点分别被分配为“24”和“13”，小数点后的9同样也是“24”，而11被分配到“994”。

所以使用这种tokenizer方法的大模型会认为9.11更大，其实是认为11大于9。

也有网友指出，像是书籍目录里第9.11节也比第9.9节大，所以最终可能还是训练数据里见这种见得多了，而手把手教基础算数的数据很少。

也就是问题本身对人类来说，一看就知道问的是算数问题，但对AI来说是一个模糊的问题，并不清楚这两个数字代表什么。

只要向AI解释明白这是一个双精度浮点数，就可以做对了。

在有额外条件的情况下，tokenizer这一步依然会给11分配更大的token。但是在后续自注意力机制的作用下，AI就会明白要把9.11连起来处理了。

后来Goodside也补充，并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时，许多领先模型都会告诉你9.11>9.9，这很奇怪。

经过反复尝试后他发现，想让AI上这个当，需要把选项放在提问前面，如果调换顺序就不会出错。

但是只要选项在问题前面，改变提问的方式，如加标点、换词汇都不会有影响。

虽然问题很简单，错误很基础。

但了解出错原理之后，许多人都把这个问题当成了检验提示词技巧的试金石，也就是:用什么提问方法能引导大模型的注意力机制正确理解问题呢?

首先，大名鼎鼎的Zero-shot CoT思维链，也就是“一步一步地想”，是可以做对的。

不过角色扮演提示，在这里作用就有限了。

刚好最近也有微软和OpenAI都参与的一项研究，分析了1500多份论文后发现，随着大模型技术的进步，角色扮演提示不像一开始那样有用了……

具体来说，同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。

也是让人哭笑不得了。

One More Thing

与此同时，路透社的OpenAI秘密模型「草莓」泄漏消息更新了。

更新内容为:另一位线人报告，OpenAI已经在内部测试了新模型，在MATH数据集上得分超过90%。路透社无法确定这是否与“草莓”是同一个项目。

MATH数据集包含竞赛级别的数学题，目前不用多次采样等额外方法，最高分是谷歌Gemini1.5Pro数学强化版的80.6%。

但是OpenAI新模型在没有额外提示情况下，能不能自主解决“9.11和9.9哪个大?”。

突然没信心了，还是等能试玩了再看结果吧……

参考链接:

[1]https://x.com/goodside/status/1812977352085020680

[2]https://x.com/billyuchenlin/status/1812948314360541302

[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

[4]https://tiktokenizer.vercel.app

[5]https://x.com/learnprompting/status/1812867464419852765

—完—

推荐站点

77分类目录
77分类目录(www.77dir.com)中国优质分类目录平台,为您提供免费分类目录提交,网站目录提交入口,中文网址目录收录,网址大全,网站大全,网站外链推广,软文发布等服务,为您分享优质正规的中文网站！
www.77dir.com
YY分类目录
YY分类目录全人工编辑的开放式网站分类目录，收录国内外、各行业优秀网站，旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。
www.yydir.com
名人百科网
名人百科网(mrenbaike.net)--为大家提供各行各业的名人资料、资讯、图片等,致力于打造国内专业的名人百科平台！
www.mrenbaike.net
菜鸟教程
菜鸟教程提供了基础编程技术教程。菜鸟教程的 Slogan 为：学的不仅是技术，更是梦想！记住：再牛逼的梦想也抵不住傻逼似的坚持！本站域名为 runoob.com, runoob 为 Running Noob 的缩写，意为：奔跑吧！菜鸟。本站包括了HTML、CSS、Javascript、PHP、C、Python等各种基础编程教程。同时本站中也提供了大量的在线实例，通过实例，您可以更好地学习如何建站。本站致力于推广各种编程语言技.
www.runoob.com
中国社会公益网
陕西省社会公益基金会是经陕西省民政厅批准的公募基金会，下设秘书处、公益项目部、筹款募捐部、宣传策划部、社会活动部、专项基金部、资金管理部、公关联络部、青年志愿者工作委员会、青年志愿者爱心乐团等部门机构
www.cpf.net.cn
CNMO科技新媒体
CNMO=Connect More,致力于通过内容成为人与科技、人与产品、人与品牌、人与服务对接的桥梁,让产业、产品的价值与服务得到专业且有趣的解读和适配,引领用户畅享科技带来的美好生活!
www.cnmo.com
国外主机测评
国外主机测评，国外VPS、云服务器，国外服务器，国外主机的相关优惠信息、商家背景、网络带宽、线路走法、售前和售后技术支持等，是目前最好的一家国外主机评测平台。
www.zhujiceping.com
赵容部落
赵容部落，一个收集国内，国外便宜主机，VPS，云服务器，独立服务器优惠促销信息，提供VPS新手教程，VPS评测，VPS代购代付服务的博客。
www.zrblog.net
老左博客
老左博客，致力于美国VPS，美国主机评测、推荐；分享便宜VPS，美国主机优惠码，Godaddy优惠码，NameCheap等域名优惠码的IT博客，博主老左(LaoZuo.ORG)。
www.laozuo.org