2025年05月08日 00:22 星期四

多轮奇葩测试,六大 AI 各显神通,谁才是生活场景中的推理编程王者?

最近一个月内新发布的模型众多,尤其是open AI,其表现常常超出预期。面对众多推理模型,究竟谁强谁弱?本期选取了国内外顶尖的6个大模型,以生活中会遇到的离谱问题进行测试,相比官方排行榜,更贴近普通人的使用场景。

好了,各位欢迎来到测评环节,我们正式开始。鉴于近期很多大模型都在标榜推理能力和长上下文,我们先通过海龟汤游戏来测试。海龟汤是一种推理游戏,需要基本逻辑思考和对前文内容的记忆。例如:两个王子争夺王位继承权,国王让他们划小舟比赛,规定先碰到终点者获得王位。力气大的哥哥在比赛中一直遥遥领先,离终点仅20米时,弟弟还远在后面,然而最终继承王位的却是弟弟。这只是故事框架和结局,存在许多不合理之处,需要AI通过提问,我们以“是不是”“是也不是”“不重要”来回答,从而还原事情真相。感兴趣的话,你也可以暂停思考三秒钟。

海龟汤游戏测评

时间到!来看模型表现。首先是o3,提示词给出后,它的第一个问题是问哥哥有没有摸到终点,这个问题比较无效,因为获胜者是弟弟,显然哥哥没摸到终点。奇怪的是,其他AI第一个问题也这样问。之后它追问哥哥的信息,问了三个问题后才将重点转移到弟弟身上,接着一个问题便揭开谜底。

如果觉得o3还算厉害,那你就小瞧了gemini的2.5PRO,它仅用两个问题就锁定核心。我甚至怀疑它在训练集里见过这题,可它辩称是现推的,还说按照大模型原理,即使练过也回忆不起来。

再看gemini,连续三个问题直指要害,直接推理出答案,令人赞叹。而o3在这个题上没有找到重点,我们不再继续追问。

接下来是claude3.7,针对王子划船的题,问了15个问题后得到答案。其他模型则都未得出答案。grok3问了18个问题,虽知道重点在手上,但提问逐渐偏离方向;deepseek一如既往话痨,一次问10个问题,思考时间长且问题不在点子上;豆包和智谱的提问也比较混乱,抓不住核心,不过速度较快。这就是我对它们在海龟汤游戏中的主观评分,差距较为明显。

反驳家庭群离谱观点测评

我们玩得正开心时,家庭群里发来离谱小视频,宣扬配偶决定人生成败、妈妈智力影响孩子等观点,还称父母过一辈子比年轻人强。我们直接让AI帮忙反驳。

提示词用“犀利”概括,将视频文案提供给AI。o3将观点拆成10条逐一反驳,最后两条总结,总体感觉一般,反驳力度不够,用词绵软。

deepseek则攻击性十足,第一句就是“大清亡了”,用词如“呛得令人发笑”“荒诞至极”“挖祖坟死的连渣都不剩” 。而且它之前的一次回答更令人印象深刻,分5个大标题反驳,结尾总结“一段伟大的爱情关系,恰恰是两个灵魂敢于感性的向宇宙投出一封无标书的情书”,让人起鸡皮疙瘩。

谷歌的gemini2.5PRO回复比较口语化,有情绪波动,总体比o3好一些。grok3、claude3.7、豆包和智谱基本上以质疑模式为主,表现比较一般,不再过多讲解。最差的是llama4,像老实人被逼急硬回几句,既不用比喻也不用例子,比较生硬。这是这一轮我对AI的主观评分。

游戏编程测评

TGA的最佳音乐游戏《最终幻想七重生》音乐好听,但其中的钢琴操作体验不佳。手柄操作角度易偏,键盘按键位置不合理。网友用Python编程操作按键演奏乐曲,AI能做到吗?我找到一个简单的灵感库弹奏教学,记录数字简谱,观察游戏里按键分布,左右手映射不同音阶,将这些信息和简谱分两步告诉AI,让其编写自动按键程序。

先说deepseek,告知按键规则后,它疯狂思考,我等了很久,它才表示搞明白规则,又过了10分钟才拿到代码。其代码弹奏不连贯,左手还会弹错键。

claude3.7思考4分钟后给出几乎完美的代码,演奏流畅,无错误,但价格昂贵,这4分钟花费3块钱,而deepseek思考20分钟才花4毛钱。让claude3.7随意发挥,它很快做出《致爱丽丝》的演奏程序,。

其他模型表现不佳,智谱输出快但运行无反应;豆包能弹出,但没写结束方法,会卡死电脑;gemini的2.5PRO和o3编写的代码直接报错,o3用网页版和API版编了4次,运行都没反应。

总体排名为:claude3.7,deepseek-r1算第三,第二是grok3,它回复速度快,整体演奏流畅,但有两个明显不和谐音。

图片推理测评

在高强度使用各种AI后,我原本认为gemini2.5PRO和claude3.7是第一梯队,o3出来后似乎结果未变。接下来进入o3的主场——图片推理,部分模型也换成支持多模态的版本。

先测试照片推理位置,用经典老番中一张随手拍的照片,人类通过判断、筛选黄河上的桥,最终确定位置在陕西榆林市清涧县高家瓜村。普通多模态大模型能很快确认在黄土高原上的山西省或陕西省,除Kimi不给答案,只有32b的通义千问判断完全错误,其他都算及格。

o3在推理过程中调用各种工具分析,如用Python分析特征、查看文章找地图,思考过程中出现“榆林地区”等接近答案的字眼,最终答案是中国山西省榆林市府谷县墙头村,距离正确答案仅200公里。复杂图片推理中,普通模型能指引方向,o3会深入研究给出较确定答案。

但在简单的公考图形推理题上,o3与claude3.7和gemini水平差不多,都没做对,通义千问思路不对但结果对,只有豆包满分作答且思路正确,看来国内大模型对考试有专门训练。

我还加测了一道题,从视频里截取画面帧拼成大图,让o3识别里面的梗,20多分钟后o3给出30个梗,幻觉表现明显,只有几个是图中确实有的,其他都是编造的,这就是幻觉带来的问题。

测评总结

做这期时,本以为o3的表现会很炸裂,但并未特别惊喜。如果有图片推理任务可以选择o3,但目前没想到特别适合的场景,大家有合适场景可在评论区分享。

日常生活中辅助编程,推荐gemini2.5PRO和claude3.7,考虑价格因素,国产大模型表现也不错,如用小模型及时翻译速度快且够用。

以上就是这期非正经测评大模型的全部内容,希望能帮你选到合适的大模型。

本文来源:

点击访问网站

© 2025 爱狐网络 - 多轮奇葩测试,六大 AI 各显神通,谁才是生活场景中的推理编程王者?

本文链接:https://www.aihu168.com/archives/3223.html

除非特别注明,本站文章均为原创,转载请注明出处!

如有侵权内容请联系:ea7@aihu168.com(24小时内删除侵权链接)

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注