多轮奇葩测试，六大 AI 各显神通，谁才是生活场景中的推理编程王者？

最近一个月内新发布的模型众多，尤其是open AI，其表现常常超出预期。面对众多推理模型，究竟谁强谁弱？本期选取了国内外顶尖的6个大模型，以生活中会遇到的离谱问题进行测试，相比官方排行榜，更贴近普通人的使用场景。

好了，各位欢迎来到测评环节，我们正式开始。鉴于近期很多大模型都在标榜推理能力和长上下文，我们先通过海龟汤游戏来测试。海龟汤是一种推理游戏，需要基本逻辑思考和对前文内容的记忆。例如：两个王子争夺王位继承权，国王让他们划小舟比赛，规定先碰到终点者获得王位。力气大的哥哥在比赛中一直遥遥领先，离终点仅20米时，弟弟还远在后面，然而最终继承王位的却是弟弟。这只是故事框架和结局，存在许多不合理之处，需要AI通过提问，我们以“是不是”“是也不是”“不重要”来回答，从而还原事情真相。感兴趣的话，你也可以暂停思考三秒钟。

海龟汤游戏测评

时间到！来看模型表现。首先是o3，提示词给出后，它的第一个问题是问哥哥有没有摸到终点，这个问题比较无效，因为获胜者是弟弟，显然哥哥没摸到终点。奇怪的是，其他AI第一个问题也这样问。之后它追问哥哥的信息，问了三个问题后才将重点转移到弟弟身上，接着一个问题便揭开谜底。

如果觉得o3还算厉害，那你就小瞧了gemini的2.5PRO，它仅用两个问题就锁定核心。我甚至怀疑它在训练集里见过这题，可它辩称是现推的，还说按照大模型原理，即使练过也回忆不起来。

再看gemini，连续三个问题直指要害，直接推理出答案，令人赞叹。而o3在这个题上没有找到重点，我们不再继续追问。

接下来是claude3.7，针对王子划船的题，问了15个问题后得到答案。其他模型则都未得出答案。grok3问了18个问题，虽知道重点在手上，但提问逐渐偏离方向；deepseek一如既往话痨，一次问10个问题，思考时间长且问题不在点子上；豆包和智谱的提问也比较混乱，抓不住核心，不过速度较快。这就是我对它们在海龟汤游戏中的主观评分，差距较为明显。

反驳家庭群离谱观点测评

我们玩得正开心时，家庭群里发来离谱小视频，宣扬配偶决定人生成败、妈妈智力影响孩子等观点，还称父母过一辈子比年轻人强。我们直接让AI帮忙反驳。

提示词用“犀利”概括，将视频文案提供给AI。o3将观点拆成10条逐一反驳，最后两条总结，总体感觉一般，反驳力度不够，用词绵软。

deepseek则攻击性十足，第一句就是“大清亡了”，用词如“呛得令人发笑”“荒诞至极”“挖祖坟死的连渣都不剩” 。而且它之前的一次回答更令人印象深刻，分5个大标题反驳，结尾总结“一段伟大的爱情关系，恰恰是两个灵魂敢于感性的向宇宙投出一封无标书的情书”，让人起鸡皮疙瘩。

谷歌的gemini2.5PRO回复比较口语化，有情绪波动，总体比o3好一些。grok3、claude3.7、豆包和智谱基本上以质疑模式为主，表现比较一般，不再过多讲解。最差的是llama4，像老实人被逼急硬回几句，既不用比喻也不用例子，比较生硬。这是这一轮我对AI的主观评分。

游戏编程测评

TGA的最佳音乐游戏《最终幻想七重生》音乐好听，但其中的钢琴操作体验不佳。手柄操作角度易偏，键盘按键位置不合理。网友用Python编程操作按键演奏乐曲，AI能做到吗？我找到一个简单的灵感库弹奏教学，记录数字简谱，观察游戏里按键分布，左右手映射不同音阶，将这些信息和简谱分两步告诉AI，让其编写自动按键程序。

先说deepseek，告知按键规则后，它疯狂思考，我等了很久，它才表示搞明白规则，又过了10分钟才拿到代码。其代码弹奏不连贯，左手还会弹错键。

claude3.7思考4分钟后给出几乎完美的代码，演奏流畅，无错误，但价格昂贵，这4分钟花费3块钱，而deepseek思考20分钟才花4毛钱。让claude3.7随意发挥，它很快做出《致爱丽丝》的演奏程序，。

其他模型表现不佳，智谱输出快但运行无反应；豆包能弹出，但没写结束方法，会卡死电脑；gemini的2.5PRO和o3编写的代码直接报错，o3用网页版和API版编了4次，运行都没反应。

总体排名为：claude3.7，deepseek-r1算第三，第二是grok3，它回复速度快，整体演奏流畅，但有两个明显不和谐音。

图片推理测评

在高强度使用各种AI后，我原本认为gemini2.5PRO和claude3.7是第一梯队，o3出来后似乎结果未变。接下来进入o3的主场——图片推理，部分模型也换成支持多模态的版本。

先测试照片推理位置，用经典老番中一张随手拍的照片，人类通过判断、筛选黄河上的桥，最终确定位置在陕西榆林市清涧县高家瓜村。普通多模态大模型能很快确认在黄土高原上的山西省或陕西省，除Kimi不给答案，只有32b的通义千问判断完全错误，其他都算及格。

o3在推理过程中调用各种工具分析，如用Python分析特征、查看文章找地图，思考过程中出现“榆林地区”等接近答案的字眼，最终答案是中国山西省榆林市府谷县墙头村，距离正确答案仅200公里。复杂图片推理中，普通模型能指引方向，o3会深入研究给出较确定答案。

但在简单的公考图形推理题上，o3与claude3.7和gemini水平差不多，都没做对，通义千问思路不对但结果对，只有豆包满分作答且思路正确，看来国内大模型对考试有专门训练。

我还加测了一道题，从视频里截取画面帧拼成大图，让o3识别里面的梗，20多分钟后o3给出30个梗，幻觉表现明显，只有几个是图中确实有的，其他都是编造的，这就是幻觉带来的问题。

测评总结

做这期时，本以为o3的表现会很炸裂，但并未特别惊喜。如果有图片推理任务可以选择o3，但目前没想到特别适合的场景，大家有合适场景可在评论区分享。

日常生活中辅助编程，推荐gemini2.5PRO和claude3.7，考虑价格因素，国产大模型表现也不错，如用小模型及时翻译速度快且够用。

以上就是这期非正经测评大模型的全部内容，希望能帮你选到合适的大模型。

本文来源：

点击访问网站

多轮奇葩测试，六大 AI 各显神通，谁才是生活场景中的推理编程王者？

海龟汤游戏测评

反驳家庭群离谱观点测评

游戏编程测评

图片推理测评

测评总结

发表回复取消回复

最新文章

随机文章

标签

多轮奇葩测试，六大 AI 各显神通，谁才是生活场景中的推理编程王者？

海龟汤游戏测评

反驳家庭群离谱观点测评

游戏编程测评

图片推理测评

测评总结

相关文章：

发表回复 取消回复

最新文章

随机文章

标签

发表回复取消回复