阿里最新发布的QVQ-Max视觉推理模型,让AI看手相成为现实。它能对上传的图像或视频进行深度思考,提供有趣的手相分析,展示了AI在图像理解和推理方面的强大能力。
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
阿里又推出了一款引人瞩目的大模型——QVQ-Max,这个首个版本的视觉推理模型,能够对任何输入的图像或视频进行深度思考。它的出现,无疑为AI的应用场景打开了新的大门。
不妨来体验一下它的趣味功能:上传一张你的手掌照片,点击“Thinking”按钮,QVQ-Max就能立刻为你解读手相,预测你的运势。这并非简单的图像识别,而是AI基于对手部线条、纹理等特征的综合分析,结合手相学的知识,给出的个性化解读。
可以看到,经过深度思考,QVQ-Max能够逐步分析手掌上的各项特征,对心线、头线、生命线等主要线条进行解读,甚至还能识别出你佩戴的金戒指,并分析其象征意义。这不仅仅是一个娱乐功能,更体现了AI在图像理解和知识融合方面的潜力。
当然,QVQ-Max的强大之处远不止于此。如果你一次性给它“喂”入多张图片,它还能进行更深层次的思考。例如,它可以分析多张图片之间的关联性,理解图片所描绘的场景,甚至能够识别出不同季节的西湖风景。
QVQ-Max准确地识别出两张图都是西湖的风景,并判断出它们分别拍摄于春夏和冬季,展现了其强大的图像识别和推理能力。
更令人惊叹的是,QVQ-Max还能进行数学推理。只需给它一张包含数学题的图片,它就能自动识别题目中的数字和符号,并最终给出正确的答案。即使是手绘的简笔画视频,QVQ-Max也能轻松应对,将视觉内容与文字结合,为视频中的镜头创建生动有趣的字幕。这种能力对于教育、娱乐等领域都具有巨大的应用潜力。
在识别出数字之间的规律后,QVQ-Max给出了正确答案:10。这表明,它不仅能够识别图像中的信息,还能进行逻辑推理。
QVQ-Max在理解视频内容方面也表现出色,能够将视觉信息与文字描述相结合,生成生动有趣的字幕。
为了验证QVQ-Max的实力,我们进行了一番实测。首先,我们测试了它解答数学题的能力。QVQ-Max不仅精准识别出了手写题目,还给出了正确答案。接下来,我们上传了一张星盘图片,QVQ-Max对星盘进行了比较全面的介绍。最后,我们测试了视频推理能力,QVQ-Max给出了对视频内容的合理理解。
QVQ-Max在深度思考后,能够准确识别手写题目并给出正确答案:2。
QVQ-Max能够比较全面地介绍星盘,展现了其知识储备和理解能力。
即使刨去背景音,QVQ-Max依然能够对抽象的视频内容进行理解,并给出合理的解释。
QVQ-Max的背后,是强大的技术支持。通过调整模型thinking的最大长度,模型在MathVision等benchmark上的准确率也会持续提升。这表明,QVQ-Max具有强大的学习和推理能力。
QVQ-Max的三大能力特点包括:强大的图片解析能力、深入的信息分析能力和有趣的创作能力。它不仅能识别图片中的关键元素,还能分析这些信息,并结合背景知识得出结论。此外,QVQ-Max还能根据用户需求进行创作,例如设计插画、生成短视频脚本等。例如,上传一幅草稿,它可能会帮你完善成一幅完整的作品;上传一个日常照片,它可以化身评论家,进行解读。
最重要的是,QVQ-Max是免费可用的。感兴趣的朋友可以通过以下链接进行体验:https://chat.qwen.ai
总结
阿里QVQ-Max大模型的推出,为我们展示了AI在图像和视频理解领域的巨大潜力。无论是趣味的手相分析,还是复杂的数学推理,QVQ-Max都表现出了强大的能力。它的免费开放,无疑将推动AI技术的普及和应用,为我们的生活带来更多便利和乐趣。