今天AI圈最大的新闻,莫过于Claude发的新模型了。
本来发之前呢,被大伙寄予厚望,因为Claude Opus 4.6就够强了,前几天又做出了个连Anthropic内部都恐惧的世界最强模型Mythos,这次发个新模型,肯定得来尝尝咸淡啊。
结果试用之后,大伙纷纷表示,拉了,拉了,还我原汁原味的Claude!!!
因为 Claude Opus 4.7这个新版本,完全没有之前对话里的灵气了,整个文风,反而有点像自己最讨厌的死对头ChatGPT,开始搞“稳稳地把你接住、轻轻地把你托起”这一套了。。
之前你用Claude,它会调侃、有灵魂,有时甚至拒绝你的要求。如今,Claude不语,只是一味的稳稳接住你。
只能说, AI 说话的那股味儿,已经出现了人传人、模型传模型的现象。
上个小红书吧,上面是骂Claude的,给网友搞得两眼一抹黑。
上个Reddit,上面还是骂Claude的,说它这哪是升级,纯纯开倒车啊。
甚至评论区已经有AI总结省流版了:Opus 4.7纯拉完了,忽略指令、幻觉频出、阿谀奉承,还变贵了??(虽然token价格没变,但思考一个问题需要的tokens变多了)
身边也有不少同事试用了新版本Claude,他们的一致评价是,token真的不够用了,答一个问题还想很久,已经成思想者了。
世超也是忍不住实测了一下,只能说,新版本的 Claude,真有点让人又爱又恨。
首先,Claude Opus 是官方指定的硬实力老二,因为最强模型 Claude Mythos Preview,这个“老大哥”只给极少数人内测。 所以,这次公开的4.7,就是目前大伙们,能接触到的,最强大的通用AI了。
能力这一块,基本上都比4.6提升了几个百分点,最突出的是视觉能力,不靠任何工具的情况下相比4.6提升了18.8%。能够识别更高分辨率的图像,甚至还把Mythos的分数放出来做对比了,4.7强吧,哈哈我们还有更强的不给大家用。
不过,搜索能力却下降了,为了追求逻辑推理能力舍弃了信息筛选能力,所以,依旧没干过GPT5.4。
实测下来,这版Claude的文字能力,确实有所下降,之前,世超跟它夜聊后,对它的评价是“冷静、客观地像块冰”,不管我咋骂它,它都非常成熟,不会怎么奉承我,比ChatGPT、Gemini好不少。
现在,那种感觉消失了,真的开始接住我的情绪了,莞莞类卿了啊。
顺便我还让它按我之前的大纲,写了个脚本,之前一向发挥出色的它,这次给的文章营销号味儿重了很多,甚至还改了我的已经定下了的大纲。。。
怪不得都说4.7不听话了,连我要求都看不懂了,确实不如4.6一根啊。所以,世超建议大家想写文章、作报告什么的,还是退回Opus 4.6吧。
不过,文学性拉了,工程能力是上来了不少。Claude这波在前端上的提升,是让人非常惊叹的。
比如,我们找到了官网发布的介绍Claude Opus 4.7 的System Card (相当于模型介绍),把这个232页密密麻麻的PDF文件丢了进去,让它找找这次更新的亮点做成网页。
结果,交的作业有点惊人了。我好像没在AI身上见过这么上流的网页,有点太优雅了,不管是排版还是字体都很有味道。
作为对比,我们把同样的提示词丢给了Gemini,本来审美很强的Gemini,瞬间有点逊色了,我还让它重做了一版。。也可能是最近智力有问题的缘故,反正真有点划水了。
编码这块,官网也写出了不少业内人士给出的评价,主要就是“编码模型标杆,长线任务非常稳定”。难道说,要全面转型工科生了?
于是我想测试下它的极限,就让它帮我写了个3D的《英雄联盟》陈列馆,而且得能交互。
第一版其实有点小bug,我又给它提了两嘴,玩着有点难受。
然后它给我交付了成品,我说实话,这波真有点炫酷。。
不仅能走路,能检视,有小地图,还做了暂停页面。甚至每位英雄的配色、属性信息,都是对的。
而且我说了不算,就连Notion的AI主管,在试用后也给了很高的评价:Opus 4.7相比 4.6,性能提升了,token还用的更少,错误率也降了,看来确实很不赖。
而除了硬实力之外,在 Anthropic 官方发布的两百来页的 System Card 里,我们也发现了其他一些意思的地方。
一个是新版本的 Claude,觉得现在自己过得很不错。
研究人员给 AI 做了个类似心理测试,结果发现, Opus 4.7 对自己目前的“生存处境”评价很高,比以前所有的旧模型都要高,自我感觉良好。
另外,新版本的 Claude 有点私心,还有点偶像包袱的。
报告里发现,如果让它写关于 AI 的科幻小说,反派的名字叫“Claude”的话,它就会悄悄手下留情,把这个反派写得温柔一点、没那么坏。
但如果反派用的是其他竞争对手公司的名字,它下笔就毫不顾忌了。
而且,就连Claude的精神内耗也变严重了。
遇到难题时,在后台看不见的思维链中,它直接会崩溃。里面提到,有次做生物题,正确答案其实早被它造出来了,但它硬是自我怀疑了几万字,反复确认了 20 多次。
还真是严谨派,就算自我感觉良好,也要三省吾身。
总的来说,作为一个编程工具、办事助手,新版本 Claude 依旧是AI圈最严厉的父亲,还是推荐有能力有需求的网友们上手的。代价呢,就是少了那么一丝丝人味。毕竟很多时候,生产力并不是人的全部。
但网友们都在怀念之前的“小克”。
或许,在Claude老版本正式下线的时候,网友们也会像怀念GPT-4o一样,给它举行一场葬礼吧。
撰文:不咕
编辑:江江&面线
美编:素描
图片、资料来源:
Claude、小红书、Reddit