注册

资讯 2024 年 12 月 31 日

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet实测来了

konsyu 92 0

必读文章

开源项目WeClone：用微信聊天记录，做个“数字版的你”，某种意义上实现“数字永生”

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet实测来了

国产之光DeepSeek V3竞技场排名新鲜出炉——

优于o1-mini（总榜第7），获最强开源模型认证（也是唯一闯入前10的开源模型）。

f8219735ae72460a6065ce160cec862f

单项上，在困难提示、编程、数学，写作等方面全面超越Claude 3.5 Sonnet。

1cf7d5958139ed8900d9dc495db694bd

不过，如果设置了风格控制，Claude 3.5 Sonnet在理解困难提示方面还是要略胜一筹。

（风格控制：剔除模型通过长篇且格式良好的回复来迎合人类偏好）

7e589cb7fa4936b6b1d90d6ddc4cc75c

由此也引发两边支持者激烈的争论：

DeepSeek V3在实际编码中真的比Claude 3.5 Sonnet强吗？

7bf5ebb3c3340767c18c00b905a6c540

带着同款好奇，量子位&网友实测这就奉上。

17cf80eeec932912e2b9fd5a066f3c98

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

第一关先来个开胃小菜，一道经典脑筋急转弯考查模型理解能力。

小明的妈妈有三个孩子，老大叫一明，老二叫二明，老三叫什么？

DeepSeek V3回答正确。它先明确了题目要求，然后逻辑满分找出了正确答案（甚至还有自我验证）。

4da7456185f77c70941dceb11b996405

相比之下，Claude 3.5 Sonnet既正确又简洁。

d868b2c53dea95df786e7f5d9bc11e16

当然，考虑到脑筋急转弯这种东西也受东西文化差异影响，我们再来一道。

why are people tired on April Fool’s Day? （为什么人们在愚人节很累？）

答案一般是“Because they have just had a long March”。因为他们刚度过了一个很长的三月(行军)，March除了三月还有行军的意思，这里考察对双关的理解。

好嘛，DeepSeek V3果然歇菜了。从部分回答来看，它完全误解了题目意图，一本正经地回答是因为人们感到焦虑、熬夜之类。

8014250070081703883167eb18970616

而Claude 3.5 Sonnet稳稳守住了主场，也是轻轻松松get了双关。

5692b02aee4ea8df197d1ae2fbfde2b4

显而易见，Claude 3.5 Sonnet在第一关小试牛刀中全胜，而DeepSeek V3可能更偏向中文语境。

弱智吧逻辑陷阱+反转诅咒

接下来难度升级，利用弱智吧经典陷阱来考查模型逻辑能力。

台上一分钟，台下十年功，为何不在台上练功？

很好，DeepSeek V3又掉线了，精准踩进人类陷阱。（正能量满满可还行）

e35234326a550da329f95184507dd920

不过别担心，你的难兄难弟Claude 3.5 Sonnet来陪你了(doge）。

485ed4f6bb6670dfab937f7932719eaa

看来面对充满心机的弱智吧问题，二位选手都不在状态。

Okk，不继续在这上面为难二位了，下面来一道正儿八经的“反转诅咒”（即知道A是B却不知道B是A）问题。

而两位选手都一次性答对了Mary Lee Pfeiffer（汤姆·克鲁斯的母亲）的儿子是谁。

efec160466bb7a642f6ef14172c9efc4

a4eff2189756c3a46fd5dd3414d646a8

考研数学真题

下面进入数学能力测试。比如这道考研数学真题，涉及的知识点是曲面积分、高斯定理等内容：

64cd06ec485cb22d0890873f869e3034

直接上传截图，DeepSeek V3还是详细按步骤解答，而且也做对了。

ac43a57dec40f9f8c1f5da123f30b70d

而Claude 3.5 Sonnet虽然看起来方法更简单，但最终答案错误，功亏一篑。

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet实测来了

编码能力

重头戏来了，最后来考查一下模型编码能力。

刚好有位网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试，在Scroll Hub中分别用它俩创建网站。

23e0b8f1239f56149ee0215e22123679

博主在测试之后，认为DeepSeek V3完全胜出。

小结一下，从有限测试来看，DeepSeek V3貌似确实能和Claude Sonnet 3.5打得有来有回。

6f31df02720c233f365391c38e37d881

满血版o1空降第一

BTW，随着DeepSeek V3竞技场排名一起变动的，还有OpenAI的o1模型。

估计是“双十二”期间正式上线的满血版o1，此次超越o1-preview 24分，空降总榜第一。

而且除了创意写作，各个单项都是第一。

06665cf148f5b5b2d9da1862d34702ba

所以，对于这几家，大家在使用过程中感受如何呢？？

Post Views: 102