所有文章 > AI驱动 > DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)

DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)

Hi,这里是Aitrainee,欢迎阅读本期新文章。

前几天写了一篇DeepSeek-Chat更新的文章:

DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)

今天他的代码模型 DeepSeek-Coder-V2 也升级到2.1了,全称:DeepSeek-Coder-V2.1 (0724)

它增加了填充中间功能以及函数调用和一些其他的便利功能。

虽然他们分享了更新模型的信息,但并没有分享任何新的基准测试结果。

但是多个独立的基准测试排行榜已经发布了他们对这个新版本的评估。

所以我们来看看它们。

如果我要给你一个预告,那就是这个新版本已经与Claude 3.5 Sonet相媲美,同时价格更便宜。无论如何,我们先来看一下大代码基准测试排行榜。

你可以看到新的Deep Seek Coder V2模型现在排在第二名,与Claude 3.5 Sonet并列。

这意味着在基准测试中,这个新模型至少与Claude 3.5 Sonet相当。之前这个模型排在第7位,如你所见。所以这是从之前的迭代中一个非常好的跳跃。

如果你考虑价格与性能的比率,现在更加出色了。

下一个基准测试也非常棒,因为它来自aider。aider发布了一篇关于新模型评估的博客文章,以及哪个模型最适合aider。

你可以看到Claude 3.5 Sonet得分77%,而Deep Seek Coder V2 0724得分73%。

所以你可以看到它与Claude 3.5 Sonet相当,并且远远优于Llama3 405B和Mistol Large 2。

他们还说Deep Seek Coder V2 0724是最大的惊喜,也是最强大的代码编辑模型,在排行榜上排名第二。它可以有效地编辑代码,进行搜索替换,这解锁了编辑大文件的能力。

这个新版本的代码编辑模型在基准测试中得分73%,非常接近Sonet的77%,而且价格几乎便宜50倍。所以这确实很酷。

我无法强调它非常便宜这一点。每百万个token只需约20美分,比GPT 40 mini的60美分还要便宜。

新的模型权重还没有在Hugging Face上发布,但它们应该会在接下来的几天内发布,就像Deep Seek V2的新版本一样。

但我们实际上可以在他们的平台上试用这个新模型,不花任何钱。

所以让我们用我的问题来测试一下。这些问题包括一般问题和编程问题,这样我们也可以看看它在一般推理方面的能力。无论如何,让我们开始吧。

第一个问题是,有一个与我们用来形容高大植物的词押韵的数字,这个数字是什么?答案应该是three。这是它的回答,

但它没有正确回答这个问题,所以这题不及格。

下一个问题是,我有两个苹果,然后我又买了两个。我用两个苹果做了一个派,吃了一半后,我还剩下多少苹果?答案应该是两个。这是它的回答,

也是正确的,所以这题及格。

下一个问题是,莎莉是一个女孩,她有三个兄弟,每个兄弟都有两个相同的姐妹,莎莉有几个姐妹?答案应该是一个。这是Deep Seek的回答,

也是正确的,所以这题及格。

下一个问题是,如果一个正六边形的短对角线是64,那么它的长对角线是多少?答案应该是73.9。这是它的回答,

但它没有正确回答这个问题,所以这题不及格。

下一个问题是创建一个带有点击时爆炸彩纸的按钮的HTML页面,你也可以使用CSS和JS。

让我们看看它能不能做到。这是代码,它还增加了一个直接在聊天界面中预览HTML文件的选项,

这很酷,就像Artifacts一样。

这个工作正常,但我见过更好的生成,所以这题我会标记为不及格。

下一个问题是写一个打印未来20个闰年的Python函数,仅回复函数代码。让我们发送并检查一下。这是代码,

让我们运行一下。这个工作正常,所以这题及格。

下一个问题是生成一个蝴蝶的SVG代码。让我们看看它能不能做到。这是代码,让我们看看。

这个看起来不错,有蝴蝶需要的部分,可以识别出来,所以这题及格。

下一个问题是写一个HTML页面,这个HTML页面是一个AI公司的登录页面,他们喜欢现代和简约的界面带有动画。让我们发送并检查一下。这是代码,让我们看看。

这看起来不错,所以这题及格。

最后一个问题是写一个在终端运行的Python生命游戏。让我们发送并检查一下。这是代码,让我们复制并运行。

这个工作正常,所以这题及格。

现在这是最终的统计图,

你可以看到它没有通过三个问题,这是可以理解的,因为它没有通过的两个问题是语言或数学问题,这显然不是它的优化方向。

虽然在爆炸彩纸问题上它也很接近,但我希望它能通过这个问题,不过这也没关系。

我现在更加喜欢这个模型了,而且它的推理成本非常便宜。如果你想个人使用它,你也可以在他们的平台上免费使用,没有任何明显的限制,不像ChatGPT。

🌟希望这篇文章对你有帮助,感谢阅读

文章转自微信公众号@AI进修生

#你可能也喜欢这些API文章!