
LLM的预训练任务有哪些
阿里巴巴最近也推出了Qwen2.5-Max – 一个取代OpenAI、DeepSeek和Llama巨头的模型。这个模型充满了先进的推理,以及图像和视频的生成,将震撼GenAI世界。在这篇博客中,我们将比较Qwen2.5-Max、DeepSeek-R1和Kimi k1.5在几个方面的表现,以找到目前最好的LLM!
让我们开始比较 Qwen2.5-max、DeepSeek-R1 和 Kimi k1.5,从它们的技术细节开始。为此,我们将比较这 3 个模型的基准性能和功能。
根据现有数据,以下是 Qwen2.5-Max 在各种标准基准测试中对 DeepSeek-R1 和 Kimi k1 的表现。
这三种型号中的每一种都有自己的网络聊天界面,提供不同的功能。以下是 Qwen2.5-Max 在功能方面与同类产品相比的表现:
特征 | Qwen2.5-Max | DeepSeek-R1 | Kimi K1.5 |
图像分析 | 不 | 是的 | 是的 |
Web 界面 | 是的 | 是的 | 是的 |
图像生成 | 是的 | 不 | 不 |
Web 搜索 | 不 | 是的 | 是的 |
工件 | 是的 | 不 | 不 |
文件上传 | 单 | 倍数 | 倍数 |
常用短语 | 不 | 不 | 是的 |
现在让我们根据应用程序比较目前排名前三的中国模型 – Qwen2.5-max、DeepSeek-R1 和 Kimi k1.5。为此,我们将测试它们在涉及推理、多步骤处理和编码的三个不同任务上的性能。
我们将对所有三个模型提供相同的提示并比较它们的响应,根据它们的表现给它们 0、0.5 和 1 分。最后,我们将统计分数,找出其中哪个是最好的。那么让我们开始吧。
提示:“用数学证明地球是圆的”
Qwen2.5-Max | DeepSeek-R1 | Kimi K1.5 |
使用几何学、引力、卫星运动和历史实验,我们从数学上证明了地球是圆的。地平线的曲率、引力的均匀性和卫星轨道的一致性都支持这一结论。地球是一个球体(或者更准确地说,是一个扁球体)。 | 通过使用阴影的角度差异和两个位置之间的距离来计算地球的周长,埃拉托色尼用数学方法证明了地球的球形。现代测量和观测(例如,地平线曲率、月食)进一步证实了这一点。 | 测得的距离和角度与球形几何形状(例如,d=Rθ)的一致性证明地球是圆的。平地模型无法解释这些关系。 |
Qwen2.5-Max | DeepSeek-R1 | Kimi K1.5 |
该模型提供了一些支持该说法的关键观察结果。然后,它涵盖了各种参数,如球体的几何形状、水平曲率、旋转力和离心力,以及其他不需要的参数。它确实涵盖了“埃拉托色尼实验”作为这些参数的一部分。 | 该模型简要解释了理论以及所有数学计算,以证明给定任务。它还提供了一些额外的证明以及一些关键观察结果来确定其结果。该模型使用埃拉托色尼实验来建立证明。 | 这个模型给出了最清晰、最简洁的回答。它通过一个小的数学计算证明了这个假设。它使用了埃拉托色尼实验的测量结果,但没有明确提及。 |
地球曲率最相关的证明是涉及埃拉托色尼方法(约公元前 240 年)的证明,因为它是涉及两地角度差数学分析的最古老、最全面的证明之一。这三个模型都以一种或另一种方式使用了这种方法。
Qwen2.5-Max 提供了 8 种不同的方法来证明地球是圆的,但没有适当的解释。DeepSeek-R1 采用了埃拉托色尼的方法——以简洁明了的术语解释了它的理论和数学。Kimi k 1.5 使用了最简单的方法,基于所需的方法,甚至没有明确提及它。
Prompt: “用一行文字总结课程内容,创建一个流程图来解释课程中发生的过程,然后将总结翻译成法语课程”
Qwen2.5-Max | DeepSeek-R1 | Kimi K1.5 |
摘要简洁明了,并列出了课程涵盖的主题。 | 课程的总结清晰、简洁、切中要害。 | 摘要涵盖了所有主题,非常简单,但与其他主题相比有点长。 |
该流程图根据需要涵盖了所有基本标题及其副标题。 | 流程图涵盖了所有基本标题,但子标题中的内容超出了要求的内容。 | 该模型不是关于课程的流程图,而是生成了课程中涵盖的流程图。总的来说,这个流程图清晰明了。 |
我想要一个简单、清晰的单行课程总结,该课程由 DeepSeek-R1 和 Qwen2.5-Max 生成。但对于流程图,虽然 Kimi k1.5 生成的结果的设计和清晰度是确切的要求,但它缺乏有关课程流程的细节。DeepSeek-R1 的流程图内容有点重,而 Qwen2.5-Max 提供了一个很好的流程图,涵盖了所有基本要素。
提示:“为 wordle 类型的应用程序编写 HTML 代码”
注意: 在 Qwen2.5-Max 中输入提示之前,请单击 artifacts,这样您就可以在聊天界面中可视化代码的输出。
Qwen2.5-Max:
DeepSeek-R1:
Kimi k1.5:
Qwen2.5-Max | DeepSeek-R1 | Kimi K1.5 |
该模型快速生成代码,应用程序本身看起来很像实际的“Wordle 应用程序”。它不是在底部列出字母,而是为我们提供了直接输入 5 个字母的选项。然后它会自动更新板中的这些字母。 | 该模型需要一些时间来生成代码,但输出很棒!它生成的输出与实际的“Wordle App”几乎相同。我们可以选择我们想尝试猜测的字母表,他们会将我们的选择放入单词中。 | 该模型生成代码的速度足够快。但是代码的输出是实际“Wordle App”的扭曲版本。字板没有出现,也没有出现所有字母。事实上,进入和删除功能几乎超过了字母表。 |
借助它的工件功能,可以非常轻松地在那里分析代码。 | 唯一的问题是我必须复制代码并在不同的界面中运行它。 | 除此之外,我必须在不同的界面中运行此代码以可视化输出。 |
首先,我希望生成的应用程序与实际的 Wordle 应用程序尽可能相似。其次,我想投入最少的精力来测试生成的代码。DeepSeek-R1 生成的结果最接近询问,而 Qwen-2.5 的相当好的结果是最容易测试的。
Qwen2.5-Max 是一个了不起LLM的,它给 DeepSeek-R1 和 Kimi k1.5 等模型带来了激烈的竞争。它在所有不同任务中的响应都是可比的。虽然它目前缺乏分析图像或搜索网络的能力,但一旦这些功能上线;Qwen2.5-Max 将是一个无与伦比的模型。它已经拥有连 GPT-4o 都不具备的视频生成能力。此外,它的界面非常直观,具有工件等功能,这使得在同一平台内运行代码变得更加简单。总而言之,阿里巴巴的 Qwen2.5-Max 是一款全能LLM产品,旨在重新定义我们的合作方式LLMs!
问题 1.什么是 Qwen2.5-Max?
答:Qwen2.5-Max 是阿里巴巴最新的多模态LLM,针对文本、图像和视频生成进行了优化,拥有超过 20 万亿个参数。
问题 2.Qwen2.5-Max 与 DeepSeek-R1 和 Kimi k1.5 相比表现如何?
答:与 DeepSeek-R1 和 Kimi k1.5 相比,它在推理、多模态内容创建和编程支持方面表现出色,使其成为中国 AI 生态系统中的强大竞争对手。
问题 3.Qwen2.5-Max 是开源的吗?
答:否,Qwen2.5-Max 是闭源模型,而 DeepSeek-R1 和 Kimi k1.5 是开源模型。
问题 4.Qwen2.5-Max 可以生成图像和视频吗?
A. 可以!Qwen2.5-Max 型号支持图像和视频生成。
问题 5.Kimi k1.5 和 DeepSeek-R1 可以执行网页搜索吗?
一个。 是的,DeepSeek-R1 和 Kimi k1.5 都支持实时网页搜索,而 Qwen2.5-Max 目前缺乏网页搜索功能。这使 DeepSeek-R1 和 Kimi 在检索最新的在线信息方面具有优势。
问题 6.我应该选择 Qwen2.5-Max、DeepSeek-R1 还是 Kimi k1.5?
答:根据您的使用案例,选择:
– Qwen2.5-Max:如果您需要多模态功能(文本、图像、视频)和高级 AI 推理。
– DeepSeek-R1: 如果您想要开源模型的灵活性、卓越的问答性能和 Web 搜索集成。
– Kimi k1.5: 如果您需要高效的文档处理、基于 STEM 的问题解决和实时网络访问。