
Python调用Google Bard API 完整指南
DeepSeek 推出了一种创新方法,通过强化学习 (RL) 来提高大型语言模型 (LLM) 的推理能力,其在最近关于 DeepSeek-R1 的论文中对此进行了详细介绍。这项研究代表了我们如何通过纯强化学习来增强 LLM 解决复杂问题的能力,而无需过度依赖监督式微调,这是一个重大进步。
模型架构:
DeepSeek-R1 不是一个单一的模型,而是一个模型系列,包括:DeepSeek-R1-Zero和DeepSeek-R1
让我澄清一下 DeepSeek-R1 和 DeepSeek-R1-Zero 之间的主要区别:
主要区别
DeepSeek-R1-Zero代表了该团队使用纯强化学习进行的初步实验,没有任何监督式微调。他们从基础模型开始,直接应用强化学习,让模型通过反复试验来开发推理能力。虽然这种方法取得了令人印象深刻的结果(AIME 2024 上的准确率为 71%),但它有一些明显的局限性,特别是在可读性和语言一致性方面。它具有 6710 亿个参数,采用混合专家 (MoE) 架构,其中每个标记激活相当于 370 亿个参数。该模型展示了新兴的推理行为,例如自我验证、反思和长链思维 (CoT) 推理。该模型展示了新兴的推理行为,例如自我验证、反思和长链思维 (CoT) 推理。
相比之下, DeepSeek-R1采用了更为复杂的多阶段训练方法。它不是采用纯粹的强化学习,而是先对一小组精心挑选的示例(称为“冷启动数据”)进行监督微调,然后再应用强化学习。这种方法解决了 DeepSeek-R1-Zero 的局限性,同时实现了更好的性能。该模型还保留了 6710 亿个参数,但在响应中实现了更好的可读性和连贯性。
培训方法:
DeepSeek-R1-Zero 的训练过程非常简单:
DeepSeek-R1 的训练过程分为四个不同的阶段:
绩效指标:
局限性和未来工作
论文承认了几个需要改进的领域:
未来的工作将集中于解决这些限制并扩展模型在函数调用、多轮交互和复杂角色扮演场景等领域的功能。
DeepSeek 聊天平台提供了用户友好的界面,无需任何设置要求即可与 DeepSeek-R1 进行交互。
DeepSeek 聊天平台
对于编程访问,DeepSeek 提供了与 OpenAI 格式兼容的 API,允许集成到各种应用程序中。
使用API的步骤:
a. 获取 API 密钥:
b.配置您的环境:
base_url
为https://api.deepseek.com/v1
c. 进行 API 调用:
DeepSeek API 调用示例
两种型号(R1 和 R1-Zero):
本地运行的软件工具:
您可以使用Ollama在本地提供模型: (Ollama 是一种在您的机器上本地运行开源 AI 模型的工具。在此处获取:https://ollama.com/download )
接下来,您需要在本地提取并运行 DeepSeek R1 模型。
Ollama 提供不同尺寸的模型 — 基本上,更大的模型等于更智能的 AI,但需要更好的 GPU。以下是阵容:
1.5B 版本(最小):
ollama run deepseek-r1:1.5b
8B 版本:
ollama run deepseek-r1:8b
14B 版本:
ollama run deepseek-r1:14b
32B 版本:
ollama run deepseek-r1:32b
70B 版本(最大/最智能):
ollama run deepseek-r1:70b
要开始尝试 DeepSeek-R1,建议从较小的模型开始,以熟悉设置并确保与硬件的兼容性。您可以通过打开终端并执行以下命令来启动此过程:
ollama 运行 deepseek-r1:8b
图片由 Reddit 提供
通过 Ollama 向本地下载的 DeepSeek-R1 发送请求:
Ollama 提供了一个 API 端点,用于以编程方式与 DeepSeek-R1 交互。在发出 API 请求之前,请确保 Ollama 服务器在本地运行。您可以通过运行以下命令来启动服务器:
ollama serve
一旦服务器处于活动状态,您就可以使用curl
以下命令发送请求:
curl -X POST http://localhost:11434/api/generate -d '{
"model": "deepseek-r1",
"prompt": "Your question or prompt here"
}'
将其替换"Your question or prompt here"
为您希望向模型提供的实际输入。此命令向本地 Ollama 服务器发送 POST 请求,该服务器使用指定的 DeepSeek-R1 模型处理提示并返回生成的响应。
vLLM/SGLang:用于在本地提供模型。vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B — tensor-parallel-size 2 — max-model-len 32768 — force-eager 等命令可用于精简版本。
图片来源:HuggingFace
从 DeepSeek-R1-Zero 到 DeepSeek-R1 的这一进展代表了研究中重要的学习历程。虽然 DeepSeek-R1-Zero 证明了纯强化学习是可行的,但 DeepSeek-R1 展示了如何将监督学习与强化学习相结合来创建一个更强大、更实用的模型。