点击或拖拽图片到此处上传(最多5张)
DeepSeek-V2、DeepSeek-Coder-V2 基于 2 千亿 MoE 模型底座,领先性能,超低价格,越级场景体验。
DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能较高,能力较强。
DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练,在长文本、代码、数学、百科、中文 能力上表现优秀。