所有文章
> 当前分类:AI驱动

开源新进展:DeepSeek 与 FlashMLA 合力,H800 算力狂飙,低成本策略揭晓
2025/02/24
DeepSeek 开源周第一天,推出了名为 FlashMLA 的技术,该技术为 Hopper GPU 开发的高效 MLA 解码内核,专门针对可变长度序列进行了优化,已投入生产。FlashMLA 使用后,H800 可达到 3000GB/s 内存,实现 580TFLOPS 计算性能。MLA 是 DeepSeek 提出的创新注意力架构,从 V2 开始,MLA 使得 DeepSeek 在系列模型中实现成本大幅降低,但计算、推理性能仍能与顶尖模型持平。此次发布的 FlashMLA 支持 BF16,分页 KV 缓存,块大小为 64。环境要求为 Hopper GPU、CUDA 12.3 及以上版本、PyTorch 2.0 及以上版本。MLA 通过低秩联合压缩技术,将多头注意力中的键(Key)和值(Value)矩阵投影到低维潜在空间,从而显著减少键值缓存(KV Cache)的存储需求。V2 版本中,显存占用降到了过去最常用的 MHA 架构的 5%-13%,推理成本仅为 Llama 370B 的 1/7、GPT-4 Turbo 的 1/70。V3 版本中,降本提速更为明显。DeepSeek-R1 在 HuggingFace 上获得了超过 10000 个赞,成为该平台近 150 万个模型之中最受欢迎的大模型。

Trae从0到1开发next.js网站并发布(保姆级教程)
【AI驱动】
本文为零基础用户提供克隆并部署Next.js博客的保姆教程。借助AI工具Trae,分析目标网站技术栈后,通过截图+自然语言提示(如“复制图片效果”)生成代码。针对依赖安装问题,改用淘宝镜像和yarn加速。分步完善吸顶菜单、文章列表及底部导航,利用AI调试异常代码。最终推送代码至GitHub,一键部署到Vercel生成可访问站点。
2025/02/24

DeepSeek 13个官方提示词通俗解读
【AI驱动】
DeepSeek官方推出13类实用提示词指南,覆盖AI交互核心场景,如模型定制(生成Linux助手等)、角色扮演(沉浸对话)、文案/代码生成(大纲、JSON结构化)、翻译优化(信达雅标准)、诗歌创作等,通过系统提示词设定规则、用户提示词调整需求,支持合并输入简化操作。适用于编程、营销、写作等场景,结合案例与扩展思路,帮助用户精准提问,提升AI输出效率与实用性。
2025/02/24

如何获取字节火山deepseek系列-api完整教程,及使用方法
【AI驱动】
API使用的几种方式:飞书多维表格调用,Coze智能体调用,浏览器插件调用。
2025/02/24

阿里云PAI 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
【AI驱动】
阿里云PAI平台现已支持DeepSeek-V3和DeepSeek-R1系列模型的云上一键部署,助力企业用户和开发者实现模型与业务的高效融合。DeepSeek-V3是一个参数量达671B的MoE架构大语言模型,采用MLA和DeepSeekMoE架构优化,支持多token预测训练目标,性能接近国际顶尖闭源模型。DeepSeek-R1则是高性能推理模型,参数量为660B,通过强化学习显著提升推理能力。PAI Model Gallery集成了包括DeepSeek系列在内的多种预训练模型,用户可零代码完成从训练到部署的全流程。部署方式包括vLLM加速部署和Web应用部署,支持多种推理框架,部署后可快速获取调用接口,实现模型的高效应用。
2025/02/21

微调碾压RAG?大模型意图识别工程化实践
【AI驱动】
文章探讨了大模型在智能电视意图识别中的应用与工程化实践,对比了基础模型、RAG(检索增强生成)和微调模型三种方案的优缺点。智能电视行业正借助AI大模型的自然语言处理和逻辑推理能力提升用户体验,但传统NLP算法在复杂语境下的意图识别、上下文理解和多轮对话方面存在局限性。文章详细介绍了三种方案的特点、模型选择、实现方法及优缺点:方案一(基础模型+Prompt)开发成本低,但对垂类领域分类识别能力有限;方案二(基础模型+Prompt+RAG)通过知识库增强意图分类能力,但存在延迟和幻觉问题;方案三(小尺寸模型微调)通过LoRA微调解决延迟问题,同时利用微调提升数据增强效果。最终,作者选择了7B底座的微调方案,并通过自动质检和自动微调工程链路实现生产准确率的持续优化。该方案在某国产头部电视厂家落地后,平均延迟500ms,实时准确率达到98%以上,显著提升了用户体验。
2025/02/21

0代码!2种方式一键部署 DeepSeek 系列模型
【AI驱动】
本文介绍了如何通过阿里云的函数计算(FC)和云原生应用开发平台(CAP)以零代码、低门槛的方式一键部署DeepSeek-R1系列模型。文章以DeepSeek-R1-Distill-Qwen-7B-GGUF模型为例,展示了两种部署方式:模型服务部署和应用模板部署。模型服务部署通过API调用接入线上业务应用,支持Ollama和Transformers框架,用户可快速配置资源并完成模型部署,最快10分钟即可完成。应用模板部署则实现DeepSeek-R1模型与OpenWebUI的结合,用户可通过OpenWebUI界面直接与模型对话。该方案采用按量付费模式,支持弹性伸缩和高可用性,适合希望快速部署、无需关注运维的用户。
2025/02/21

云端部署DeepSeek操作指南
【AI驱动】
本文介绍了如何将DeepSeek-R1开源模型部署到GPU云服务器,并在服务器上安装配置Ollama和Open WebUI。文章首先指出,云端部署DeepSeek模型具有部署效率高、成本优化和创新资源丰富等优势。接着,文章详细说明了部署过程,包括创建专有网络VPC和交换机、配置安全组、创建GPU云服务器实例等环境准备工作,以及通过Ollama框架部署模型和使用Open WebUI调用模型服务的具体步骤。最后,文章还提供了应用体验指南,包括如何访问示例应用、与模型进行对话交互,以及如何通过Chatbox客户端配置Ollama API进行对话。
2025/02/21

如何在IDE里使用DeepSeek-V3 和 DeepSeek-R1 满血版模型
【AI驱动】
本文介绍了如何在IDE中使用DeepSeek-V3和DeepSeek-R1满血版模型,以及通义灵码的最新功能升级。通义灵码支持VS Code、JetBrains IDEs等多种开发环境,用户可通过插件市场或官网下载安装,并在IDE中切换使用Qwen 2.5、DeepSeek-V3、DeepSeek-R1等模型,以实现代码生成、智能补全、代码优化等功能。文章详细说明了在JetBrains IDEs和VS Code中安装通义灵码的步骤,并介绍了其核心能力,包括行级/函数级实时补全、自然语言生成代码、企业代码生成增强、智能问答以及AI程序员的多文件代码修改和单元测试生成等功能。通过这些功能,开发者可以在IDE中高效完成复杂编码任务,提升编程效率和代码质量。
2025/02/21

破解 vLLM + DeepSeek 规模化部署的“不可能三角”
【AI驱动】
文章介绍了如何通过阿里云函数计算(FC)的GPU预留实例闲置计费功能,破解vLLM和DeepSeek规模化部署中的“不可能三角”问题,即性能、成本与稳定性的平衡。文章指出,vLLM和DeepSeek等大语言模型在规模化部署时面临诸多挑战,包括大规模参数量导致的启动和加载问题、高效推理能力要求、上下文理解的连贯性需求,以及显卡资源利用率、成本控制等难题。FC通过预先启动服务实例、灵活计费模式和自主研发调度算法等方式,优化了性能、降低了成本、保障了稳定性。同时,FC还支持高效的开发与运维能力,提供多种请求导入机制和简便的部署流程,使得企业可以专注于业务逻辑创新。
2025/02/21

大模型推理服务全景图
【AI驱动】
本文从技术架构的全局视角出发,详细剖析了大模型推理服务的全景图。文章指出,随着 DeepSeek R1 和 Qwen2.5-Max 等大模型的发布,推理性能成为优化的关键领域,其提升涉及芯片层、编程语言层、深度学习框架层、推理加速层、大模型层、计算平台层、应用编排层和流量管理层等多个技术层级的协同优化。文章逐一介绍了各层级的关键技术和代表性方案,如芯片层的 NVIDIA、AMD 和国内的平头哥、华为 Ascend;推理加速层的 vLLM、TensorRT-LLM 和阿里云的 BladeLLM;以及流量管理层的 Higress 和阿里云云原生 API 网关等。通过这些内容,文章展示了大模型推理服务的全貌,并强调了各层级优化对提升推理性能、降低成本和改善用户体验的重要性。
2025/02/20

在 Claude 上复刻 DeepSeek-R1 效果
【AI驱动】
本文讲述了作者通过提示词工程在 Claude 上“复刻”DeepSeek-R1 使用效果的过程。作者首先介绍了 DeepSeek-R1 的特点,包括其在复杂推理任务中的卓越表现以及公开的深度思考过程。为了在 Claude 上实现类似效果,作者尝试通过调整提示词,让模型先输出推理过程再给出结论,并通过结构化标签展示思考过程。经过多次优化,最终成功模拟出 DeepSeek-R1 的深度思考框架,提升了 Claude 3.5 Sonnet 的表现。这一过程不仅实现了在 Claude 上复刻 DeepSeek-R1 效果的目标,还展示了提示词工程在优化大模型输出中的重要作用,同时为用户提供了更透明化的推理过程和更个性化的使用体验。
2025/02/20

基于LLM打造沉浸式3D世界
【AI驱动】
利用大型语言模型(LLM)结合虚幻引擎,通过视觉-语言模型(VLMs)为3D模型生成自然语言描述,建立模型的语义信息,使其能够被LLM理解和处理。同时,借助场景级标注和多种策略建立文本描述与场景内实体的映射关系,帮助LLM理解3D场景。通过FunctionCall将LLM的输出转化为实际操作,实现自然语言指令对3D世界的交互,如移动物体或调整场景布局。这一研究展示了LLM在3D领域的巨大潜力,为自动驾驶、具身智能和3D生成等方向提供了新的思路和方法。
2025/02/20

如何获取 Grok3 API 密钥(分步指南)
【AI驱动】
在人工智能和自然语言处理领域,精准的智能助手和语言理解能力至关重要。Grok3 API为开发者提供了强大的工具,可以轻松集成先进的对话式AI功能,帮助提升应用的智能化水平。通过使用该API,开发者能够实现自然语言理解、智能对话和个性化推荐等...
2025/02/20

漫谈DeepSeek及其背后的核心技术
【AI驱动】
本文深入探讨了DeepSeek大模型的核心技术,从公司背景、模型能力、训练与推理成本到核心技术细节进行了全面分析。DeepSeek由幻方量化于2023年7月在杭州成立,其推出的V3模型在性能上已与OpenAI的GPT-4o媲美,训练成本不到600万美元,API定价远低于国内其他头部厂商。DeepSeek-V3采用了自研的MLA(多头潜在注意力)机制和无辅助损失的MoE(Mixture of Experts)架构,显著减少了KV缓存和训练成本。训练框架HAI-LLM支持多种并行策略,优化了通信和计算效率。推理部署采用预填充和解码分离策略,确保高吞吐量和低延迟。文章还指出,DeepSeek的成功在于其深厚的技术积累和对基础研究的重视,其技术创新将推动AI行业的快速且低成本迭代。
2025/02/20

如何让AI生成的文本更有人味
【AI驱动】
在现代社会,AI文本人性化是一个备受关注的话题。随着人工智能技术的不断进步,如何让AI生成的文本更加贴近人类的表达方式成为研究的重点。AI文本人性化不仅涉及到语义理解和自然语言生成,还包括情感分析和语境推理等方面。通过不断优化算法和数据训练,AI可以生成更为自然流畅的文字,使其在各类应用中更具实用性和亲和力。
2025/02/20
搜索文章
热门话题