所有文章
> 当前分类:AI驱动

AIAgent框架——MetaGPT技术详解
2025/02/27
MetaGPT简介简介 近年,大语言模型以其强大的自然语言处理能力,成为AI领域的一大热点。它们不仅能生成和理解文本,还能进行复杂的分析和推理。与此同时,大语言模型还带火了智能体(即AI Agent)。智能体是一种能够感知环境、进行决...

2025年值得入坑AIAgent的五大框架
【AI驱动】
Agent 目前我见到的最多的翻译是“智能体”,但是直译是“代理”。 那 Agentic 又要翻译成什么呢?我感觉“代理型”这样的词更合适。 所以为了不让读者混淆,我在本文直接用英文表示。 随着 LLM 的发展,AI 的能...
2025/02/27

本地部署资讯问答机器人:Langchain+Ollama+RSSHub实现RAG
【AI驱动】
经过调研,我决定先采取 Langchain+Ollama 的技术栈来作为 demo 实现,当然,后续我也会考虑使用 dify、fastgpt 等更加直观易用的 AI 开发平台。 整体框架设计思路如下: ...
2025/02/27

AIAgent框架——multi-agent技术详解
【AI驱动】
关于multi-agent 随着LLM的涌现,以LLM为中枢构建的Agent系统在近期受到了广泛的关注。Agent系统旨在利用LLM的归纳推理能力,通过为不同的Agent分配角色与任务信息,并配备相应的工具插件,从而完成复杂的任务。 ...
2025/02/27

DeepSeek 新开源项目 DeepGEMM
【AI驱动】
DeepSeek 在开源周第三天推出了专为 Hopper 架构 GPU 优化的矩阵乘法库 DeepGEMM,支持标准矩阵计算和混合专家模型(MoE)计算,为 DeepSeek-V3/R1 的训练和推理提供强大支持,在 Hopper GPU 上达到 1350+FP8 TFLOPS 的高性能。DeepGEMM 的设计理念是简洁高效,核心代码仅约 300 行,同时在大多数矩阵尺寸下性能优于现有解决方案。该库支持三种数据排列方式:标准排列和两种专为混合专家模型设计的特殊排列(连续排列和掩码排列)。DeepGEMM 采用即时编译技术,不需要在安装时进行编译,代码结构清晰易懂,非常适合学习 GPU 优化技术。
2025/02/26

Claude 3.7 Sonnet:功能、访问、基准测试等
【AI驱动】
Claude 3.7 Sonnet 是一款具有创新性的 AI 模型,它结合了推理模式和通用模式,为用户提供了更灵活的使用体验。用户可以通过网络界面或 API 访问该模型,从而在不同的应用场景中发挥其强大的功能。此外,Claude 3.7 Sonnet 在关键的基准测试中表现出色,证明了其在处理复杂任务时的高效性和可靠性。对于希望深入了解或使用 Claude 3.7 Sonnet 的用户,DataCamp 提供了相关的课程和资源,帮助他们快速上手并充分发挥该模型的潜力。
2025/02/26

全球首个混合推理模型 Claude 3.7 Sonnet 问世,编码实力碾压众对手
【AI驱动】
Anthropic 公司发布了其最新模型 Claude 3.7 Sonnet,这是全球首个混合推理模型,能够提供即时响应或逐步展示思考过程。该模型在编码和前端开发方面表现出色,成为 Anthropic 有史以来最优秀的编码模型。Claude 3.7 Sonnet 支持标准和扩展思考模式,API 用户可以精确控制模型的思考时间。此外,Anthropic 还推出了智能编码工具 Claude Code,帮助开发人员直接从终端将工程任务委托给 Claude。Claude 3.7 Sonnet 在多项基准测试中刷新了记录,如在 SWE-bench Verified 上实现了 SOTA 性能,显著提升了数学、物理、指令遵循、编码等任务的表现。该模型现已在所有 Claude 计划中上线,包括免费版,扩展思考模式对非免费用户开放。
2025/02/26

Claude 3.7 Sonnet:技术解析与应用实例
【AI驱动】
Claude 3.7 Sonnet 是 Anthropic 公司推出的一款先进的语言模型,支持多种自然语言处理任务,如文本生成、问答系统、对话管理和自动生成代码等。该模型具备高度的灵活性和可扩展性,广泛应用于多个领域。文章详细介绍了如何调用 API 的具体步骤,并通过表格形式对比了不同类型 API 的日均调用量及其主要功能。特别强调了自动生成代码的功能,展示了如何根据需求生成高质量的代码片段,减少了手动编写的工作量。此外,还展示了多个实际应用场景,如文本生成、问答系统和对话管理等。总之,Claude 3.7 Sonnet 以其强大的功能和广泛的应用场景,成为推动现代自然语言处理技术发展的关键力量。
2025/02/26

DeepSeek FlashMLA代码库解析——功能、性能与成本效益全维度评测
【AI驱动】
DeepSeek FlashMLA代码库通过分页KV缓存、动态Tile调度、BF16混合精度三大核心技术,在Hopper GPU架构上实现大模型推理的突破性优化。基准测试显示,其在8K长序列处理中达到121 tokens/s的吞吐量,较传统方案提升189%,同时降低35%的显存占用。成本效益分析表明,采用FlashMLA可使千亿模型推理集群的三年TCO节省超$1.2M,API服务定价具备38%的降价空间。该代码库已成功应用于金融文档解析、多模态客服等场景,支持单卡128路高并发处理。开发者可通过Docker快速部署,结合动态批处理配置与实时监控指标,实现高效稳定的生产级AI服务。作为国产AI基础设施的重要突破,FlashMLA的开源标志着大模型推理优化进入"显存智能调度"的新阶段。
2025/02/24

开源新进展:DeepSeek 与 FlashMLA 合力,H800 算力狂飙,低成本策略揭晓
【AI驱动】
DeepSeek 开源周第一天,推出了名为 FlashMLA 的技术,该技术为 Hopper GPU 开发的高效 MLA 解码内核,专门针对可变长度序列进行了优化,已投入生产。FlashMLA 使用后,H800 可达到 3000GB/s 内存,实现 580TFLOPS 计算性能。MLA 是 DeepSeek 提出的创新注意力架构,从 V2 开始,MLA 使得 DeepSeek 在系列模型中实现成本大幅降低,但计算、推理性能仍能与顶尖模型持平。此次发布的 FlashMLA 支持 BF16,分页 KV 缓存,块大小为 64。环境要求为 Hopper GPU、CUDA 12.3 及以上版本、PyTorch 2.0 及以上版本。MLA 通过低秩联合压缩技术,将多头注意力中的键(Key)和值(Value)矩阵投影到低维潜在空间,从而显著减少键值缓存(KV Cache)的存储需求。V2 版本中,显存占用降到了过去最常用的 MHA 架构的 5%-13%,推理成本仅为 Llama 370B 的 1/7、GPT-4 Turbo 的 1/70。V3 版本中,降本提速更为明显。DeepSeek-R1 在 HuggingFace 上获得了超过 10000 个赞,成为该平台近 150 万个模型之中最受欢迎的大模型。
2025/02/24

Trae从0到1开发next.js网站并发布(保姆级教程)
【AI驱动】
本文为零基础用户提供克隆并部署Next.js博客的保姆教程。借助AI工具Trae,分析目标网站技术栈后,通过截图+自然语言提示(如“复制图片效果”)生成代码。针对依赖安装问题,改用淘宝镜像和yarn加速。分步完善吸顶菜单、文章列表及底部导航,利用AI调试异常代码。最终推送代码至GitHub,一键部署到Vercel生成可访问站点。
2025/02/24

DeepSeek 13个官方提示词通俗解读
【AI驱动】
DeepSeek官方推出13类实用提示词指南,覆盖AI交互核心场景,如模型定制(生成Linux助手等)、角色扮演(沉浸对话)、文案/代码生成(大纲、JSON结构化)、翻译优化(信达雅标准)、诗歌创作等,通过系统提示词设定规则、用户提示词调整需求,支持合并输入简化操作。适用于编程、营销、写作等场景,结合案例与扩展思路,帮助用户精准提问,提升AI输出效率与实用性。
2025/02/24

如何获取字节火山deepseek系列-api完整教程,及使用方法
【AI驱动】
API使用的几种方式:飞书多维表格调用,Coze智能体调用,浏览器插件调用。
2025/02/24

阿里云PAI 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
【AI驱动】
阿里云PAI平台现已支持DeepSeek-V3和DeepSeek-R1系列模型的云上一键部署,助力企业用户和开发者实现模型与业务的高效融合。DeepSeek-V3是一个参数量达671B的MoE架构大语言模型,采用MLA和DeepSeekMoE架构优化,支持多token预测训练目标,性能接近国际顶尖闭源模型。DeepSeek-R1则是高性能推理模型,参数量为660B,通过强化学习显著提升推理能力。PAI Model Gallery集成了包括DeepSeek系列在内的多种预训练模型,用户可零代码完成从训练到部署的全流程。部署方式包括vLLM加速部署和Web应用部署,支持多种推理框架,部署后可快速获取调用接口,实现模型的高效应用。
2025/02/21

微调碾压RAG?大模型意图识别工程化实践
【AI驱动】
文章探讨了大模型在智能电视意图识别中的应用与工程化实践,对比了基础模型、RAG(检索增强生成)和微调模型三种方案的优缺点。智能电视行业正借助AI大模型的自然语言处理和逻辑推理能力提升用户体验,但传统NLP算法在复杂语境下的意图识别、上下文理解和多轮对话方面存在局限性。文章详细介绍了三种方案的特点、模型选择、实现方法及优缺点:方案一(基础模型+Prompt)开发成本低,但对垂类领域分类识别能力有限;方案二(基础模型+Prompt+RAG)通过知识库增强意图分类能力,但存在延迟和幻觉问题;方案三(小尺寸模型微调)通过LoRA微调解决延迟问题,同时利用微调提升数据增强效果。最终,作者选择了7B底座的微调方案,并通过自动质检和自动微调工程链路实现生产准确率的持续优化。该方案在某国产头部电视厂家落地后,平均延迟500ms,实时准确率达到98%以上,显著提升了用户体验。
2025/02/21

0代码!2种方式一键部署 DeepSeek 系列模型
【AI驱动】
本文介绍了如何通过阿里云的函数计算(FC)和云原生应用开发平台(CAP)以零代码、低门槛的方式一键部署DeepSeek-R1系列模型。文章以DeepSeek-R1-Distill-Qwen-7B-GGUF模型为例,展示了两种部署方式:模型服务部署和应用模板部署。模型服务部署通过API调用接入线上业务应用,支持Ollama和Transformers框架,用户可快速配置资源并完成模型部署,最快10分钟即可完成。应用模板部署则实现DeepSeek-R1模型与OpenWebUI的结合,用户可通过OpenWebUI界面直接与模型对话。该方案采用按量付费模式,支持弹性伸缩和高可用性,适合希望快速部署、无需关注运维的用户。
2025/02/21
搜索文章
热门话题