所有文章 > 当前分类:AI驱动
DeepSeek 技术分析 — (3)多 Token
DeepSeek 技术分析 — (3)多 Token
2025/03/03
GPT 和 Llama 等大型语言模型都是使用下一个标记预测损失进行训练的。这些模型通过执行下一个标记预测任务来学习大型文本语料库 x1,... xT。正式来说,学习目标是最小化交叉熵损失: 其中 Pθ 是我们正在训练的大型语...
DeepSeek 技术分析 — (2)多头潜在注意力
DeepSeek 技术分析 — (2)多头潜在注意力
【AI驱动】 多头注意力机制是 Transformer 模型的核心组件,通过并行计算捕获序列中 token 之间的全局依赖关系,打破 RNN 和 CNN 的序列约束,推动语言模型发展。多查询注意力机制通过共享键和值提高增量推理速度,但可能降低质量并导致训练不稳定。分组查询注意力机制通过一组注意力头共享键和值的投影矩阵,在一定程度上缓解了这一问题。DeepSeek-V2 引入的多头潜在注意力(MLA)机制,通过低秩键值联合压缩技术减少 KV 缓存大小,显著降低内存占用并提高推理效率。MLA 核心是对键和值进行低秩联合压缩,消除推理时间键值缓存的瓶颈,同时采用解耦的 RoPE 策略以兼容低秩 KV 压缩。测试表明,MLA 在性能上优于传统多头注意力机制(MHA),且所需的 KV 缓存量明显小于 MHA。
2025/03/03
DeepSeek 技术分析 — (1) 混合专家
DeepSeek 技术分析 — (1) 混合专家
【AI驱动】 DeepSeek 模型凭借在不损失准确率情况下显著提升训练成本和推理效率而备受关注。其沿用 Transformer 架构,从 V2 开始在多头注意力层采用低秩键值联合压缩技术减少 KV 缓存大小,在前馈网络层采用 Mixture - of - Experts(MoE)技术通过稀疏计算以经济成本训练强大模型。重点在于 DeepSeekMoE,它是 MoE 变体,有将专家细分激活及隔离共享专家两处变化,缓解了传统 TopK MoE 知识混合性和冗余性问题,实现更优性能。混合专家让 LLM 不同子网络吸收学习不同领域知识,使模型参数高度专业化且激活参数贡献高。尽管 DeepSeekMoE 性能接近理论上限,但仍有优化空间,如密集模型非边界、不同领域知识处理可差异化对待等。LLM 效率提升将推动 AI 繁荣,促使更多组织参与改进,降低 LLM API 成本,助力 AI 应用在各行业提高效率和处理知识任务。
2025/03/03
好用的GPT:2025年最佳选择与实用指南
好用的GPT:2025年最佳选择与实用指南
【AI驱动】 本文汇总了2025年好用的GPT工具,包括国际和国内的热门选择。GPT的应用已经涵盖了内容创作、代码生成、文档处理等多个领域。例如,Guru专注于企业知识管理,而讯飞星火则提供了强大的文档生成功能。在内容创作方面,ChatSonic和般若AI表现突出,分别支持高质量文本生成和AI绘画。此外,GPT在代码生成和文档处理方面也有广泛应用,如GitHub Copilot和Documate等工具。在选择GPT工具时,用户需要根据功能、价格、支持平台等因素进行综合考虑。希望本文的介绍能够帮助您找到最适合自己的GPT工具。
2025/02/28
从0到1搭建本地RAG问答系统:Langchain+Ollama+RSSHub技术全解析
从0到1搭建本地RAG问答系统:Langchain+Ollama+RSSHub技术全解析
【AI驱动】 本文介绍了如何利用Langchain和Ollama技术栈在本地部署资讯问答机器人,并结合RSSHub处理资讯。强调数据质量和大模型性能对RAG系统上限的影响,指出RAG虽能缓解大模型幻觉和信息滞后,但无法完全消除。本文为本地搭建RAG系统的用户提供实用参考。
2025/02/28
激荡二十年:HTTPAPI的变迁
激荡二十年:HTTPAPI的变迁
【AI驱动】 2005年之前:API 的狂野西部 早期的互联网是非常狂野的,没有所谓前端后端之分。PHP 开发者可以把从处理用户的 HTTP 请求,连接 mysql,组装 SQL 进行查询,将查询结果转换成 HTML,一路到 HTML 响应返回给用...
2025/02/27
2025年AIAgent开发框架怎么选?
2025年AIAgent开发框架怎么选?
【AI驱动】 AI Agent,也叫智能体,正处于一个快速发展阶段。随着多个新框架的出现和该领域的新投资,现代人工智能代理正在克服不稳定的起源,迅速取代 RAG 成为实施重点。那么,2024 年最终会成为自主人工智能系统接管我们写电子邮件、预订航班、处理...
2025/02/27
AIAgent框架——MetaGPT技术详解
AIAgent框架——MetaGPT技术详解
【AI驱动】 MetaGPT简介简介 近年,大语言模型以其强大的自然语言处理能力,成为AI领域的一大热点。它们不仅能生成和理解文本,还能进行复杂的分析和推理。与此同时,大语言模型还带火了智能体(即AI Agent)。智能体是一种能够感知环境、进行决...
2025/02/27
2025年值得入坑AIAgent的五大框架
2025年值得入坑AIAgent的五大框架
【AI驱动】 Agent 目前我见到的最多的翻译是“智能体”,但是直译是“代理”。 那 Agentic 又要翻译成什么呢?我感觉“代理型”这样的词更合适。 所以为了不让读者混淆,我在本文直接用英文表示。 随着 LLM 的发展,AI 的能...
2025/02/27
本地部署资讯问答机器人:Langchain+Ollama+RSSHub实现RAG
本地部署资讯问答机器人:Langchain+Ollama+RSSHub实现RAG
【AI驱动】 经过调研,我决定先采取 Langchain+Ollama 的技术栈来作为 demo 实现,当然,后续我也会考虑使用 dify、fastgpt 等更加直观易用的 AI 开发平台。 整体框架设计思路如下: ...
2025/02/27
AIAgent框架——multi-agent技术详解
AIAgent框架——multi-agent技术详解
【AI驱动】 关于multi-agent 随着LLM的涌现,以LLM为中枢构建的Agent系统在近期受到了广泛的关注。Agent系统旨在利用LLM的归纳推理能力,通过为不同的Agent分配角色与任务信息,并配备相应的工具插件,从而完成复杂的任务。 ...
2025/02/27
DeepSeek 新开源项目 DeepGEMM
DeepSeek 新开源项目 DeepGEMM
【AI驱动】 DeepSeek 在开源周第三天推出了专为 Hopper 架构 GPU 优化的矩阵乘法库 DeepGEMM,支持标准矩阵计算和混合专家模型(MoE)计算,为 DeepSeek-V3/R1 的训练和推理提供强大支持,在 Hopper GPU 上达到 1350+FP8 TFLOPS 的高性能。DeepGEMM 的设计理念是简洁高效,核心代码仅约 300 行,同时在大多数矩阵尺寸下性能优于现有解决方案。该库支持三种数据排列方式:标准排列和两种专为混合专家模型设计的特殊排列(连续排列和掩码排列)。DeepGEMM 采用即时编译技术,不需要在安装时进行编译,代码结构清晰易懂,非常适合学习 GPU 优化技术。
2025/02/26
Claude 3.7 Sonnet:功能、访问、基准测试等
Claude 3.7 Sonnet:功能、访问、基准测试等
【AI驱动】 Claude 3.7 Sonnet 是一款具有创新性的 AI 模型,它结合了推理模式和通用模式,为用户提供了更灵活的使用体验。用户可以通过网络界面或 API 访问该模型,从而在不同的应用场景中发挥其强大的功能。此外,Claude 3.7 Sonnet 在关键的基准测试中表现出色,证明了其在处理复杂任务时的高效性和可靠性。对于希望深入了解或使用 Claude 3.7 Sonnet 的用户,DataCamp 提供了相关的课程和资源,帮助他们快速上手并充分发挥该模型的潜力。
2025/02/26
全球首个混合推理模型 Claude 3.7 Sonnet 问世,编码实力碾压众对手
全球首个混合推理模型 Claude 3.7 Sonnet 问世,编码实力碾压众对手
【AI驱动】 Anthropic 公司发布了其最新模型 Claude 3.7 Sonnet,这是全球首个混合推理模型,能够提供即时响应或逐步展示思考过程。该模型在编码和前端开发方面表现出色,成为 Anthropic 有史以来最优秀的编码模型。Claude 3.7 Sonnet 支持标准和扩展思考模式,API 用户可以精确控制模型的思考时间。此外,Anthropic 还推出了智能编码工具 Claude Code,帮助开发人员直接从终端将工程任务委托给 Claude。Claude 3.7 Sonnet 在多项基准测试中刷新了记录,如在 SWE-bench Verified 上实现了 SOTA 性能,显著提升了数学、物理、指令遵循、编码等任务的表现。该模型现已在所有 Claude 计划中上线,包括免费版,扩展思考模式对非免费用户开放。
2025/02/26
Claude 3.7 Sonnet:技术解析与应用实例
Claude 3.7 Sonnet:技术解析与应用实例
【AI驱动】 Claude 3.7 Sonnet 是 Anthropic 公司推出的一款先进的语言模型,支持多种自然语言处理任务,如文本生成、问答系统、对话管理和自动生成代码等。该模型具备高度的灵活性和可扩展性,广泛应用于多个领域。文章详细介绍了如何调用 API 的具体步骤,并通过表格形式对比了不同类型 API 的日均调用量及其主要功能。特别强调了自动生成代码的功能,展示了如何根据需求生成高质量的代码片段,减少了手动编写的工作量。此外,还展示了多个实际应用场景,如文本生成、问答系统和对话管理等。总之,Claude 3.7 Sonnet 以其强大的功能和广泛的应用场景,成为推动现代自然语言处理技术发展的关键力量。
2025/02/26
DeepSeek FlashMLA代码库解析——功能、性能与成本效益全维度评测
DeepSeek FlashMLA代码库解析——功能、性能与成本效益全维度评测
【AI驱动】 DeepSeek FlashMLA代码库通过分页KV缓存、动态Tile调度、BF16混合精度三大核心技术,在Hopper GPU架构上实现大模型推理的突破性优化。基准测试显示,其在8K长序列处理中达到121 tokens/s的吞吐量,较传统方案提升189%,同时降低35%的显存占用。成本效益分析表明,采用FlashMLA可使千亿模型推理集群的三年TCO节省超$1.2M,API服务定价具备38%的降价空间。该代码库已成功应用于金融文档解析、多模态客服等场景,支持单卡128路高并发处理。开发者可通过Docker快速部署,结合动态批处理配置与实时监控指标,实现高效稳定的生产级AI服务。作为国产AI基础设施的重要突破,FlashMLA的开源标志着大模型推理优化进入"显存智能调度"的新阶段。
2025/02/24
1 7 8 9 10 11 64