所有文章 > 当前分类:AI驱动
DeepSeek R1 简单指南:架构、训练、本地部署和硬件要求
DeepSeek R1 简单指南:架构、训练、本地部署和硬件要求
2025/03/06
DeepSeek R1 是一种大型语言模型(LLM),通过强化学习(RL)显著提升了推理能力。与传统模型不同,它主要依赖强化学习而非监督学习,通过小组相对策略优化(GRPO)提高准确性和格式奖励,从而增强推理能力。
Claude 3.7使用:全面指南与技术解析
Claude 3.7使用:全面指南与技术解析
【AI驱动】 Claude 3.7 Sonnet作为Anthropic公司最新发布的人工智能模型,凭借其混合推理能力和卓越性能,成为当前AI领域的焦点。本文详细介绍了Claude 3.7的使用方法,包括官方渠道和第三方平台,如Claude官网、Slack集成、Poe平台、ChatShare、Trae、Sider、Lmsys和Perplexity等。同时,针对国内用户,提供了通过AWS的Claude API、借助海外资源直接使用以及使用AI聚合站等策略。技术特点方面,Claude 3.7具备混合推理能力、强大的编码性能和灵活的输出容量,适用于多种实际应用场景,如医疗保健、金融服务和开发与编程。通过性能对比数据和示例代码,本文为用户提供了全面的技术解析和使用指南,帮助用户更好地理解和应用Claude 3.7 Sonnet。
2025/03/04
Wan2.1:开源AI视频模型的崛起,超越Sora的视频生成技术
Wan2.1:开源AI视频模型的崛起,超越Sora的视频生成技术
【AI驱动】 Wan2.1 是由阿里巴巴云开发的一款开源AI模型,专为高效、高质量的视频生成而设计。它在多个方面表现出色,包括文本到视频(T2V)、图像到视频(I2V)、视频编辑和文本到图像(T2I)等功能,并且能够生成中英文双语字幕,使其在多语言应用场景中具有独特优势。Wan2.1 基于扩散变换器范式构建,通过流匹配框架增强,其核心创新包括 Wan-VAE 和 Video Diffusion DiT,能够高效处理1080P视频并保持时间连贯性。在 VBench 基准测试中,Wan2.1 的总体得分为86.22%,超越了竞争对手 Sora 的84.28%。它在 ID 一致性、单对象准确性和空间位置准确性方面表现出色,尽管在运动平滑性和大运动生成方面略逊一筹,但差距非常小。Wan2.1 的开源特性使其对开发者极为友好,开发者可以轻松获取其代码并进行定制和集成。其应用场景广泛,涵盖内容创作、教育、影视、广告、游戏等多个领域,能够为不同行业提供强大的支持。
2025/03/04
大模型RAG问答行业最佳案例及微调、推理双阶段实现模式
大模型RAG问答行业最佳案例及微调、推理双阶段实现模式
【AI驱动】 该工作所提出的模块化(Modular)RAG比较有趣,因此,今天我们来看看这个话题,价值之一在于,对RAG各个模块的方案进行了归置,对建立体系认知有帮助,供大家一起参考
2025/03/03
卷积神经网络和循环神经网络的代码实现
卷积神经网络和循环神经网络的代码实现
【AI驱动】 在 TensorFlow 中,通过 tensorflow.keras 模块构建 CNN 模型。首先加载 MNIST 数据集并进行归一化处理,接着构建包含卷积层(Conv2D)、池化层(MaxPooling2D)和全连接层(Dense)的顺序模型。训练模型时,使用 adam 优化器和 sparse_categorical_crossentropy 损失函数,通过 model.fit 方法进行训练。评估模型性能则通过 model.evaluate 方法。 在 PyTorch 中,同样加载 MNIST 数据集,并使用 torchvision.transforms 进行数据预处理。定义一个继承自 torch.nn.Module 的模型类,添加卷积层、池化层和全连接层。使用 torch.optim.Adam 和交叉熵损失函数训练模型,通过循环迭代数据加载器进行模型训练和评估。 循环神经网络(RNN): TensorFlow 实现的 RNN 使用 tensorflow.keras.layers.SimpleRNN 层。定义模型时,指定 RNN 单元数量和返回序列的参数,最后通过全连接层连接到输出层。PyTorch 实现的 RNN 定义一个自定义模型类,包含 nn.RNN 层和全连接层。使用 torch.optim.Adam 优化器和均方误差损失函数训练模型,通过循环迭代数据进行训练,并在测试集上评估模型性能。
2025/03/03
5 分钟用满血 DeepSeek R1 搭建个人 AI 知识库(含本地部署)
5 分钟用满血 DeepSeek R1 搭建个人 AI 知识库(含本地部署)
【AI驱动】 文章介绍了两种使用 DeepSeek R1 模型搭建个人知识库的方法:API 搭建和本地部署。对于不涉密数据且追求最佳效果的用户,推荐使用 API 搭建方式,具体步骤包括下载 Cherry Studio 软件、注册硅基流动平台获取免费额度、配置 API Key、选择 DeepSeek R1 模型、配置嵌入模型、创建知识库并上传文件进行向量化。对于有充足算力和希望保护数据安全的用户,可以选择本地部署方案,步骤包括下载 Ollama 软件、安装 DeepSeek R1 模型、使用 Cherry Studio 作为 UI 界面连接本地模型。文章还提到,DeepSeek 作为中国团队开发的世界级大模型,为用户提供了强大的 AI 功能,同时也展示了中国 AI 技术的进步。
2025/03/03
DeepSeek 使用指南:从 API Key 到本地部署,一步到位,推荐 3 款 AI 客户端
DeepSeek 使用指南:从 API Key 到本地部署,一步到位,推荐 3 款 AI 客户端
【AI驱动】 DeepSeek 近期在 AI 领域及大众中备受关注,预示着 2025 年 AI 技术将更普及。但其服务器卡顿问题影响了用户体验,为此 Chris 提供了包括获取官方 API Key、本地部署 DeepSeek 和推荐第三方 AI 客户端的解决方案。获取 API Key 可访问 DeepSeek 平台创建,但目前官方暂停充值服务。本地部署 DeepSeek 可通过 Ollama 工具实现,支持多种 AI 模型。对于不熟悉命令行的用户,推荐使用 ChatBox、CherryStudio 和 AnythingLLM 三款第三方 AI 客户端,它们支持多平台和多种 AI 模型,且注重本地数据存储与隐私保护。这些方法旨在帮助用户更高效地使用 DeepSeek,推动 AI 技术的普及与应用。
2025/03/03
基于DeepSeek-R1实现本地/API知识库,并接入微信BOT
基于DeepSeek-R1实现本地/API知识库,并接入微信BOT
【AI驱动】 本文详细介绍了搭建知识库并接入微信机器人的完整流程,包括环境配置、知识库部署、资料上传及细节调优技巧。DeepSeek 部署分为本地部署和第三方 API 调用两种方式,本地部署数据私有且响应快,但需较高硬件配置;API 调用快速接入且免维护,但数据需传输至第三方,长期成本不可控。知识库搭建使用开源框架 AnythingLLM,支持多模态模型,强调本地化和隐私保护。通过火山方舟和硅基流动平台获取 API 密钥,配置知识库时需填写相关参数,如请求地址、模型名称等。资料上传后需优化文档格式以提高 AI 理解准确性,如整理关键内容、删除无关信息。最后,通过生成 AnythingLLM 秘钥并配置 NGCBOT,将知识库接入微信机器人,实现智能问答功能。
2025/03/03
DeepSeek 技术分析 — (4)DualPipe
DeepSeek 技术分析 — (4)DualPipe
【AI驱动】 在深度学习中,前向传播和后向传播是训练神经网络的核心步骤。前向阶段,输入数据逐层通过网络生成输出;后向阶段,利用损失函数计算损失,通过链式法则反向传播梯度,并使用优化算法更新权重。对于大型语言模型(LLM),由于模型参数众多,无法装入单个 GPU 内存,需要采用模型并行和数据并行技术来加速训练。模型并行通过将模型按层或张量级别分区,分布到多个 GPU 上;数据并行则将模型复制到多个 GPU 上,独立生成梯度并同步更新。然而,大规模分布式训练面临资源利用、节点通信和同步等挑战。为充分利用集群计算资源,引入了多种管道并行技术,如 PipeDream 的“一前一后”(1F1B)调度策略,通过重叠通信和计算提高 GPU 利用率。零气泡流水线并行性进一步优化了计算和通信的重叠,减少流水线中的气泡。DeepSeek 从 V3 开始引入了 DualPipe 调度,通过细粒度阶段划分和双向流水线调度,提高了计算与通信的比率和效率,并定制了高效的跨节点全对全通信内核,充分利用集群的计算资源。
2025/03/03
DeepSeek 技术分析 — (3)多 Token
DeepSeek 技术分析 — (3)多 Token
【AI驱动】 GPT 和 Llama 等大型语言模型都是使用下一个标记预测损失进行训练的。这些模型通过执行下一个标记预测任务来学习大型文本语料库 x1,... xT。正式来说,学习目标是最小化交叉熵损失: 其中 Pθ 是我们正在训练的大型语...
2025/03/03
DeepSeek 技术分析 — (2)多头潜在注意力
DeepSeek 技术分析 — (2)多头潜在注意力
【AI驱动】 多头注意力机制是 Transformer 模型的核心组件,通过并行计算捕获序列中 token 之间的全局依赖关系,打破 RNN 和 CNN 的序列约束,推动语言模型发展。多查询注意力机制通过共享键和值提高增量推理速度,但可能降低质量并导致训练不稳定。分组查询注意力机制通过一组注意力头共享键和值的投影矩阵,在一定程度上缓解了这一问题。DeepSeek-V2 引入的多头潜在注意力(MLA)机制,通过低秩键值联合压缩技术减少 KV 缓存大小,显著降低内存占用并提高推理效率。MLA 核心是对键和值进行低秩联合压缩,消除推理时间键值缓存的瓶颈,同时采用解耦的 RoPE 策略以兼容低秩 KV 压缩。测试表明,MLA 在性能上优于传统多头注意力机制(MHA),且所需的 KV 缓存量明显小于 MHA。
2025/03/03
DeepSeek 技术分析 — (1) 混合专家
DeepSeek 技术分析 — (1) 混合专家
【AI驱动】 DeepSeek 模型凭借在不损失准确率情况下显著提升训练成本和推理效率而备受关注。其沿用 Transformer 架构,从 V2 开始在多头注意力层采用低秩键值联合压缩技术减少 KV 缓存大小,在前馈网络层采用 Mixture - of - Experts(MoE)技术通过稀疏计算以经济成本训练强大模型。重点在于 DeepSeekMoE,它是 MoE 变体,有将专家细分激活及隔离共享专家两处变化,缓解了传统 TopK MoE 知识混合性和冗余性问题,实现更优性能。混合专家让 LLM 不同子网络吸收学习不同领域知识,使模型参数高度专业化且激活参数贡献高。尽管 DeepSeekMoE 性能接近理论上限,但仍有优化空间,如密集模型非边界、不同领域知识处理可差异化对待等。LLM 效率提升将推动 AI 繁荣,促使更多组织参与改进,降低 LLM API 成本,助力 AI 应用在各行业提高效率和处理知识任务。
2025/03/03
好用的GPT:2025年最佳选择与实用指南
好用的GPT:2025年最佳选择与实用指南
【AI驱动】 本文汇总了2025年好用的GPT工具,包括国际和国内的热门选择。GPT的应用已经涵盖了内容创作、代码生成、文档处理等多个领域。例如,Guru专注于企业知识管理,而讯飞星火则提供了强大的文档生成功能。在内容创作方面,ChatSonic和般若AI表现突出,分别支持高质量文本生成和AI绘画。此外,GPT在代码生成和文档处理方面也有广泛应用,如GitHub Copilot和Documate等工具。在选择GPT工具时,用户需要根据功能、价格、支持平台等因素进行综合考虑。希望本文的介绍能够帮助您找到最适合自己的GPT工具。
2025/02/28
从0到1搭建本地RAG问答系统:Langchain+Ollama+RSSHub技术全解析
从0到1搭建本地RAG问答系统:Langchain+Ollama+RSSHub技术全解析
【AI驱动】 本文介绍了如何利用Langchain和Ollama技术栈在本地部署资讯问答机器人,并结合RSSHub处理资讯。强调数据质量和大模型性能对RAG系统上限的影响,指出RAG虽能缓解大模型幻觉和信息滞后,但无法完全消除。本文为本地搭建RAG系统的用户提供实用参考。
2025/02/28
激荡二十年:HTTPAPI的变迁
激荡二十年:HTTPAPI的变迁
【AI驱动】 2005年之前:API 的狂野西部 早期的互联网是非常狂野的,没有所谓前端后端之分。PHP 开发者可以把从处理用户的 HTTP 请求,连接 mysql,组装 SQL 进行查询,将查询结果转换成 HTML,一路到 HTML 响应返回给用...
2025/02/27
2025年AIAgent开发框架怎么选?
2025年AIAgent开发框架怎么选?
【AI驱动】 AI Agent,也叫智能体,正处于一个快速发展阶段。随着多个新框架的出现和该领域的新投资,现代人工智能代理正在克服不稳定的起源,迅速取代 RAG 成为实施重点。那么,2024 年最终会成为自主人工智能系统接管我们写电子邮件、预订航班、处理...
2025/02/27
1 4 5 6 7 8 62