所有文章 > 当前标签:大语言模型

复杂推理:大语言模型的北极星能力
2025/03/17
1.动机:大语言模型作为新一代计算平台 我们研究复杂推理的原因有两个: 1. 复杂推理是标志着小模型与大模型差异的关键因素,这一点在 GPT-4 发布文章中已经讨论过; 2. 复杂推理是使模型成为下一代...

DeepSeekMath:挑战大语言模型的数学推理极限
【AI驱动】
DeepSeekMath是一个7B参数的模型,展示了接近GPT-4的数学推理能力,在MATH基准测试中超越了多个30B至70B参数的开源模型。它使用了从Common Crawl提取的120B高质量数学网页数据,并结合了代码领域模型DeepSeek-Coder-v1.5进行初始化训练,以及GRPO强化学习算法来提升对齐效果。实验结果显示DeepSeekMath在中英数学基准测试中表现出色,论文和模型已开源。
2025/03/13

大语言模型架构全景图:趋势、基准与挑战
【日积月累】
前言 2017年,Transformer架构的问世,为自然语言处理(NLP)技术带来了颠覆性的变革。一种名为大语言模型(LLM)的深度学习模型应运而生,它们在理解自然语言和生成连贯回应方面展现出超凡的能力。LLM的复杂性远超传统神经网...
2025/02/28

FastGPT知识库接口案例:构建本地化智能问答系统的深度解析
【日积月累】
本文将深入探讨如何利用FastGPT构建一个本地化的知识库接口系统,并结合实际案例,分析其技术优势、部署流程、知识库管理及自定义模型集成,为开发者提供专业且深度的指导。
2025/01/16

大语言模型技术是什么?
【日积月累】
本文聚焦大语言模型技术 Large Language Model,简称LLM,详述其基于深度学习利用海量文本经预训练与微调掌握语言规律的原理,介绍 Transformer 架构及训练机制;梳理从萌芽至爆发增长各阶段历程;展现内容创作、客服、开发等多领域应用;剖析数据、可解释性、伦理等挑战;展望架构、效率、应用拓展及协同发展趋势,全面解读该技术现状与未来走向
2025/01/09

利用AI API增强您的应用程序
【学习各类API】
今天,我们将深入探讨如何在应用程序中使用AI,特别是如何利用LLM来构建应用程序。我们还将讨论在决定是构建自己的AI API还是使用第三方AI供应商API时需要考虑的关键因素。
2024/09/01

大模型Prompt技巧
【AI驱动】
提示工程不仅仅是关于设计和研发提示词,还包含了与大语言模型交互和研发的各种技能和技术。提示工程在实现和大语言模型交互、对接,以及理解大语言模型能力方面都起着重要作用。
2024/08/19

如何利用微调LLMs预测股票收益率
【AI驱动】
本文探讨了微调大型语言模型(LLMs)以利用财务新闻流预测股票回报的方法,比较了编码器和解码器LLMs在不同文本表示方法下的性能,并发现聚合表示通常能提升投资组合表现,其中Mistral模型在多个投资宇宙中表现稳健,而基于LLMs的回报预测比传统情感分析更能增强投资组合构建的效果。
2024/08/19

大语音模型(LLM) 中的“参数”一词是什么意思?
【AI驱动】
当我们在大型语言模型 (LLM) 的上下文中谈论参数时,我们指的是帮助模型做出决策的内部配置。将参数视为决定模型如何运行的设置或规则。简单地说,它们就像您大脑中的神经元,帮助您思考、处理和决策。
2024/08/06

一文说尽大模型技术之一:LLM的架构
【AI驱动】
本文以“大语言模型技术”为核心,深入探讨了大语言模型(LLM)的关键技术细节。文章分为三个部分,分别介绍了LLM的架构、分布式预训练和参数高效微调技术。在架构部分,作者详细分析了GPT、LLaMA、ChatGLM和Falcon等模型的技术细节,包括分词器(tokenizer)、位置编码、层归一化、激活函数以及多查询注意力(Multi-query Attention)和分组查询注意力(Grouped-query Attention)等关键组件。这些技术细节对模型的训练速度和准确性有着直接影响。文章还探讨了并行Transformer模块的设计以及训练稳定性的重要性。整体而言,本文为读者提供了大语言模型技术的全面视角,适合对LLM技术感兴趣的研究者和开发者参考。
2024/07/22

AI大模型应用的6种架构设计模式,你知道几种?
【AI驱动】
根据多年的架构设计经验,作者在文中整理总结了一些针对大模型应用的设计方法和架构模式,试图应对和解决大模型应用实现中的一些挑战,比如:成本问题、延迟问题以及生成的幻觉等问题。
2024/06/27

大模型从原理到应用开发——提纲挈领,十问十答
【AI驱动】
本文是 新加坡科研局首席AI研究员黄佳 在CSDN直播间主题分享的文字版。
2024/06/12

一篇大模型Agent工具使用全面研究综述
【AI驱动】
本文对LLMs工具学习方面的现有工作进行全面调查。
2024/06/06

AI Agent框架 – 7大认知框架全解析与代码讲解ai实现
【AI驱动】
AI・AI Agent・代码讲解ai・AI Agent架构・AI大模型 生成式AI和AI Agent将彻底改变我们工作的方式,本文全面解析7大Agent认知框架的设计理解和实现方式。
2024/06/06

企业如何快速建立自己的专属AI大模型?
【AI驱动】
本文将探讨企业如何快速建立自己的专属AI大模型。随着数字化时代的到来,大规模数据处理和智能决策成为企业发展的关键。文章将从选取合适的AI技术平台、优化数据集准备、有效训练大模型、部署和优化模型运行等方面,为读者提供建立专属AI大模型的全面指南。
2024/05/04
.png)
微软API系列:AI搜索、大语言
【学习各类API】
微软云服务类API是当今开发者不可或缺的必备工具之一。这些API基于微软领先的云平台和先进的技术,提供了广泛的功能和服务,涵盖了人工智能、大数据、物联网等多个领域。
2024/04/24
搜索文章