所有文章 > AI驱动 > AI大模型选择的决策框架:比较GPT-3.5 和 GPT-4

AI大模型选择的决策框架:比较GPT-3.5 和 GPT-4

自 2022 年春季以来,大型语言模型 (LLM) 大量涌入市场。OpenAI、Microsoft、Anthropic、Meta 、百度、阿里和 AI 21 Labs 等公司已发布了其专有 LLM 的多个版本,引发了技术范式转变,开发者和企业如何选择AI大模型来使用?与所有重大技术进步一样,在决定如何以及何时利用这项创新技术时,需要一套决策框架来帮助回答“我应该何时使用哪种模型?”的问题。本博客以GPT 模型为案例,揭示该决策框架的使用。

对于AI技术初学者,建议通过下述文章能建立对AI大模型的一个认知框架:

为了快速达到水平集,生成式预训练转换器 (GPT) 是专为自然语言处理而设计的机器学习模型。它们在 EB 级数据(例如书籍和网页)上进行训练,以生成与上下文相关且语义连贯的语言。换句话说,GPT 可以生成类似于人类书写的文本,而无需明确编程。这使得它们具有高度的通用性和适应性,可以完成自然语言处理任务,包括回答问题、翻译语言和总结文本。GPT 系列模型中功能最强大的是 GPT 3.5 和 GPT4。即使在这些模型版本中,也有几个版本具有细微但重要的差异。虽然这些模型可以用于类似的自然语言任务,但它们有各自的优点和缺点。为了帮助您做出决策,我将在比较这些模型时使用以下因素:  

  • 上下文窗口  
  • 训练数据集截止  
  • 成本  
  • 模型功能  
  • 精细可调性 
  • 潜伏  

上下文窗口 

上下文窗口是指模型将接受作为输入的标记数。此输入包括系统提示和用户提示。这在 AI 应用程序的可操作性中起着重要作用,并且可以成为整个应用程序设计的决定性因素。例如,假设您负责构建一个利用 LLM 进行摘要的应用程序。您希望最终用户能够总结相当长的文本,因此您选择的模型需要能够“阅读并记住”多页文本。上下文窗口越大,您可以在提示中容纳的文本就越多。在撰写本文时,GPT 3.5(1106)的输入上下文窗口为 16k,输出上下文窗口为 4k。GPT4(1106 和 0125)的输入上下文窗口高达 128k,输出上下文窗口高达 4k。这就是阅读和记住最多 16 页与 200 多页文本之间的区别。各种技术(例如应用分块策略)都允许通过较小的上下文窗口处理大量文本。然而,虽然这可以实现处理更多文本的目标,但也会增加应用程序的复杂性,需要管理更多组件并解决更多工程挑战。 

训练数据集截止 

  

训练数据集截止是指模型停止“学习”的日期。鉴于这些 LLM 只是大型机器学习模型,机器学习的大多数原理仍然适用于它们。一个具体的原则是需要汇总和设计用于模型的训练数据集。虽然用于训练这些模型的一些数据是历史数据,但其中大部分与时事有关(例如当前的世界领导人或名人的去世)。由于这些模型不是实时增量训练的,这意味着通常有一个设定的截止点,模型对此没有进一步的知识(即数据)。通常,较新的模型版本将具有更新的训练数据集。例如,GPT 3.5 使用截至2021 年 9 月的数据进行训练,而不同版本的 GPT4 使用最近至 2023 年 12 月的数据进行训练。虽然这似乎是一个重大的限制,但有一些技术(例如检索增强生成 (RAG))可以通过为模型提供最新信息来规避这个截止日期。这就引出了一个问题:“如果我可以只使用 RAG,为什么还要关心训练数据截止值?”RAG 通常需要在提示中添加更多标记,这可能会导致更高的延迟和更高的成本。使用更新、更相关的数据对模型进行预训练可以减少您需要在 RAG 实施中包含的信息量。  

成本 

成本通常是设计 AI 应用程序时最大的因素之一。使用 LLM 的成本考虑通常归结为 token 测量。token 是模型用来解释自然语言的整个单词或单词片段。对于 GPT-3.5 和 GPT-4,1 个 token 代表大约 4 个字符。也就是说,并非所有 token 都是平等创建的。有提示 token 和完成 token。提示 token 是你传递给 LLM 的 token。这可以是系统消息、RAG 上下文或用户提示中的任何内容。提示 token 通常是在使用 LLM 时导致达到上下文窗口限制的因素。相反,完成 token 是 LLM 生成的 token。这些也会影响你的 token 限制,但可以通过更新“max_tokens”参数轻松控制。token 定价往往会有所不同,因此我建议查看Azure OpenAI Service 定价页面以了解最新价格。截至撰写本文时,GPT-3.5 的价格明显低于 GPT-4 的价格。    

功能 

在比较 GPT 模型时,了解它们的功能是关键。一个很好的思考方式是,GPT 模型系列中既有渐进式改进,也有指数式改进。GPT-3.5 和 GPT-4 各有 4 个版本:0301、0613、1106 和 0125。这些版本代表了渐进式改进,例如更低的延迟、支持函数调用和小错误修复。例如,与 0301 相比,GPT-3.5 (0613) 快60% 并支持函数调用。GPT-3.5 (1106) 在 0613 的基础上进行了改进,支持并行函数调用和与 Assistants API 的兼容性,而 0125 修复了响应格式和文本编码问题的错误。将 GPT-3.5 与 GPT-4 进行比较,这代表着指数级的改进。GPT-3.5 在 175B 个参数上进行了训练,而 GPT-4 可能在接近 1 万亿个参数上进行了训练。与 GPT-3.5 相比,通过接触更多数据,GPT-4 版本成功展示了更高级的推理和格式化能力。因此,通常建议在需要更“复杂”推理能力的情况下使用 GPT-4。将用例定义为“复杂”可能是主观的,但通常包括多智能体系统、图像和文本分析以及分类工作负载等用途。事实证明,即时工程可以提高 GPT-3.5 的能力,使其在某些任务上与 GPT-4 相媲美。虽然即时工程可能是一种可行的方法,但它通常需要使用更多令牌的技术,例如链式思维 (CoT) 和小样本学习。 

精细可调性 

虽然 GenAI 应用程序中的大多数用例和功能都可以通过 RAG 和即时工程相结合的方式解决,但在某些情况下,微调 LLM 是最佳解决方案。微调是根据您的特定数据定制模型的过程。它的工作原理类似于“少量学习”的即时工程概念,让您提供许多示例,说明您希望模型知道什么或您希望它如何响应。然后使用这些示例来改变模型权重,以更好地根据行业、公司、角色等定制模型。顾名思义,使用少量学习,您可以提供一些示例(2-5 个),但微调通常需要数千个示例才能对模型产生有意义的影响。在微调 LLM 时,由于观察到一种称为灾难性遗忘的现象,您还面临着使模型变得更糟而不是更好的风险。在考虑微调时,我建议首先尝试使用小型语言模型,例如phi-2。这是因为使用小型语言模型 (SLM),可以更轻松地更改模型权重,因此使用较小的数据集(通常为 100 条记录)可以提高其性能。也就是说,Azure OpenAI 支持对 GPT3.5 进行微调。这可以通过 Azure AI Studio 或Python SDK完成。  

潜伏 

在 LLM 中,延迟是指从快速提交到返回响应之间的时间延迟。测量延迟时,有两个指标需要注意:第一个标记时间 (TTFT) 和端到端延迟 (E2E)。顾名思义,它们分别指模型生成第一个标记所需的时间和解释和返回完整响应的时间。比较 GPT-3.5 和 GPT-4 时,一般观察到 GPT-3.5 的所有版本通常都比 GPT-4 版本更快。这可能是因为 GPT-4 的规模比 GPT-3.5 大。据传,GPT4 大约有 1 万亿个参数,其能力远超 GPT-3.5,但代价是计算量更大。像 GPT-3.5 这样的较小模型会更便宜、更快。如果您的工作负载既需要复杂的推理又需要低延迟,您可以实施一些技术,例如快速压缩和语义缓存,以利用 GPT-4。 

决策树 

以下是一个决策框架,可以帮助您集中注意力。虽然这不是一份全面的指南,但它是引导讨论技术和业务需求的一个很好的起点。如上所述,“复杂”可能是主观的,但在这种情况下可以包括与多智能体系统、图像和文本分析以及分类相关的用例。  

结论 

在 GPT-3.5 和 GPT-4 之间做出选择时,应清楚了解您的具体需求和限制。GPT-3.5 具有成本效益和更快的响应时间,非常适合这些因素至关重要的应用。同时,GPT-4 增强的推理能力和更广泛的上下文窗口使其成为需要更深入理解和精细内容生成的复杂任务的最佳选择。值得一提的是,您还可以采用“两全其美”的方法,使用 LLM 编排框架将 GPT-3.5 用作默认值,并在必要时灵活使用 GPT-4。最终,决策不仅应考虑技术方面,例如上下文窗口大小、训练数据集的最近性和延迟,还应考虑成本、微调的难易程度以及手头任务的具体要求等实际因素。通过仔细权衡这些方面,您可以充分利用 GPT 系列 LLM 的潜力,推动应用程序的创新和效率。请记住,LLM 领域正在迅速发展,了解最新发展将使您能够充分利用这些强大的工具。 

本文转自《Comparing GPT-3.5 & GPT-4: A Thought Framework on When To Use Each Model

参考资料

Awesome-LLMs-Evaluation-Papers
横向对比文心一言、百川、Minimax、通义千问、讯飞星火、ChatGPT

推荐阅读:
怎么看大模型、RAG、Agent、知识库、向量数据库、知识图谱、AGI的区别和联系?
大模型从原理到应用开发——提纲挈领,十问十答
AI+BI:结合大语言模型实现对话式的智能报表系统
#你可能也喜欢这些API文章!