为什么落地AI Agent更经济、更场景化？

内容导读

AI Agent无疑是今年AI领域最重要的主题之一。整体而言，AI Agent能力与大模型相生，大模型的能力边界决定了AI Agent的能力边界。

那么，AI Agent到底有何神奇之处？企业如果要部署AI Agent，需要做好哪些准备？它会成为大模型商业化的钥匙吗？本期AIGC实战派特别邀请九章云极DataCanvas AI首席科学家缪旭，结合其对于智能体的行业观察和实践总结，就上述议题进行逐一探讨。
内容目录

详解AI Agent

AI Agent与传统AI的区别
AI Agent与大模型的关系
AI Agent是实现AGI的关键钥匙吗？

AI Agent应用与挑战

AI Agent开启大模型“下半场”？
AI Agent的应用场景
AI Agent落地挑战

部署AI Agent

部署AI Agent的准备
AI Agent部署成本与安全性

入局AI Agent

AI Agent评价指标
如何切入AI Agent赛道？

嘉宾丨缪旭

撰稿丨张洁

编辑丨诺亚

来源 | 51CTO技术栈（ID：blog51cto）

详解AI Agent

AI Agent与传统AI的区别

AIGC实战派：相较传统AI，AI Agent有何特别之处？

缪旭：这里的传统AI，我理解为是针对特定任务的人工智能模型、系统或理论，比如计算机视觉中的分类任务，回归模型中的时间序列预测，自然语言处理中的命名实体识别（NER）等等。

可以看到，这类AI明显的特点是专注于特定任务：用途比较专一，训练过程相对独立。就像一个一个烟囱，彼此之间也没有什么通用性。这是传统的任务导向的AI系统。

而如今AI Agent（或者说智能体）的概念，更多强调的是通用能力。可以说，Agent是隶属于AGI的应用体系，其发展得益于大模型。

其一，随着大语言模型的通用泛化能力的提升，AI Agent也因此进入了一个完全不一样的发展图景。

其二，在多模态大模型的能力加持下，AI Agent能够理解视觉、听觉和文本信息，获得更全面的环境感知能力。有了这些信息之后，Agent的“角色”才会更加精准。

其三，Agent其实有很强的自主性，像人一样，能够试错、学习和适应。犯了错也会从中学习，进而改进其策略。这就是通用人工智能带来的好处和变化。

在有了这些能力之后，Agent就可以处理一些更为复杂的任务，这就在某种程度上超越了单一任务导向的传统AI。而且传统AI系统的“烟囱式”架构需要大量代码集成才能实现其落地，实现过程非常漫长。

如今交由大模型或者Agent框架来做的话，极大地简化了这一过程，减少了对编程能力的依赖，使用户可以更专注于业务本身的落地。所以这也是这波AI Agent带来的好处。

AI Agent与大模型的关系

AIGC实战派：从本质上讲，AI Agent 与大模型的关系是什么？其本质区别是什么？

缪旭：本质区别的话，大模型在预训练阶段通常使用自回归方法，这意味着模型依赖于已有数据的分布来预测下一个token。这种方法涉及到使用大量的数据样本，这些数据样本来源于前人的经验和实践。

在自回归训练中，数据被转换成语料，然后分割成token。模型的任务是预测下一个token。自回归模型的能力受限于它所训练的数据。如果训练数据只包含了前人的经验，那么模型的能力也可能仅限于此，难以超越既有的知识。

而AI Agent则强调自主性和适应性，它能够通过尝试不同的方法来探索、试错和学习，并根据不同的评价（获得奖励或惩罚）来优化自己的策略。也就是说，AI Agent通过结合强化学习等技术可以实现自我进化，有潜力实现更加复杂和高级的认知任务。

如果从OpenAI的角度来看，他们实际上是希望整个Agent都可以用大模型来实现的。我觉得像GPT 4o即omni版本已经非常像Agent的框架了。

之前OpenAI 的坊间传说中有关于Q*算法的种种揣测，实质上它就反映了OpenAI正试图通过Q*算法让大模型本身具备Agent的能力。

AI Agent

是实现AGI的关键钥匙吗？

AIGC实战派：AI Agent会是实现AGI的关键钥匙吗？

缪旭：(AI Agent如Q*）会是非常重要的改进。就像知名 AI 学者、图灵奖得主 Yann LeCun所说，他不看好自回归LLM，自回归 LLM 受限于前人经验，对潜在现实的了解有限，缺乏常识，没有记忆，而且无法规划答案。

从这个层面来说，AI Agent凭借其自主决策和自我进化的特性的确是更上了一层楼，但它究竟是不是实现AGI的关键，还有待商榷。

事实上，从AlphaGo开始就遵循了这一学习路径。一开始AlphaGo学习专业棋谱，就像自回归一样，学习前人积累的经验，后来开始用强化学习的方法生成新棋路，通过自我对弈来超越专业棋手。实际上这种训练方法也取得了成功。

但是本身这个任务还是比较像传统AI，是一个非常专一的任务。它的评价系统很简单，你明确地知道它的输赢规则。评判标准是没有任何歧义的。

但是放眼AGI的话，它其实是非常开放的。你很难去评判的原因在于：

第一，有很多未知领域，人的知识边界实际上是有很大局限的。在很多事情上无法判断最终结果是好是坏；

第二，评判受主观因素影响较大。评判标准的主观性容易导致不同价值观之间的冲突，如果一个智能体在训练时无法兼顾价值观的多样性，其学习结果往往可能不尽如人意，从而影响其在实际场景中的应用；

第三，目前的AI智能体，尽管在某些领域比自回归方法强，但并未完全实现自主脱离人进行自我进化的目标。因此，从整体来看，要以智能体作为实现AGI的必由之路还有相当的距离。

AI Agent应用与挑战

AI Agent 开启大模型“下半场”？

AIGC实战派：有人说，AI Agent可能是大模型在To B场景落地的一个主要方式，它将会开启大模型的下半场。您认同这一判断吗？

缪旭：我不太确定“下半场”的定义。但是我觉得，下一步，AI Agent会是比较现实的一个爆发点。

正如吴恩达教授所说，某些特定问题，用Agent的方法去开发比用大语言模型本身得出的结果要好得多，AI智能体工作流可能比下一代基础模型带来更大的AI进展。

因为有时候你使用的大语言模型可能不是那么强，要用这样的大模型直接出结果难度会比较大，但通过Agent的方法，基于它的适应性和试错能力，通过微调和不断学习，很可能获得比大语言模型更优的解决方案。

比如，要训练一个像Sora一样的视频生成大模型会非常昂贵，但我之前读过关于Mora的论文，Mora不是一个单独的模型，而是一个多Agents视频生成框架，结合多个高级视觉AI代理，复现了Sora的通用视频生成能力。

从这个角度来说，我觉得，落地AI Agent比较现实，也比较经济，有时候会更贴合落地场景的需求。

AI Agent的应用场景

AIGC实战派：目前AI Agent发展现状如何，有哪些主要的应用场景呢？

缪旭：首先，纯文本的Agent现在是处于比较卷的状态。

再者，随着GPT-4o的出现，多模态大模型越发受到关注。尤其是结合视觉信息，AI Agent将具备更强的多模态理解和决策能力，可能触发新的应用场景。

具体到应用领域的话，Tesla的自动驾驶是很强且具有未来感的AI Agent应用案例，因为它是真正基于端到端的多模态大模型，从视觉入口，加之其他传感器，直接去驱动其驾驶的效应器。这与当前的基于大语言模型构建的智能代理具有相当的差距。

自动驾驶要求其Agent具备实时决策能力，还要有极强的泛化能力以应对各种复杂情况。其任务通常是mission critical，任何小错误都可能付出巨大代价。所以Agent必须能够处理大量corner case，适应各种极端状况。因此，难度很大，挑战很多，可以说Agent在自动驾驶乃至驾驶领域有很多落地的想象空间。

另外，还有应用较多的领域主要包括知识管家类、智能客服类、数据分析类，还有办公自动化等，都有AI Agent发挥的空间。

AI Agent落地挑战

AIGC实战派：在构建AI Agent的过程中，可能会遇到哪些方面的挑战？

缪旭：一方面，AI Agent需要能够理解和适应特定行业的专业知识和业务逻辑，这可能需要额外的微调和训练；

另一方面，AI Agent需要提供自然和直观的交互方式，以及满足用户需求的体验，这可能需要深入理解用户行为和偏好。

如果是通用的办公类Agent，那可能会帮你省下不少时间，但是并不会带给你特别多的其他信息。

但如果是构建非通用的、专业化的AI Agent，比如法律类的Agent，那你就必须具备非常强的法律知识。

这里实际上会涉及到很多专业领域的问题。如何结合你的专业知识，并最终获得较好的落地效果，我认为是一个非常大的挑战。

还有比较重要的一点是，要明白：人工智能去解决专业问题，跟人去解决专业问题有很大区别。

虽然说AI可以替代一部分的专业能力，但是你要让一个专业人员去理解人工智能做的决策的话，必须尽可能预判到可能存在的交流障碍。

所以你做的这个智能体一定要让专业人员能够理解其角色，能够进行有效交互，进而帮助专业人员来完成他的最终任务。

AIGC实战派：大模型本身迭代周期较长。如果在大模型本身能力不提升的情况下，为了让AI Agent取得比较好的落地效果，可以考虑采取哪些策略？缪旭：首先，需要对专业的内在有深刻的洞察，能够将任务分解为可由大模型跟随执行的部分，做好规划（planning）工作；其次，精确的评价至关重要，只有好的反馈才能找到优化的路径；此外，需要提供沙盒环境允许智能体快速试错，从而得到更优的结果。