SenseChat 5.5 Agent 开发：引领多模态大模型新时代

日新5.5：多项测评超越GPT-4o

在人工智能领域，一款出色的大模型往往要经过多项全球权威测评，而 SenseChat 5.5 在这一领域表现尤为突出。借助 MMB v1.1、MMStar、Math Vista、AI2D、OCRBench 等测评，SenseChat 5.5 的表现超越了 GPT-4o。其在语言和知识、推理数理、编程、考试五大能力上，较 5.0 版本有显著提升，整体性能提高了 30%。

这种性能的提升得益于其混合端边云协同专家架构，基于超过 10TB tokens 高质量数据训练，能在确保推理成本降低的同时，发挥云边端协同的优势。这也使得 SenseChat 5.5 成为国内首个流式多模态交互模型，能够实时处理声音、文本、图像和视频的多态交互。

现场演示：实时音视频交互

在 WAIC 大会上，商汤科技通过 SenseChat 5.5 的演示，展示了其卓越的实时音视频交互能力。演示者利用手机摄像头对准观众席，SenseChat 5.5 迅速识别出活动现场的飘带，并准确回答了观众的问题。其流畅的多模态交互能力引发了现场观众的热烈反响。

实时文字识别与解读

SenseChat 5.5 不仅能够识别图像中的文字，还能进行实时的文本解读。例如，演示者在摄像头前展示了一本书，SenseChat 5.5 立刻识别出书名和作者，并能对书中的内容进行解读。这种实时的文本处理能力，为信息获取和处理带来了极大的方便。

多模态理解的提升

在演示中，SenseChat 5.5 展示了其强大的多模态理解能力。演示者绘制了一幅简笔画，SenseChat 5.5 立即识别出画中内容，并能够描述其细节。这种能力得益于其在多模态数据上的深度学习，使其在不同媒体之间的转换和理解上表现出色。

Vimi 人物视频生成模型

在实时交互技术之外，商汤科技还推出了 Vimi 人物视频生成模型。基于 SenseChat 5.5，Vimi 能够通过动作视频、动画、声音和文字等元素，生成分钟级的人物视频内容。其高动态、高保真的视频生成能力，使其在市场上独树一帜。

Vimi 的技术优势

Vimi 相较于其他视频生成工具，具有在生成光影和动态方面的自然和谐优势。用户可以通过简单的 IP 替换，生成自己所需的视频内容。这一功能不仅拓宽了视频生成的应用场景，也为用户提供了更多的创作自由度。

商汤科技的技术创新

商汤科技在 AI 视频生成领域的创新，不仅体现在 Vimi 的人物生成模型上，还推动了整个大模型应用的升级。通过这些技术迭代，商汤科技在全球 AI 领域的影响力不断扩大。

小浣熊家族和 SenseChat 的更新

商汤科技不断更新其产品线，其中小浣熊家族的更新尤为引人注目。新推出的代码小浣熊个人升级版，响应速度提升 5 倍，代码精度提升 10%，已经吸引了超过 200 家企业的使用。

代码小浣熊的功能提升

代码小浣熊不仅在响应速度上有显著提升，还增加了丰富的插件功能和完善的数据看板。这些更新使其在代码生成和优化上表现更加出色，为开发者提供了更为便捷的工具。

原生数据产品的上线

商汤科技还推出了办公小浣熊网页个人升级版和小程序版，支持更多数据接入和个性化用户体验。通过这些产品，用户可以在多端实现数据的联动分析，从而提高办公效率。

商量拟人大模型的发布

商量拟人大模型 SenseChat-Character-Pro 版的发布，标志着商汤科技在拟人对话领域的进一步突破。该模型支持个性化角色创建与定制，具备知识库构建、长对话记忆和多人群聊功能。

SenseChat-Character-Pro 的特性

在角色扮演对话代理领域，SenseChat-Character-Pro 版在角色对话能力、人设一致能力及角色扮演吸引力方面全面领先。其在 CharacterEval 测评中的表现优于 GPT-4，成为行业标杆。

开放生态与应用扩展

大模型的成功离不开生态的建设，为此，商汤科技推出了 0 元 Go 计划，推动开发者和行业客户加入创新的大潮。通过从 OpenAI 向 SenseNova 的迁移培训，企业用户可以获得多项免费服务。

商汤生态的一盘棋策略

商汤科技的生态策略，强调多模态大模型的全方位应用。端侧大模型已适配手机、平板电脑、VR 一体机等众多终端，为智能硬件玩家重塑业务提供了便利。

结语：国产大模型的技术跃升

商汤科技在 SenseChat 5.5 的开发中，突破了多项技术壁垒，尤其在多模态交互和大模型应用上取得了显著的进展。尽管国内 AI 产业在人才和资本上与国际尚有差距，但应用侧的快速发展为大模型带来了新的机遇。

FAQ

问：什么是 SenseChat 5.5 的主要优势？
- 答：SenseChat 5.5 在多模态交互上表现出色，能够实时处理声音、文本、图像和视频，并在多项全球权威测评中超越 GPT-4o。
问：Vimi 人物视频生成模型的独特之处是什么？
- 答：Vimi 能够通过多种元素驱动人物图片生成分钟级的视频内容，光影和动态自然和谐，用户可以替换各种 IP 生成所需的视频。
问：商汤科技的生态策略有哪些亮点？
- 答：商汤科技的生态策略注重多模态大模型的全方位应用，推出 0 元 Go 计划，为企业用户提供免费迁移服务，并支持多种终端的应用。
问：商量拟人大模型的应用场景有哪些？
- 答：商量拟人大模型可应用于拟人对话场景，支持个性化角色创建与定制，并具备知识库构建、长对话记忆和多人群聊功能。
问：如何评价商汤科技在 AI 领域的技术创新？
- 答：商汤科技通过 SenseChat 5.5 和 Vimi 等产品的推出，展现了其在 AI 技术创新上的领先优势，推动了国产大模型的发展。