通义听悟

专用API

服务商：阿里巴巴达摩院（杭州）科技有限公司

【更新时间: 2024.08.19】通义听悟API服务，在语音识别、翻译和发言人识别的基础上，提炼全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等内容，对人与人交流的音视频进行分析与精简，帮助使用者快速了解音视频主要内容。

咨询去服务商官网采购>

浏览次数

181

采购人数

试用次数

SLA: N/A

响应: N/A

适用于个人&企业

试用

书签名称

确定

相似API

新闻摘要-百度

结合传统语义特征和深度学习模型，充分考虑段落分布和篇章结构，准确计算新闻语句的重要性，对新闻内容进行全面的语义理解与分析。能根据需求灵活控制摘要长度，自动抽取关键信息，形成摘要结果。可用于内容理解、内容分发、智能写作等多种应用，是智能媒体等行业必备AI能力之一

音频文件转写-百度

将批量上传的音频文件识别为文字，12小时内返回识别结果。适合录音质检、会议内容总结、音频内容分析等场景

文章标签生成

文章标签生成API利用深度学习与NLP技术，自动从文本中提取核心词，生成精准标签与摘要，实现内容智能化管理。

API详情
使用指南
常见 FAQ
关于我们
相关推荐

产品介绍

什么是通义听悟?

通义听悟API服务，在语音识别、翻译和发言人识别的基础上，提炼全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等内容，对人与人交流的音视频进行分析与精简，帮助使用者快速了解音视频主要内容。

关于通义听悟API的图片的图像结果

什么是通义听悟接口？

由服务使用方的应用程序发起，以Restful风格为主、通过公网HTTP协议调用通义听悟，从而实现程序的自动化交互，提高服务效率。

通义听悟有哪些核心功能？

语音转写：支持将实时音频流或音视频文件中的语音转写为文字，支持多种语言包括中文、英文、粤语、中英混和日语，能够将对话中的不同人物进行区分，支持两人或多人对话的识别。
章节速览：基于不同的交流话题对音视频内容进行章节划分，为每个章节提供一句话的总结标题，用简短文字（约250字）概括章节内容。
大模型摘要：对完整的音视频内容进行总结，对不同发言人的说话内容进行分别总结，需配合“语音转写”中的“说话人分离”功能，识别对话中的显性和隐性问题，并提炼回答内容。
智能纪要：从对话中提取关键词，识别对话中的待办事项，提取关键句，帮助用户快速定位重要信息，分析对话内容，识别出是面试、演讲还是会议等场景。
PPT抽取和总结：从视频文件中抽取出现的PPT内容，对每页PPT的讲解语音进行摘要总结，并与PPT内容相互对应。
文本翻译：支持中英、中日双向实时互译，将音视频文件中的语音转写为文字后，支持中英、中日双向互译

通义听悟的核心优势是什么？

语音、语言、视觉多模态，17个AI功能灵活搭配：支持音视频信息处理与提取，所需的多种AI能力，除语音识别、翻译、发言人识别外，还包括全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等功能。
对接速度快，省时省力：一套接口的参数化配置，即可开启不同场景中所需的AI能力，降低构建AI场景化服务的API对接成本，省时省力。
稳定服务：支持自定义主动消息推送通知与状态查询，提供多种异常情况处理机制，方便业务方进行上层业务逻辑处理。

在哪些场景会用到通义听悟？

实时会议记录：线上、线下会议使用通义听悟实时呈现多语言字幕；会后检索关键内容，可结合录音反复听取其中含义。完整会议录音和语音转文字结果，保证会议内容不被遗漏；音频与转写结果逐字对应，确保纪要撰写理解正确。待办事项提取可辅助会后任务跟进。
录音转写；使用智能工牌、手机、录音笔进行的录音，可通过通义听悟进行离线转写，并可分离发言人、查看全文概要、章节速览、发言总结。对门店服务、电话坐席进行内容分析与总结。
面试：实时记录一对一沟通交流的内容，避免因记录导致交流不畅或遗漏访谈内容，提高访谈效率和面试体验。
拜访纪要：智能纪要关键词和重点内容提取帮助销售人员快速了解交流重点；章节速览还原交流过程；待办事项保证客户的每项要求都不遗漏、可跟进。
企业培训：实时添加语言字幕，并能将培训关键词、主题进行提取，方便后续检索与定位。方便无法实时参加的人员在后续进行回看，提升培训内容在企业内部的持续价值。
教学视频分析：批量上传教学视频文件，可转写文字、知识点提取、教学内容分割，方便快速检索、定位、回看教学视频，学习更轻松。通过关键词总结，可分析教师授课的知识点覆盖度。
外语资料学习：英文或日语的音视频教学内容，实时转写并翻译成中文，拓宽学生的知识来源。尤其在出国留学的准备期，对提升听力有很大帮助

使用指南

快速入门
本文档介绍快速入门体验，帮助您快速体验通义听悟能力。
入门流程

准备账号
1：注册阿里云账号，请参见注册阿里云账号。

2:个人实名认证，请参见个人实名认证。

3:（仅使用旧版接口或MQ回调才需要该步骤）创建并授权RAM用户，请参见创建RAM用户。关于RAM用户的更多信息，请参见什么是访问控制。联系主账户在RAM控制台按以下步骤授权，使用通义听悟管控台时需要读取对象存储OSS和Rocket MQ的列表。如果RAM子账户没有读取对象存储OSS和Rocket MQ的列表的权限，会出现下图提示：

创建AccessKey
1:创建阿里云账号的AccessKey，登录RAM访问控制台，使用阿里云账号创建AccessKey。
2:创建RAM用户的AccessKey（可选）使用阿里云账号登录RAM访问控制台，为RAM用户创建AccessKey。

产品问答

如何注销账号？

第一步：点击首页右上角头像中的「账号中心」。 img 第二步：点击左侧「账号安全」，滑到底部后点击「开始注销」。 img 第三步：在弹出的「验证身份」弹窗中，完成账号身份验证，建议优先选择手机号码验证。也可以使用其他验证方式。 img 第四步：仔细阅读以下须知和链接中的协议。勾选：我已了解《阿里云账号注销协议》后，点击下一步。 img 第五步：确认注销后，系统检查账号是否满足注销条件，检查可能需要3-5分钟。 img 第六步资源检查通过后，点击「确认注销」按钮。 img 第七步在二次确认注销弹窗中，再次点击「确认注销」。 img 系统对账号进行注销操作后即可注销成功。警告：账号注销中，请不要在此期间进行其它操作，否则可能导致账号注销失败。 img 微信小程序如何切换同个手机号下的不同账号？第一步：电脑打开通义听悟https://tingwu.aliyun.com/点击登录按钮，使用手机号登录 img 第二步：选择微信小程序登录的账号进行登录（通常是最近登录的账号）。 img 第三步：点击首页右上角头像中的账号中心。 img 第四步：点击左侧基本信息，在三方账号绑定处点击「修改」，并解除微信绑定。 img img 第五步：回到微信小程序并使用手机号登录，即可选择需要登录的账号。 img

支持转写和翻译哪些语言？

通义听悟语音转文字，目前支持中文、英语、日语、粤语和中英文自由说五种语言。音视频语言为中文时，支持翻译为英语、日语；音视频语言为英语、日语时，支持翻译为中文；音视频语言为中英文自由说时，支持翻译为中文、英语。粤语暂不支持翻译功能。

支持英译中、日译中吗？

当音视频语言为英语或日语时，通义听悟可以将识别结果翻译为中文。

支持哪些文件格式？

通义听悟支持将多种格式的本地音视频文件以及阿里云盘文件转文字。本地文件最多可同时转写50个，阿里云盘文件最多可同时转写20个。单个文件最长6小时。视频支持 : mp4、wmv、m4v、flv、rmvb、dat、mov、mkv、webm、avi、mpeg、3gp、ogg格式，单个不超过 6G；音频支持 : mp3、wav、m4a、wma、aac、ogg、amr、flac、aiff格式，单个不超过 500M。

采样率是什么？

音频采样率是指录音设备在单位时间内对模拟信号采样的多少，采样频率越高，机械波的波形就越真实越自然，即音质越好。通义听悟目前支持16k及以上的音频采样率，如果你的文件音频采样率低于这一数值，则无法使用文件转写功能。（常见的音频采样率均在16k以上，电话录音的音频采样率可能为8k）

如何查看文件的采样率？

Macbook可以在访达中使用鼠标右键单击文件，选择「查看简介」，在「更多信息 - 采样速率」中即可查看。

支持哪些播客链接？

点击这里查看播客频道List，列表中的播客频道均可支持转写。 RSS源可在原作者内容官网页、苹果播客等网站中找到。

播客链接无法识别怎么办？

由于服务条款限制，无法支持对优酷、抖音、爱奇艺、腾讯视频、哔哩哔哩等网站链接的直接解析，可尝试下载视频后再使用。（请确认下载内容已获得原权利人授权，且下载行为符合相关平台要求，如您未经许可的下载行为侵犯他人权益，需由您自行完全承担责任，通义听悟不承担任何责任。）

结束录音或上传文件后如何查看记录？

录音结束或文件转写成功后，记录将会自动出现在我的记录列表中，可以随时查看。

记录太多，如何找到我想看的内容？

记录支持搜索，你可以在首页上方搜索框中输入关键词，搜索历史记录。

播放音视频没有声音怎么办？

如果你的电脑开启代理，可能会导致无法正常播放。请按照以下步骤，检查并关闭代理后重试。 Macbook 第一步：打开电脑中的系统偏好设置，选择网络，点击高级。 image 第二步：在设置页面中选择代理，确保以下框内选项都没有被勾选。确认后，点击好，即完成设置。 image Windows 第一步：点击控制面板>Internet选项>Internet属性。在 Internet 属性的设置页面中，选择连接。在局域网（LAN）设置处，点击局域网设置。 image 第二步：在代理服务器处，确认为LAN使用代理服务器没有被勾选。检查完毕后，选择确定，即完成设置。 img

关于我们

阿里巴巴达摩院（杭州）科技有限公司

企业

通义千问是由阿里云自主研发的大语言模型，用于理解和分析用户输入的自然语言，在不同领域和任务为用户提供服务和帮助。您可以通过提供尽可能清晰详细的指令，来获取符合您预期的结果。通义听悟API服务，在语音识别、翻译和发言人识别的基础上，提炼全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等内容，对人与人交流的音视频进行分析与精简，帮助使用者快速了解音视频主要内容。

联系信息

服务时间： 00:00--24:00

电话号码： 86 571 8502 2600

邮箱： tingwu_contact@service.alibaba.com

达摩院成立于2017年10月，致力于探索科技未知，以人类愿景为驱动力，面向未来开展基础科学和创新性技术研究。希望打通应用基础研究和产业应用，探索技术产品化、产品市场化的转换路径。

达摩院在数字技术领域取得了一系列技术突破并实现规模化应用，构建了全方位的人工智能基础能力，推出了业界领先的通义系列大模型，孵化出平头哥半导体公司等。接下来，达摩院将继续聚焦中长期科学技术研究，重点布局人工智能、集成电路等前沿领域。

发展历程

2023年2月，天眼查App显示，阿里巴巴达摩院（杭州）科技有限公司发生工商变更，注册资本由1000万人民币增至3亿人民币，增幅2900%。
2023年6月，阿里巴巴达摩院（杭州）科技有限公司的“达摩院开放域自然对话合成算法”备案通过，应用于对话生成场景，服务于智能对话类的企业端客户，利用对话意图理解、对话内容生成等技术，通过API提供对话生成功能，备案号为网信算备330110507206401230019号；“达摩院图像合成算法”备案通过，应用于图像生成场景，服务于图像合成类的企业端客户，通过API提供文字信息转化为图像信息的功能，备案号为网信算备330110507206401230027号；“达摩院交互式多能型合成算法”备案通过，应用于开放域多模态内容生成场景，服务于问答、咨询类的企业端客户，通过API提供根据用户输入生成多模态信息的功能，备案号为网信算备330110507206401230035号。
2023年7月，阿里巴巴达摩院（杭州）科技有限公司发生工商变更，周明卸任法定代表人、执行董事兼总经理，由张建锋接任。
2023年8月，该公司达摩院语音合成算法、达摩院虚拟试衣合成算法、达摩院人脸融合合成算法备案通过。
2024年2月，阿里巴巴达摩院（杭州）科技有限公司的“达摩院服饰上身合成算法”备案通过，应用于图像生成场景，服务于企业端客户，根据用户上传的服饰参考图和模特图，将服饰图里的服饰融合到模特身上，生成对应服饰商品的广告图，备案号为网信算备330110507206401240055号。
2024年4月，该公司达摩院单图生成3D合成算法备案通过，主要应用于图像生成场景，服务于企业端客户，根据用户输入的需要被3D生成的单张单体物体的图片，生成该物体的任意视角下的图像，达到利用单张图像生成3D模型的效果。备案号为网信算备330110507206401240063号。
2024年4月，该公司达摩院人物姿态编辑合成算法备案通过，主要应用于图像生成场景，服务于企业端客户，根据用户输入的骨架图和人物图，生成人物姿态编辑后的结果图像。备案号为网信算备330110507206401240071号。
2024年6月，阿里巴巴达摩院（杭州）科技有限公司达摩院人物舞蹈视频合成算法备案通过，主要功能是应用于视频生成场景，服务于企业端客户，根据用户输入的人物参考图和所选的预设姿态序列，生成指定姿态序列下的人物舞蹈视频。备案号为330110507206401240089号。

最可能同场景使用的其他API

刷脸支付-易生支付专用API

【更新时间：2024.08.19】刷脸支付是一种以AI人脸识别为核心的新型支付方式。人脸识别是百一种基于人的相貌特征信息进行身份认证的生物特征识别度技术，技术的最大特征是能避免个人信息泄露，并采用非接触的方式进行识别。

支付服务 > 聚合支付

法语关键词提取通用API

【更新时间：2024.08.19】轻松检索文本中的关键字。此API自动分析您的输入（标记化、标记化、引理化）并删除停止词，以帮助您识别文本中的主要关键字（如vers、常用名词、专有名词、形容词、副词）。

网站运营 > 关键词

人工转录专用API

【更新时间：2024.08.19】人工转录这项服务是由人类来执行操作的，其准确率能够高达 99%，表现相当出色。不过，该服务相对而言成本会更高一些，而且所需时间也会更长一点，在实际应用中需要综合考虑这些因素。

AI技术 > AI语音 > 音频转录

文本情绪分析-API Ninjas 专用API

【更新时间：2024.08.19】文本情绪分析接口-API Ninjas，能够针对任何给定的文本，迅速且精准地给出情绪分析结果。它通过专业的技术和算法，对文本的情绪倾向进行准确判别，为用户提供可靠的情绪分析服务，助力相关领域的深入发展。

智能识别 > 情绪识别

天翼云语音合成专用API

【更新时间：2024.08.19】语音合成（Text To Speech，TTS）将文本转成拟人化的语音。支持中文语音合成，提供男、女两种音色的选择，支持自定义语调、语速等参数。

AI技术 > AI语音 > 音频编辑