通义听悟

通义听悟

专用API
【更新时间: 2024.08.19】 通义听悟API服务,在语音识别、翻译和发言人识别的基础上,提炼全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等内容,对人与人交流的音视频进行分析与精简,帮助使用者快速了解音视频主要内容。
服务星级:2星
⭐ ⭐ 🌟 🌟 🌟 🌟 🌟
调用次数
0
集成人数
0
商用人数
0
! SLA: N/A
! 响应: N/A
! 适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
<
产品介绍
>

什么是通义听悟?

通义听悟API服务,在语音识别、翻译和发言人识别的基础上,提炼全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等内容,对人与人交流的音视频进行分析与精简,帮助使用者快速了解音视频主要内容。


关于通义听悟API的图片 的图像结果

什么是通义听悟?

由服务使用方的应用程序发起,以Restful风格为主、通过公网HTTP协议调用通义听悟,从而实现程序的自动化交互,提高服务效率。

通义听悟有哪些核心功能?

  1. 语音转写:支持将实时音频流或音视频文件中的语音转写为文字,支持多种语言包括中文、英文、粤语、中英混和日语,能够将对话中的不同人物进行区分,支持两人或多人对话的识别。
  2. 章节速览:基于不同的交流话题对音视频内容进行章节划分,为每个章节提供一句话的总结标题,用简短文字(约250字)概括章节内容。
  3. 大模型摘要:对完整的音视频内容进行总结,对不同发言人的说话内容进行分别总结,需配合“语音转写”中的“说话人分离”功能,识别对话中的显性和隐性问题,并提炼回答内容。
  4. 智能纪要:从对话中提取关键词,识别对话中的待办事项,提取关键句,帮助用户快速定位重要信息,分析对话内容,识别出是面试、演讲还是会议等场景。
  5. PPT抽取和总结:从视频文件中抽取出现的PPT内容,对每页PPT的讲解语音进行摘要总结,并与PPT内容相互对应。
  6. 文本翻译:支持中英、中日双向实时互译,将音视频文件中的语音转写为文字后,支持中英、中日双向互译

通义听悟的核心优势是什么?

  1. 语音、语言、视觉多模态,17个AI功能灵活搭配:支持音视频信息处理与提取,所需的多种AI能力,除语音识别、翻译、发言人识别外,还包括全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等功能。

     

  2. 对接速度快,省时省力:一套接口的参数化配置,即可开启不同场景中所需的AI能力,降低构建AI场景化服务的API对接成本,省时省力。

     

  3. 稳定服务:支持自定义主动消息推送通知与状态查询,提供多种异常情况处理机制,方便业务方进行上层业务逻辑处理。

     

在哪些场景会用到通义听悟?

  1. 实时会议记录:线上、线下会议使用通义听悟实时呈现多语言字幕;会后检索关键内容,可结合录音反复听取其中含义。完整会议录音和语音转文字结果,保证会议内容不被遗漏;音频与转写结果逐字对应,确保纪要撰写理解正确。待办事项提取可辅助会后任务跟进。

     

  2. 录音转写;使用智能工牌、手机、录音笔进行的录音,可通过通义听悟进行离线转写,并可分离发言人、查看全文概要、章节速览、发言总结。对门店服务、电话坐席进行内容分析与总结。

     

  3. 面试:实时记录一对一沟通交流的内容,避免因记录导致交流不畅或遗漏访谈内容,提高访谈效率和面试体验。

     

  4. 拜访纪要:智能纪要关键词和重点内容提取帮助销售人员快速了解交流重点;章节速览还原交流过程;待办事项保证客户的每项要求都不遗漏、可跟进。

     

  5. 企业培训:实时添加语言字幕,并能将培训关键词、主题进行提取,方便后续检索与定位。方便无法实时参加的人员在后续进行回看,提升培训内容在企业内部的持续价值。

  6. 教学视频分析:批量上传教学视频文件,可转写文字、知识点提取、教学内容分割,方便快速检索、定位、回看教学视频,学习更轻松。通过关键词总结,可分析教师授课的知识点覆盖度。

     

  7. 外语资料学习:英文或日语的音视频教学内容,实时转写并翻译成中文,拓宽学生的知识来源。尤其在出国留学的准备期,对提升听力有很大帮助

<
使用指南
>

快速入门
本文档介绍快速入门体验,帮助您快速体验通义听悟能力。
入门流程

准备账号
1:注册阿里云账号,请参见注册阿里云账号。

2:个人实名认证,请参见个人实名认证。

3:(仅使用旧版接口或MQ回调才需要该步骤)创建并授权RAM用户,请参见创建RAM用户。关于RAM用户的更多信息,请参见什么是访问控制。联系主账户在RAM控制台按以下步骤授权,使用通义听悟管控台时需要读取对象存储OSS和Rocket MQ的列表。如果RAM子账户没有读取对象存储OSS和Rocket MQ的列表的权限,会出现下图提示:

创建AccessKey
1:创建阿里云账号的AccessKey,登录RAM访问控制台,使用阿里云账号创建AccessKey。
2:创建RAM用户的AccessKey(可选)使用阿里云账号登录RAM访问控制台,为RAM用户创建AccessKey。

<
产品问答
>
?
如何注销账号?
第一步:点击首页右上角头像中的「账号中心」。 img 第二步:点击左侧「账号安全」,滑到底部后点击「开始注销」。 img 第三步:在弹出的「验证身份」弹窗中,完成账号身份验证,建议优先选择手机号码验证。也可以使用其他验证方式。 img 第四步:仔细阅读以下须知和链接中的协议。勾选:我已了解《阿里云账号注销协议》后,点击下一步。 img 第五步:确认注销后,系统检查账号是否满足注销条件,检查可能需要3-5分钟。 img 第六步 资源检查通过后,点击「确认注销」按钮。 img 第七步 在二次确认注销弹窗中,再次点击「确认注销」。 img 系统对账号进行注销操作后即可注销成功。 警告:账号注销中,请不要在此期间进行其它操作,否则可能导致账号注销失败。 img 微信小程序如何切换同个手机号下的不同账号? 第一步:电脑打开通义听悟https://tingwu.aliyun.com/点击登录按钮,使用手机号登录 img 第二步:选择微信小程序登录的账号进行登录(通常是最近登录的账号)。 img 第三步:点击首页右上角头像中的账号中心。 img 第四步:点击左侧基本信息,在三方账号绑定处点击「修改」,并解除微信绑定。 img img 第五步:回到微信小程序并使用手机号登录,即可选择需要登录的账号。 img
?
支持转写和翻译哪些语言?
通义听悟语音转文字,目前支持中文、英语、日语、粤语和中英文自由说五种语言。 音视频语言为中文时,支持翻译为英语、日语;音视频语言为英语、日语时,支持翻译为中文;音视频语言为中英文自由说时,支持翻译为中文、英语。 粤语暂不支持翻译功能。
?
支持英译中、日译中吗?
当音视频语言为英语或日语时,通义听悟可以将识别结果翻译为中文。
?
支持哪些文件格式?
通义听悟支持将多种格式的本地音视频文件以及阿里云盘文件转文字。本地文件最多可同时转写50个,阿里云盘文件最多可同时转写20个。单个文件最长6小时。 视频支持 : mp4、wmv、m4v、flv、rmvb、dat、mov、mkv、webm、avi、mpeg、3gp、ogg格式,单个不超过 6G; 音频支持 : mp3、wav、m4a、wma、aac、ogg、amr、flac、aiff格式,单个不超过 500M。
?
采样率是什么?
音频采样率是指录音设备在单位时间内对模拟信号采样的多少,采样频率越高,机械波的波形就越真实越自然,即音质越好。 通义听悟目前支持16k及以上的音频采样率,如果你的文件音频采样率低于这一数值,则无法使用文件转写功能。 (常见的音频采样率均在16k以上,电话录音的音频采样率可能为8k)
?
如何查看文件的采样率?
Macbook可以在访达中使用鼠标右键单击文件,选择「查看简介」,在「更多信息 - 采样速率」中即可查看。
?
支持哪些播客链接?
点击这里查看播客频道List,列表中的播客频道均可支持转写。 RSS源可在原作者内容官网页、苹果播客等网站中找到。
?
播客链接无法识别怎么办?
由于服务条款限制,无法支持对优酷、抖音、爱奇艺、腾讯视频、哔哩哔哩等网站链接的直接解析,可尝试下载视频后再使用。 (请确认下载内容已获得原权利人授权,且下载行为符合相关平台要求,如您未经许可的下载行为侵犯他人权益,需由您自行完全承担责任,通义听悟不承担任何责任。)
?
结束录音或上传文件后如何查看记录?
录音结束或文件转写成功后,记录将会自动出现在我的记录列表中,可以随时查看。
?
记录太多,如何找到我想看的内容?
记录支持搜索,你可以在首页上方搜索框中输入关键词,搜索历史记录。
?
播放音视频没有声音怎么办?
如果你的电脑开启代理,可能会导致无法正常播放。请按照以下步骤,检查并关闭代理后重试。 Macbook 第一步:打开电脑中的系统偏好设置,选择网络,点击高级。 image 第二步:在设置页面中选择代理,确保以下框内选项都没有被勾选。确认后,点击好,即完成设置。 image Windows 第一步:点击控制面板>Internet选项>Internet属性。在 Internet 属性的设置页面中,选择连接。在局域网(LAN)设置处,点击局域网设置。 image 第二步:在代理服务器处,确认为LAN使用代理服务器没有被勾选。检查完毕后,选择确定,即完成设置。 img
<
关于我们
>
通义千问是由阿里云自主研发的大语言模型,用于理解和分析用户输入的自然语言,在不同领域和任务为用户提供服务和帮助。您可以通过提供尽可能清晰详细的指令,来获取符合您预期的结果。通义听悟API服务,在语音识别、翻译和发言人识别的基础上,提炼全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等内容,对人与人交流的音视频进行分析与精简,帮助使用者快速了解音视频主要内容。
联系信息
服务时间: 00:00--24:00
电话号码: 4008013260
邮箱: tingwu_contact@service.alibaba.com
<
最可能同场景使用的其他API
>
API接口列表
<
使用指南
>

快速入门
本文档介绍快速入门体验,帮助您快速体验通义听悟能力。
入门流程

准备账号
1:注册阿里云账号,请参见注册阿里云账号。

2:个人实名认证,请参见个人实名认证。

3:(仅使用旧版接口或MQ回调才需要该步骤)创建并授权RAM用户,请参见创建RAM用户。关于RAM用户的更多信息,请参见什么是访问控制。联系主账户在RAM控制台按以下步骤授权,使用通义听悟管控台时需要读取对象存储OSS和Rocket MQ的列表。如果RAM子账户没有读取对象存储OSS和Rocket MQ的列表的权限,会出现下图提示:

创建AccessKey
1:创建阿里云账号的AccessKey,登录RAM访问控制台,使用阿里云账号创建AccessKey。
2:创建RAM用户的AccessKey(可选)使用阿里云账号登录RAM访问控制台,为RAM用户创建AccessKey。

<
依赖服务
>
<
产品问答
>
?
如何注销账号?
第一步:点击首页右上角头像中的「账号中心」。 img 第二步:点击左侧「账号安全」,滑到底部后点击「开始注销」。 img 第三步:在弹出的「验证身份」弹窗中,完成账号身份验证,建议优先选择手机号码验证。也可以使用其他验证方式。 img 第四步:仔细阅读以下须知和链接中的协议。勾选:我已了解《阿里云账号注销协议》后,点击下一步。 img 第五步:确认注销后,系统检查账号是否满足注销条件,检查可能需要3-5分钟。 img 第六步 资源检查通过后,点击「确认注销」按钮。 img 第七步 在二次确认注销弹窗中,再次点击「确认注销」。 img 系统对账号进行注销操作后即可注销成功。 警告:账号注销中,请不要在此期间进行其它操作,否则可能导致账号注销失败。 img 微信小程序如何切换同个手机号下的不同账号? 第一步:电脑打开通义听悟https://tingwu.aliyun.com/点击登录按钮,使用手机号登录 img 第二步:选择微信小程序登录的账号进行登录(通常是最近登录的账号)。 img 第三步:点击首页右上角头像中的账号中心。 img 第四步:点击左侧基本信息,在三方账号绑定处点击「修改」,并解除微信绑定。 img img 第五步:回到微信小程序并使用手机号登录,即可选择需要登录的账号。 img
?
支持转写和翻译哪些语言?
通义听悟语音转文字,目前支持中文、英语、日语、粤语和中英文自由说五种语言。 音视频语言为中文时,支持翻译为英语、日语;音视频语言为英语、日语时,支持翻译为中文;音视频语言为中英文自由说时,支持翻译为中文、英语。 粤语暂不支持翻译功能。
?
支持英译中、日译中吗?
当音视频语言为英语或日语时,通义听悟可以将识别结果翻译为中文。
?
支持哪些文件格式?
通义听悟支持将多种格式的本地音视频文件以及阿里云盘文件转文字。本地文件最多可同时转写50个,阿里云盘文件最多可同时转写20个。单个文件最长6小时。 视频支持 : mp4、wmv、m4v、flv、rmvb、dat、mov、mkv、webm、avi、mpeg、3gp、ogg格式,单个不超过 6G; 音频支持 : mp3、wav、m4a、wma、aac、ogg、amr、flac、aiff格式,单个不超过 500M。
?
采样率是什么?
音频采样率是指录音设备在单位时间内对模拟信号采样的多少,采样频率越高,机械波的波形就越真实越自然,即音质越好。 通义听悟目前支持16k及以上的音频采样率,如果你的文件音频采样率低于这一数值,则无法使用文件转写功能。 (常见的音频采样率均在16k以上,电话录音的音频采样率可能为8k)
?
如何查看文件的采样率?
Macbook可以在访达中使用鼠标右键单击文件,选择「查看简介」,在「更多信息 - 采样速率」中即可查看。
?
支持哪些播客链接?
点击这里查看播客频道List,列表中的播客频道均可支持转写。 RSS源可在原作者内容官网页、苹果播客等网站中找到。
?
播客链接无法识别怎么办?
由于服务条款限制,无法支持对优酷、抖音、爱奇艺、腾讯视频、哔哩哔哩等网站链接的直接解析,可尝试下载视频后再使用。 (请确认下载内容已获得原权利人授权,且下载行为符合相关平台要求,如您未经许可的下载行为侵犯他人权益,需由您自行完全承担责任,通义听悟不承担任何责任。)
?
结束录音或上传文件后如何查看记录?
录音结束或文件转写成功后,记录将会自动出现在我的记录列表中,可以随时查看。
?
记录太多,如何找到我想看的内容?
记录支持搜索,你可以在首页上方搜索框中输入关键词,搜索历史记录。
?
播放音视频没有声音怎么办?
如果你的电脑开启代理,可能会导致无法正常播放。请按照以下步骤,检查并关闭代理后重试。 Macbook 第一步:打开电脑中的系统偏好设置,选择网络,点击高级。 image 第二步:在设置页面中选择代理,确保以下框内选项都没有被勾选。确认后,点击好,即完成设置。 image Windows 第一步:点击控制面板>Internet选项>Internet属性。在 Internet 属性的设置页面中,选择连接。在局域网(LAN)设置处,点击局域网设置。 image 第二步:在代理服务器处,确认为LAN使用代理服务器没有被勾选。检查完毕后,选择确定,即完成设置。 img
<
关于我们
>
通义千问是由阿里云自主研发的大语言模型,用于理解和分析用户输入的自然语言,在不同领域和任务为用户提供服务和帮助。您可以通过提供尽可能清晰详细的指令,来获取符合您预期的结果。通义听悟API服务,在语音识别、翻译和发言人识别的基础上,提炼全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等内容,对人与人交流的音视频进行分析与精简,帮助使用者快速了解音视频主要内容。
联系信息
服务时间: 00:00--24:00
电话号码: 4008013260
邮箱: tingwu_contact@service.alibaba.com
<
最可能同场景使用的其他API
>