通义听悟
专用API
服务商:
阿里巴巴达摩院(杭州)科技有限公司
【更新时间: 2024.08.19】
通义听悟API服务,在语音识别、翻译和发言人识别的基础上,提炼全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等内容,对人与人交流的音视频进行分析与精简,帮助使用者快速了解音视频主要内容。
咨询
去服务商官网采购>
|
- API详情
- 使用指南
- 常见 FAQ
- 关于我们
- 相关推荐
什么是通义听悟?
通义听悟API服务,在语音识别、翻译和发言人识别的基础上,提炼全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等内容,对人与人交流的音视频进行分析与精简,帮助使用者快速了解音视频主要内容。
什么是通义听悟?
通义听悟有哪些核心功能?
- 语音转写:支持将实时音频流或音视频文件中的语音转写为文字,支持多种语言包括中文、英文、粤语、中英混和日语,能够将对话中的不同人物进行区分,支持两人或多人对话的识别。
- 章节速览:基于不同的交流话题对音视频内容进行章节划分,为每个章节提供一句话的总结标题,用简短文字(约250字)概括章节内容。
- 大模型摘要:对完整的音视频内容进行总结,对不同发言人的说话内容进行分别总结,需配合“语音转写”中的“说话人分离”功能,识别对话中的显性和隐性问题,并提炼回答内容。
- 智能纪要:从对话中提取关键词,识别对话中的待办事项,提取关键句,帮助用户快速定位重要信息,分析对话内容,识别出是面试、演讲还是会议等场景。
- PPT抽取和总结:从视频文件中抽取出现的PPT内容,对每页PPT的讲解语音进行摘要总结,并与PPT内容相互对应。
- 文本翻译:支持中英、中日双向实时互译,将音视频文件中的语音转写为文字后,支持中英、中日双向互译
通义听悟的核心优势是什么?
-
语音、语言、视觉多模态,17个AI功能灵活搭配:支持音视频信息处理与提取,所需的多种AI能力,除语音识别、翻译、发言人识别外,还包括全文摘要、章节速览、发言总结、待办事项、PPT、问答、关键词等功能。
-
对接速度快,省时省力:一套接口的参数化配置,即可开启不同场景中所需的AI能力,降低构建AI场景化服务的API对接成本,省时省力。
-
稳定服务:支持自定义主动消息推送通知与状态查询,提供多种异常情况处理机制,方便业务方进行上层业务逻辑处理。
在哪些场景会用到通义听悟?
-
实时会议记录:线上、线下会议使用通义听悟实时呈现多语言字幕;会后检索关键内容,可结合录音反复听取其中含义。完整会议录音和语音转文字结果,保证会议内容不被遗漏;音频与转写结果逐字对应,确保纪要撰写理解正确。待办事项提取可辅助会后任务跟进。
-
录音转写;使用智能工牌、手机、录音笔进行的录音,可通过通义听悟进行离线转写,并可分离发言人、查看全文概要、章节速览、发言总结。对门店服务、电话坐席进行内容分析与总结。
-
面试:实时记录一对一沟通交流的内容,避免因记录导致交流不畅或遗漏访谈内容,提高访谈效率和面试体验。
-
拜访纪要:智能纪要关键词和重点内容提取帮助销售人员快速了解交流重点;章节速览还原交流过程;待办事项保证客户的每项要求都不遗漏、可跟进。
-
企业培训:实时添加语言字幕,并能将培训关键词、主题进行提取,方便后续检索与定位。方便无法实时参加的人员在后续进行回看,提升培训内容在企业内部的持续价值。
-
教学视频分析:批量上传教学视频文件,可转写文字、知识点提取、教学内容分割,方便快速检索、定位、回看教学视频,学习更轻松。通过关键词总结,可分析教师授课的知识点覆盖度。
-
外语资料学习:英文或日语的音视频教学内容,实时转写并翻译成中文,拓宽学生的知识来源。尤其在出国留学的准备期,对提升听力有很大帮助
快速入门
本文档介绍快速入门体验,帮助您快速体验通义听悟能力。
入门流程
准备账号
1:注册阿里云账号,请参见注册阿里云账号。
2:个人实名认证,请参见个人实名认证。
3:(仅使用旧版接口或MQ回调才需要该步骤)创建并授权RAM用户,请参见创建RAM用户。关于RAM用户的更多信息,请参见什么是访问控制。联系主账户在RAM控制台按以下步骤授权,使用通义听悟管控台时需要读取对象存储OSS和Rocket MQ的列表。如果RAM子账户没有读取对象存储OSS和Rocket MQ的列表的权限,会出现下图提示:
创建AccessKey
1:创建阿里云账号的AccessKey,登录RAM访问控制台,使用阿里云账号创建AccessKey。
2:创建RAM用户的AccessKey(可选)使用阿里云账号登录RAM访问控制台,为RAM用户创建AccessKey。
达摩院成立于2017年10月,致力于探索科技未知,以人类愿景为驱动力,面向未来开展基础科学和创新性技术研究。希望打通应用基础研究和产业应用,探索技术产品化、产品市场化的转换路径。
达摩院在数字技术领域取得了一系列技术突破并实现规模化应用,构建了全方位的人工智能基础能力,推出了业界领先的通义系列大模型,孵化出平头哥半导体公司等。接下来,达摩院将继续聚焦中长期科学技术研究,重点布局人工智能、集成电路等前沿领域。
发展历程
- 2023年2月,天眼查App显示,阿里巴巴达摩院(杭州)科技有限公司发生工商变更,注册资本由1000万人民币增至3亿人民币,增幅2900%。
- 2023年6月,阿里巴巴达摩院(杭州)科技有限公司的“达摩院开放域自然对话合成算法”备案通过,应用于对话生成场景,服务于智能对话类的企业端客户,利用对话意图理解、对话内容生成等技术,通过API提供对话生成功能,备案号为网信算备330110507206401230019号;“达摩院图像合成算法”备案通过,应用于图像生成场景,服务于图像合成类的企业端客户,通过API提供文字信息转化为图像信息的功能,备案号为网信算备330110507206401230027号;“达摩院交互式多能型合成算法”备案通过,应用于开放域多模态内容生成场景,服务于问答、咨询类的企业端客户,通过API提供根据用户输入生成多模态信息的功能,备案号为网信算备330110507206401230035号。
- 2023年7月,阿里巴巴达摩院(杭州)科技有限公司发生工商变更,周明卸任法定代表人、执行董事兼总经理,由张建锋接任。
- 2023年8月,该公司达摩院语音合成算法、达摩院虚拟试衣合成算法、达摩院人脸融合合成算法备案通过。
- 2024年2月,阿里巴巴达摩院(杭州)科技有限公司的“达摩院服饰上身合成算法”备案通过,应用于图像生成场景,服务于企业端客户,根据用户上传的服饰参考图和模特图,将服饰图里的服饰融合到模特身上,生成对应服饰商品的广告图,备案号为网信算备330110507206401240055号。
- 2024年4月,该公司达摩院单图生成3D合成算法备案通过,主要应用于图像生成场景,服务于企业端客户,根据用户输入的需要被3D生成的单张单体物体的图片,生成该物体的任意视角下的图像,达到利用单张图像生成3D模型的效果。备案号为网信算备330110507206401240063号。
- 2024年4月,该公司达摩院人物姿态编辑合成算法备案通过,主要应用于图像生成场景,服务于企业端客户,根据用户输入的骨架图和人物图,生成人物姿态编辑后的结果图像。备案号为网信算备330110507206401240071号。
- 2024年6月,阿里巴巴达摩院(杭州)科技有限公司达摩院人物舞蹈视频合成算法备案通过,主要功能是应用于视频生成场景,服务于企业端客户,根据用户输入的人物参考图和所选的预设姿态序列,生成指定姿态序列下的人物舞蹈视频。备案号为330110507206401240089号。
快速入门
本文档介绍快速入门体验,帮助您快速体验通义听悟能力。
入门流程
准备账号
1:注册阿里云账号,请参见注册阿里云账号。
2:个人实名认证,请参见个人实名认证。
3:(仅使用旧版接口或MQ回调才需要该步骤)创建并授权RAM用户,请参见创建RAM用户。关于RAM用户的更多信息,请参见什么是访问控制。联系主账户在RAM控制台按以下步骤授权,使用通义听悟管控台时需要读取对象存储OSS和Rocket MQ的列表。如果RAM子账户没有读取对象存储OSS和Rocket MQ的列表的权限,会出现下图提示:
创建AccessKey
1:创建阿里云账号的AccessKey,登录RAM访问控制台,使用阿里云账号创建AccessKey。
2:创建RAM用户的AccessKey(可选)使用阿里云账号登录RAM访问控制台,为RAM用户创建AccessKey。
达摩院成立于2017年10月,致力于探索科技未知,以人类愿景为驱动力,面向未来开展基础科学和创新性技术研究。希望打通应用基础研究和产业应用,探索技术产品化、产品市场化的转换路径。
达摩院在数字技术领域取得了一系列技术突破并实现规模化应用,构建了全方位的人工智能基础能力,推出了业界领先的通义系列大模型,孵化出平头哥半导体公司等。接下来,达摩院将继续聚焦中长期科学技术研究,重点布局人工智能、集成电路等前沿领域。
发展历程
- 2023年2月,天眼查App显示,阿里巴巴达摩院(杭州)科技有限公司发生工商变更,注册资本由1000万人民币增至3亿人民币,增幅2900%。
- 2023年6月,阿里巴巴达摩院(杭州)科技有限公司的“达摩院开放域自然对话合成算法”备案通过,应用于对话生成场景,服务于智能对话类的企业端客户,利用对话意图理解、对话内容生成等技术,通过API提供对话生成功能,备案号为网信算备330110507206401230019号;“达摩院图像合成算法”备案通过,应用于图像生成场景,服务于图像合成类的企业端客户,通过API提供文字信息转化为图像信息的功能,备案号为网信算备330110507206401230027号;“达摩院交互式多能型合成算法”备案通过,应用于开放域多模态内容生成场景,服务于问答、咨询类的企业端客户,通过API提供根据用户输入生成多模态信息的功能,备案号为网信算备330110507206401230035号。
- 2023年7月,阿里巴巴达摩院(杭州)科技有限公司发生工商变更,周明卸任法定代表人、执行董事兼总经理,由张建锋接任。
- 2023年8月,该公司达摩院语音合成算法、达摩院虚拟试衣合成算法、达摩院人脸融合合成算法备案通过。
- 2024年2月,阿里巴巴达摩院(杭州)科技有限公司的“达摩院服饰上身合成算法”备案通过,应用于图像生成场景,服务于企业端客户,根据用户上传的服饰参考图和模特图,将服饰图里的服饰融合到模特身上,生成对应服饰商品的广告图,备案号为网信算备330110507206401240055号。
- 2024年4月,该公司达摩院单图生成3D合成算法备案通过,主要应用于图像生成场景,服务于企业端客户,根据用户输入的需要被3D生成的单张单体物体的图片,生成该物体的任意视角下的图像,达到利用单张图像生成3D模型的效果。备案号为网信算备330110507206401240063号。
- 2024年4月,该公司达摩院人物姿态编辑合成算法备案通过,主要应用于图像生成场景,服务于企业端客户,根据用户输入的骨架图和人物图,生成人物姿态编辑后的结果图像。备案号为网信算备330110507206401240071号。
- 2024年6月,阿里巴巴达摩院(杭州)科技有限公司达摩院人物舞蹈视频合成算法备案通过,主要功能是应用于视频生成场景,服务于企业端客户,根据用户输入的人物参考图和所选的预设姿态序列,生成指定姿态序列下的人物舞蹈视频。备案号为330110507206401240089号。
-
朗新科技合作案例: 朗新科技接入百炼大模型服务平台后,对通义千问基础模型能力进行场景基模效果验证,并进行了电力行业问答数据效果调优、智能问数场景中NL2SQL模型微调、plugin阶段参数API处理增强优化。通过通义千问电力行业知识政策问答、电力账单解读、数据问答等场景中实现更智能化的用户服务新模式。
-
阿里云“伙伴千问计划”: 阿里云发布了“通义千问伙伴计划”阶段性成果,与朗新、亚信、数字政通、蓝凌、千方等60余家伙伴共同验证了“通义千问”大模型的30余个行业应用场景,涵盖协同办公、文化旅游、财务ERP、电力、政务、医保、交通、制造、金融、软件开发等行业,涉及智能问答、文章摘要、文案写作、代码辅助、知识库升级等场景。
-
蓝凌软件合作案例: 蓝凌软件对“通义千问”大模型在知识问答场景的应用进行了探索。相较于传统的数据收集与训练方法,其训练效率提高了十倍;而在企业搜索引擎场景中,与传统词搜索相比,搜索效率也提高了3倍以上。
-
中国一汽、新东方、长安汽车合作案例: 中国一汽、新东方、长安汽车等也宣布了与通义大模型的合作成果。
-
中国科学院国家天文台合作案例: 中国科学院国家天文台人工智能组基于通义千问开发了新一代天文大模型“星语3.0”,这是大模型首次应用于天文观测领域。
-
陕煤建新煤矿合作案例: 陕煤建新煤矿等十余座矿山推出由通义支持的新型矿山重大风险识别处置系统,成为大模型在矿山场景的首次规模化落地。