音频技术-北京火山引擎

音频技术-北京火山引擎

专用API
【更新时间: 2024.06.28】 音频技术(SAMI)专注于语音合成、音频处理、音乐理解与创作。我们的优势在于音乐与音频的多模态技术融合,自主研发的算法追求卓越性能。我们的目标是利用AI激发创作者的灵感,为用户带来创新的交互体验,探索声音的无限潜力。
服务星级:2星
⭐ ⭐ 🌟 🌟 🌟 🌟 🌟
浏览次数
30
采购人数
0
试用次数
0
! SLA: N/A
! 响应: N/A
! 适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
<
产品介绍
>

什么是北京火山引擎的音频技术?

音频技术(Speech, Audio & Music Intelligence,简称SAMI),主要致力于语音合成、音频理解与处理、音乐理解与编辑、音乐生成等技术的研究和应用。我们的优势是基于音乐和音频的多模态技术融合与创新,自研算法追求更优性能。我们的愿景是用AI赋能创作者,激发创作灵感,为用户提供全新的交互体验,发掘声音的无限可能。

什么是北京火山引擎的音频技术?

由服务使用方的应用程序发起,以Restful风格为主、通过公网HTTP协议调用北京火山引擎的音频技术,从而实现程序的自动化交互,提高服务效率。

北京火山引擎的音频技术有哪些核心功能?

1. 文本朗读(TTS)

我们使用业界领先的语音合成(TTS)技术,将文本转化为自然流畅、情感丰富、高度拟人化的语音,支持多语种、多方言,现已具备几十种音色并支持个性化定制,满足各类场景对文本朗读的需求。

2. 节拍检测(BeatTracking)

节拍检测能够自动分析获取音乐的节拍点,发现音乐的更多信息,辅助音乐资源利用。
目前支持在线OpenAPI调用以及离线SDK调用。

3. 音乐转谱(MIDI)

音乐转谱将输入的音频进行分析,提取导出MIDI格式内容,包含音乐的音符、力度、时长等信息。

4. 音乐标签(MusicTagging)

音乐标签通过人声、曲风、情绪、场景、语言、二级曲风等多个维度分析音乐,自动生成各维度下的标签。

5. 音源分离(MusicSourceSeparate)

音源分离能够自动分析歌曲中的人声和伴奏,进行提取分离用于K歌、二次创作等多种玩法。

6. 音频降噪与增强(AudioNoiseReductionAndEnhancement)

自研基于dsp算法和深度学习的回声消除、噪声抑制、声音增强,兼顾强降噪与高保真。针对不同场景,采取精准优化措施,尤其在音乐场景下,可以在保证人声和背景音乐无损伤的前提下,更好地抑制噪声。
目前可以通过接入音频技术SDK使用该功能。

7. 音效处理与变声 (SoundEffectProcessingAndVoiceChange)

提供多种音频剪辑能力,包含
预置变声特效 (花栗鼠、小哥哥、麦霸、扩音器、机器人、没电了、小黄人、巨人)
混响美化音效模板 (KTV、大自然、回音、演唱会、录音棚、音乐厅、空灵),
支持音频检测 (音高检测、语音活性检测、音量检测、响度检测、延迟检测),
单点音效器(动态压缩器、合唱音效、失真音效、回声音效、滤波器、调整声像、限制器、混响、颤音、升降调、增益),以及变速不变调等
目前可以通过接入音频技术SDK使用该功能。

北京火山引擎的音频技术的核心优势是什么?

  1. 多模态技术融合与创新:火山引擎的音频技术不仅仅是单一的语音或音乐处理技术,而是将语音合成、音频理解与处理、音乐理解与编辑、音乐生成等多种技术进行了融合与创新,这种多模态技术的结合使得火山引擎的音频技术能够处理更加复杂和多样化的音频任务。

  2. 自研算法追求更优性能:火山引擎在音频技术领域拥有自主研发的核心算法,这些算法经过不断优化和迭代,追求在性能上达到最优,能够在各种应用场景下提供高质量、高效率的音频处理效果。

  3. 广泛的产品线和应用能力:火山引擎已经推出了包括文本朗读(TTS)、节拍检测(BeatTracking)、音乐转谱(MIDI)、音乐标签(MusicTagging)、音源分离(MusicSourceSeparate)、音频降噪与增强(AudioNoiseReductionAndEnhancement)以及音效处理与变声(SoundEffectProcessingAndVoiceChange)等一系列音频技术产品,这些产品能够满足不同领域和场景下的音频处理需求。

  4. 高度拟人化的语音合成技术:火山引擎的文本朗读(TTS)技术采用业界领先的语音合成技术,能够将文本转化为自然流畅、情感丰富、高度拟人化的语音,支持多语种、多方言,并具备几十种音色和个性化定制能力,为用户提供了丰富的选择。

  5. 精准的音频处理能力:火山引擎的音频技术不仅限于语音合成,还包括音频降噪与增强、音效处理与变声等功能,能够实现对音频的精准处理和优化,满足不同用户对音频处理效果的需求。

  6. 用AI赋能创作者:火山引擎的愿景是用AI赋能创作者,通过音频技术激发创作灵感,为用户提供全新的交互体验,发掘声音的无限可能。这种愿景使得火山引擎的音频技术不仅仅是一种技术工具,更是一种能够激发创造力和想象力的力量。

在哪些场景会用到北京火山引擎的音频技术?

1. 有声朗读
用于小说、新闻、广告等多种语音播报场景,风格多样,情感丰富
2. 游戏场景
定制npc发音人,个性化语音包
3. 虚拟人物
适配不同虚拟形象的特色声音,可输出时间截匹配口型,效果更真实
4. 智能创作
为音视频编辑的配音、转场提供多样化的精品音色,让创作更精彩



<
产品价格
>

免费服务

API 免费调用量限额 免费调用并发限额
歌词对齐 100分钟免费调用,自开通之日3个月 2

 

正式服务

API 调用量(分钟/月) 梯度价格(元/分钟) 调用并发限额
歌词对齐 - 0.2 5

 

次数包

API 调用量(分钟) 价格(元) 调用并发限额 有效期
歌词对齐 10000 1800 5 一年
歌词对齐 50000 8500 5 一年

 

增购并发

API 按月购买(元/并发/月)
歌词对齐 200
<
使用指南
>

步骤一:注册账号

点击立即注册,注册成为火山用户(如已注册,请直接登录)

步骤二:登录账号完成实名认证

请点击立即登录立即登录,登录火山引擎控制台,完成实名认证。

步骤三:获取访问密钥AccessKey

拿到账号,并且登录控制台后。可以在控制台的右上角进入到密钥管理,点击进入:
在密钥管理中心,用户可以创建密钥,后续在对接的过程中会用到。在这个页面拿到AccessKey和AccessKey Secret。

步骤四:登录音频技术管控台

使用火山引擎主账号或者子账号登录音频技术管控台,默认进入 应用中心-应用管理 界面。
入口一:
从火山引擎首页→产品→音频技术→点击管理控制台或立即使用,即可进入音频技术的控制台。但首次登录会要求注册账号。

入口二:
从火山引擎首页→右上角管理控制台→产品及服务列表中选择音频技术→即可进入音频技术的控制台。
进入控制台后,会进入应用管理页面,在这个页面创建应用,开通API服务等。

步骤五:创建应用获取appkey

操作路径: 应用管理 -> 创建应用

  1. 创建应用

  2. 填写应用信息,创建应用时,可能会发现部分能无法勾选。原因是此时还未开通相应的API服务。可以先完成步骤3的开通服务后,再去勾选应用接入。

  3. 开通服务,请点击左侧导航栏的“服务列表”先开通,则试用期以开通时刻开始计算。如果需要开通正式收费版服务,则继续点击“按调用次数付费”或者购买“次数包”。

    4.服务接入应用,可以在能力详情页底部的“接入应用”或者是应用管理的右侧的“接入应用”特别说明一下,语音合成的功能,有免费的4个音色可以直接调用。要开通试用 其他音色,可以在语音合成的介绍页的底部开通,试用期一般是15天。
    5.接入应用后,API可以使用。按照接入指南操作。其中用appkey的位置如图,开发测试。接口开发文档中要求获取的token,请在下一篇文章“获取鉴权Token”中查看。

更新应用

操作路径: 应用管理 -> 接入能力

 

指南详情链接:https://www.volcengine.com/docs/6489/75565

<
产品问答
>
?
使用OpenAPI GetToken接口调用获取Token,提示错误:{'CodeN': 10001...
原因:当前用户未开通音频技术OpenAPI的权限。 解决方法:请进行授权操作:管控台 → 访问控制 → 用户管理 → 关联策略 → SAMIFullAccess,具体操作可以查看文档访问控制-用户管理。
?
使用OpenAPI GetToken接口调用获取Token,提示错误:{"code":420,"ms...
原因:使用appkey不存在,或者当前用户与使用appkey不对应,比如主账号创建的应用、误使用子账号的密钥进行操作。 解决方法:检查access key和appkey是否匹配。
?
使用OpenAPI GetToken接口调用获取Token,提示错误:{"code":400,"ms...
原因:输入参数错误。 解决方法:检查HTTP Header是否正确设置Content-Type: application/json;检查是否有按照要求传入对应参数。
?
服务请求发送处理,提示错误:"status_code": 40200002, "status_tex...
原因:json反序列化问题,客户端发送body数据json格式错误。 解决方法:检查入参是否符合规范;入参避免直接拼接json文本,尽量使用转换库,避免转义符号导致的json格式错误。若错误仍然未解决,可以记录task_id和错误码等请求相关信息,提交工单进行处理。
?
原因:json反序列化问题,客户端发送body数据json格式错误。 解决方法:检查入参是否符合规范...
问题分析: 音频技术聚焦音频/音乐的行业解决方案,暂不承接存储相关业务 url参数不是必传的,仍可选择通过data字段传入数据 解决方法:如有相关存储需求,可参考火山引擎-对象存储
<
关于我们
>
北京火山引擎科技有限公司是一家提供云计算服务的高科技企业,致力于通过稳定、安全、高性能的云服务助力企业数字化转型。公司旗下拥有包括云服务器、GPU云服务器、机器学习平台、内容分发网络等在内的丰富产品线,同时提供企业级AI应用开发平台、客户数据平台、增长分析等解决方案,服务于汽车、金融、文娱、大消费、医疗健康、传媒等多个行业,推动全行业的云上增长。
联系信息
服务时间: 10:00-19:00(工作日)
电话号码: 400-850-0030转1
邮箱: service@volcengine.com

火山引擎是什么
 
火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,帮助企业构建体验创新、数据驱动和敏捷迭代等数字化能力,实现业务可持续增长。

 
全方位产品矩阵
 
提供云基础到智能应用的全链路支撑
 

计算

存储

数据库 容器与中间件
人工智能与机器学习 网络 CDN与边缘 大数据
视频云 安全 企业服务与云通信 查看全部产品
 
丰富的解决方案
助你积极应对各类业务难题
 

企业上云
基于多云开放的高可用架构,火山引擎帮助企业业务快速云上部署,保障业务运行稳定,不断追求极致性能,使企业云上每一次计算及存储都能获得最优配置。

 

音视频
基于字节跳动音视频场景下的产品与运营实践,火山引擎为客户提供覆盖全场景云端一体音视频解决方案,一站获取完备音视频能力,助力业务创新敏捷落地。

 

智能营销
基于抖音集团的用户增长方法论,火山引擎从业务视角出发,持续串联内容生产、内容管理、公私域运营等环节,提供覆盖营销全链路的完整解决方案。

 

汽车行业
基于抖音集团在智能与数据领域的沉淀,火山引擎以“智能驾驶云”、“智能座舱云”、“体验运营云”为核心,打造个性化的互动智能座舱,提升全生命周期用户体验,构建精细化用户运营和业务增长能力。

 

金融行业
基于字节跳动的技术积累,火山引擎为金融机构提供从底层技术架构到技术中台,再到各类智能应用的全方位技术支持,构建数字敏捷,激发金融活力。

 

文娱行业
基于抖音集团稳定的基础产品能力、数据驱动的营销增长套件、AI加持的智能互动产品与多媒体技术,火山引擎为企业构建稳定业务、扩大用户触点、驱动交互创新、实现业务增长。

 

医疗
基于对生物医学行业的关注,火山引擎与行业深度结合,通过BT+IT技术推动行业加速,为客户提供多场景的解决方案,支持客户业务创新、敏捷落地。

 

政府文旅
基于抖音集团的技术底座,火山引擎整合云基础、数据、人工智能、物联网等技术能力,全面助力城市实现数字化转型,在城市治理、文旅营销等场景中全面实现效率提升。

 

通信传媒
基于抖音集团在泛资讯、短视频等领域的前沿能力,火山引擎提供了覆盖内容引入、生产、运营、分发、消费的端到端服务能力,打造完善的媒体数智化运营体系。

 

大消费
基于抖音集团的场景化实践,火山引擎围绕人货场关系,整合云基础、数据、算法、AI、内容等能力,实现从投放到交易的数据化闭环,帮助企业数字化运营效率提升。

 

优质的服务,全方位的支持
火山引擎坚定进入云市场
我们将始终坚持三个关键的理念

定制化服务方案
火山引擎能够提供专业的解决方案咨询服务,架构师1V1量身定制契合业务需求的高性价比服务方案

全方位业务响应
提供7x24小时全天候人工客服,多渠道覆盖支持客户各种类型的业务诉求,飞书值班号提供快捷、全面的响应支持

专业化技术支持
甄选100%通过火山引擎技术考核的服务工程师,做到技术有支持,服务有温度,问题有响应,落地有闭环

<
最可能同场景使用的其他API
>
API接口列表
<
产品价格
>

免费服务

API 免费调用量限额 免费调用并发限额
歌词对齐 100分钟免费调用,自开通之日3个月 2

 

正式服务

API 调用量(分钟/月) 梯度价格(元/分钟) 调用并发限额
歌词对齐 - 0.2 5

 

次数包

API 调用量(分钟) 价格(元) 调用并发限额 有效期
歌词对齐 10000 1800 5 一年
歌词对齐 50000 8500 5 一年

 

增购并发

API 按月购买(元/并发/月)
歌词对齐 200
<
使用指南
>

步骤一:注册账号

点击立即注册,注册成为火山用户(如已注册,请直接登录)

步骤二:登录账号完成实名认证

请点击立即登录立即登录,登录火山引擎控制台,完成实名认证。

步骤三:获取访问密钥AccessKey

拿到账号,并且登录控制台后。可以在控制台的右上角进入到密钥管理,点击进入:
在密钥管理中心,用户可以创建密钥,后续在对接的过程中会用到。在这个页面拿到AccessKey和AccessKey Secret。

步骤四:登录音频技术管控台

使用火山引擎主账号或者子账号登录音频技术管控台,默认进入 应用中心-应用管理 界面。
入口一:
从火山引擎首页→产品→音频技术→点击管理控制台或立即使用,即可进入音频技术的控制台。但首次登录会要求注册账号。

入口二:
从火山引擎首页→右上角管理控制台→产品及服务列表中选择音频技术→即可进入音频技术的控制台。
进入控制台后,会进入应用管理页面,在这个页面创建应用,开通API服务等。

步骤五:创建应用获取appkey

操作路径: 应用管理 -> 创建应用

  1. 创建应用

  2. 填写应用信息,创建应用时,可能会发现部分能无法勾选。原因是此时还未开通相应的API服务。可以先完成步骤3的开通服务后,再去勾选应用接入。

  3. 开通服务,请点击左侧导航栏的“服务列表”先开通,则试用期以开通时刻开始计算。如果需要开通正式收费版服务,则继续点击“按调用次数付费”或者购买“次数包”。

    4.服务接入应用,可以在能力详情页底部的“接入应用”或者是应用管理的右侧的“接入应用”特别说明一下,语音合成的功能,有免费的4个音色可以直接调用。要开通试用 其他音色,可以在语音合成的介绍页的底部开通,试用期一般是15天。
    5.接入应用后,API可以使用。按照接入指南操作。其中用appkey的位置如图,开发测试。接口开发文档中要求获取的token,请在下一篇文章“获取鉴权Token”中查看。

更新应用

操作路径: 应用管理 -> 接入能力

 

指南详情链接:https://www.volcengine.com/docs/6489/75565

<
依赖服务
>
<
产品问答
>
?
使用OpenAPI GetToken接口调用获取Token,提示错误:{'CodeN': 10001...
原因:当前用户未开通音频技术OpenAPI的权限。 解决方法:请进行授权操作:管控台 → 访问控制 → 用户管理 → 关联策略 → SAMIFullAccess,具体操作可以查看文档访问控制-用户管理。
?
使用OpenAPI GetToken接口调用获取Token,提示错误:{"code":420,"ms...
原因:使用appkey不存在,或者当前用户与使用appkey不对应,比如主账号创建的应用、误使用子账号的密钥进行操作。 解决方法:检查access key和appkey是否匹配。
?
使用OpenAPI GetToken接口调用获取Token,提示错误:{"code":400,"ms...
原因:输入参数错误。 解决方法:检查HTTP Header是否正确设置Content-Type: application/json;检查是否有按照要求传入对应参数。
?
服务请求发送处理,提示错误:"status_code": 40200002, "status_tex...
原因:json反序列化问题,客户端发送body数据json格式错误。 解决方法:检查入参是否符合规范;入参避免直接拼接json文本,尽量使用转换库,避免转义符号导致的json格式错误。若错误仍然未解决,可以记录task_id和错误码等请求相关信息,提交工单进行处理。
?
原因:json反序列化问题,客户端发送body数据json格式错误。 解决方法:检查入参是否符合规范...
问题分析: 音频技术聚焦音频/音乐的行业解决方案,暂不承接存储相关业务 url参数不是必传的,仍可选择通过data字段传入数据 解决方法:如有相关存储需求,可参考火山引擎-对象存储
<
关于我们
>
北京火山引擎科技有限公司是一家提供云计算服务的高科技企业,致力于通过稳定、安全、高性能的云服务助力企业数字化转型。公司旗下拥有包括云服务器、GPU云服务器、机器学习平台、内容分发网络等在内的丰富产品线,同时提供企业级AI应用开发平台、客户数据平台、增长分析等解决方案,服务于汽车、金融、文娱、大消费、医疗健康、传媒等多个行业,推动全行业的云上增长。
联系信息
服务时间: 10:00-19:00(工作日)
电话号码: 400-850-0030转1
邮箱: service@volcengine.com

火山引擎是什么
 
火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,帮助企业构建体验创新、数据驱动和敏捷迭代等数字化能力,实现业务可持续增长。

 
全方位产品矩阵
 
提供云基础到智能应用的全链路支撑
 

计算

存储

数据库 容器与中间件
人工智能与机器学习 网络 CDN与边缘 大数据
视频云 安全 企业服务与云通信 查看全部产品
 
丰富的解决方案
助你积极应对各类业务难题
 

企业上云
基于多云开放的高可用架构,火山引擎帮助企业业务快速云上部署,保障业务运行稳定,不断追求极致性能,使企业云上每一次计算及存储都能获得最优配置。

 

音视频
基于字节跳动音视频场景下的产品与运营实践,火山引擎为客户提供覆盖全场景云端一体音视频解决方案,一站获取完备音视频能力,助力业务创新敏捷落地。

 

智能营销
基于抖音集团的用户增长方法论,火山引擎从业务视角出发,持续串联内容生产、内容管理、公私域运营等环节,提供覆盖营销全链路的完整解决方案。

 

汽车行业
基于抖音集团在智能与数据领域的沉淀,火山引擎以“智能驾驶云”、“智能座舱云”、“体验运营云”为核心,打造个性化的互动智能座舱,提升全生命周期用户体验,构建精细化用户运营和业务增长能力。

 

金融行业
基于字节跳动的技术积累,火山引擎为金融机构提供从底层技术架构到技术中台,再到各类智能应用的全方位技术支持,构建数字敏捷,激发金融活力。

 

文娱行业
基于抖音集团稳定的基础产品能力、数据驱动的营销增长套件、AI加持的智能互动产品与多媒体技术,火山引擎为企业构建稳定业务、扩大用户触点、驱动交互创新、实现业务增长。

 

医疗
基于对生物医学行业的关注,火山引擎与行业深度结合,通过BT+IT技术推动行业加速,为客户提供多场景的解决方案,支持客户业务创新、敏捷落地。

 

政府文旅
基于抖音集团的技术底座,火山引擎整合云基础、数据、人工智能、物联网等技术能力,全面助力城市实现数字化转型,在城市治理、文旅营销等场景中全面实现效率提升。

 

通信传媒
基于抖音集团在泛资讯、短视频等领域的前沿能力,火山引擎提供了覆盖内容引入、生产、运营、分发、消费的端到端服务能力,打造完善的媒体数智化运营体系。

 

大消费
基于抖音集团的场景化实践,火山引擎围绕人货场关系,整合云基础、数据、算法、AI、内容等能力,实现从投放到交易的数据化闭环,帮助企业数字化运营效率提升。

 

优质的服务,全方位的支持
火山引擎坚定进入云市场
我们将始终坚持三个关键的理念

定制化服务方案
火山引擎能够提供专业的解决方案咨询服务,架构师1V1量身定制契合业务需求的高性价比服务方案

全方位业务响应
提供7x24小时全天候人工客服,多渠道覆盖支持客户各种类型的业务诉求,飞书值班号提供快捷、全面的响应支持

专业化技术支持
甄选100%通过火山引擎技术考核的服务工程师,做到技术有支持,服务有温度,问题有响应,落地有闭环

<
最可能同场景使用的其他API
>