大模型声音复刻-火山引擎
专用API
服务商:
北京火山引擎科技有限公司
【更新时间: 2024.08.02】
大模型声音复刻基于全自研最新语音大模型打造的超轻量级音色定制方案,开放环境中录制秒级别录音即可极速拥有专属定制音色,广泛应用于视频配音、数字人驱动、语音助手、在线教育等场景。
(0-50) / 138¥ / 个
去服务商官网采购>
|
服务星级:5星
浏览次数
102
采购人数
0
试用次数
0
SLA: N/A
响应: N/A
适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
|
- API详情
- 定价
- 使用指南
- 关于我们
- 相关推荐
什么是火山引擎的大模型声音复刻?
火山引擎大模型声音复刻是一种先进的语音合成技术服务。它基于火山引擎自研的语音大模型,通过录制短至5秒的音频,能够在开放环境下快速复刻特定的音色。该技术可以高度还原说话者的音色、说话风格和声学环境,甚至能实现跨语种克隆,使用户能够用自己的声音生成地道的外语表述。此服务被广泛应用于多个领域,提供高效、低成本且高还原度的音色定制解决方案。
什么是火山引擎的大模型声音复刻?
火山引擎的大模型声音复刻有哪些核心功能?
大模型能力全新大模型技术、使用百万数据训练,模型上限高。
|
|
高还原度不仅能很好地复刻素人的声音,更能高度还原专业声优音色声线和韵律起伏。
|
高自然度区别传统复刻,机械感变弱。音调、韵律、节奏、情感等更接近真人表现。
|
|
跨语种克隆即使用户仅会说中文,也可借助跨语言克隆技术,完成地道的英语、日语等语种表述。
|
火山引擎的大模型声音复刻的核心优势是什么?
- 5秒录制时长:超低成本、开放环境下录制即可、时长短成本低。
- 真人特点高还原:高度还原、还原音色特点、还原说话风格、还原口音和声学环境。
- 等待时长秒级别:极速复刻、秒级别复刻完成、高品质复刻能力。
- 全新大模型:技术领先、全新自研语音大模型、效果行业领先。
在哪些场景会用到火山引擎的大模型声音复刻?
在线教育 复制老师音色,可提升授课效能,降低老师长时间授课带来的咽喉损害。 |
|
|
语音助手
|
数字人驱动 支持输出音素级时间戳,配合数字人实现个性化形象定制能力。 |
|
|
视频配音 |
试用额度
- 火山引擎官网页面可进行免费体验,体验链接:声音复刻体验,每个主账号支持10次体验机会,不支持音频导出/下载,如需要获取音频,需在火山引擎控制台声音复刻服务下通过接口接入服务。
- 声音复刻建立应用后,会赠送一个音色的试用额度,支持上传10次训练音频,并享有20000字符的试听调用量。训练机会和试听字符任一项达到限额则试用额度用尽,试用额度在额度用尽、试用到期或服务开通为正式版后失效,试用音色无法直接转为正式音色。具体试用额度的用量、可使用范围、有效期等详情以控制台领取页面显示为准。
额度 |
并发 |
有效期 |
|
---|---|---|---|
声音复刻 |
20000字符 |
10 |
半年 |
正式版本
正式版本只支持API接入,有预付费和按调用量后付费两种计费模式。
预付费 |
后付费 |
|
---|---|---|
付费方式 |
预先付费 |
结算用量后付费 |
生效时间 |
立即生效 |
开通正式版即生效 |
累进周期 |
\ |
天 |
计费/结算周期 |
年 |
小时 |
- 注:
- 后付费按天累进当月用量阶梯,默认按小时计费,每小时出具上一小时账单。
- 预付费服务(除资源包外)一旦下单,不支持退订,请仔细阅读控制台相关条款/协议,确认清楚使用场景再进行下单。预付费未使用资源包支持7天无理由退订,详细规则见【退费说明】章节。
一、音色费用
价格(元/个) |
计价方式 |
|
---|---|---|
声音复刻费用 |
(0,50],138 |
按单次下单数量全额累进单价,不累计过往下单数量 |
模型存储费用 |
1元/个/月 |
包月,首次下单需购买12个月 |
二、调用推理费用
支持两种计费模式,可根据业务特点按需选择:
模式1:按调用字符数付费
说明
文档中“字”都是指字符,字符是指计算机中使用的文字和符号,1个汉字算1个字符,英文字母、希腊字母、标点符号、特殊符号、空格、回车等算1个字符。
调用字符需要使用UTF-8编码,该编码每个汉字通常占三个字节,计费使用字符数,与字节数无关。
语音合成标记语言(SSML:Speech Synthesis Markup Language)中的标签按照正常字符进行计费。
按调用字符数后付费
日调用量(万字) |
按调用量后付费(元/万字) |
---|---|
(0,+∞) |
8 |
按调用字符数资源包预付费
资源包规格(万字) |
资源包有效期 |
价格(元) |
---|---|---|
10 |
1年 |
75 |
200 |
1400 |
|
2000 |
13000 |
|
20000 |
110000 |
|
100000 |
450000 |
增购并发费用
说明
并发定义:同一时刻请求服务的数量,是某一个时刻后端服务同时处理的请求数,计数周期为点。举例,您新建一个语音合成请求,服务端在持续进行合成处理或音频流返回,此时并发是1;在该请求处理的同时,又新建了一个请求发送文本数据,这时服务端同时处理该应用的2个请求,并发数就变为2。
按调用字符数付费模式,默认支持10并发,增购单价100元/并发/月。
模式2:按调用并发数付费
按照纯并发计费模式,该模式只需购买并发,不再收取字符调用费用,音色和模型存储费正常计费。无默认支持并发,购买并发单价2000元/并发/月。
详情参考:https://www.volcengine.com/docs/6561/1167803
一、账号注册和登录
Step1: 注册账号
- 点击立即注册,注册成为火山用户(如已注册,请直接登录)
Step2: 登录+实名认证
-
请点击立即登录立即登录,登录火山引擎控制台
-
完成实名认证
二、开启和使用服务
Step1:创建应用
- 点击“创建应用”来新增应用,填入应用名称、简介和所需接入的能力服务;
-
只有接入能力的应用在服务中心中才有对应的显示;
-
创建完成后可点击编辑来增加服务,已勾选的服务不能取消;
-
Step2:开通服务
- 试用版本一般只够简单的测试使用,商用正式接入时需要开通服务为正式版本:
Step3:购买资源包
- 购买时长/次数资源包
-
时长/次数资源包通常按照统一价格和额度提供,用户选择相应的资源包(可多次购买)
-
在购买次数/时长等资源包的情况下 ,会优先扣减资源包的额度;
-
资源包抵扣顺序规则请参考:文档中心-火山引擎
-
Step4:语音合成-购买音色
语音合成如需购买音色,请参考以下步骤和说明。
- 购买音色
-
语音合成开通正式版服务后,服务详情增加【音色购买】入口;
-
点击【购买】按钮,即可勾选所需要的音色进行付款;
-
当前音色购买首年需按年购买,支持按月续费
-
Step5:续费(并发/QPS/音色)
- 包年包月计费项支持续费
-
可以在【服务包及使用详情】处点击「续费」按钮,即可自动跳转到续费下单详情页面,完成支付即可完成续费;
-
也可以在【费用-续费管理】发起续费,勾选续费项发起「续费」/「批量续费」/「开通自动续费」/设置「到期不续费」
-
计算 |
存储 |
数据库 | 容器与中间件 |
人工智能与机器学习 | 网络 | CDN与边缘 | 大数据 |
视频云 | 安全 | 企业服务与云通信 | 查看全部产品 |
企业上云
基于多云开放的高可用架构,火山引擎帮助企业业务快速云上部署,保障业务运行稳定,不断追求极致性能,使企业云上每一次计算及存储都能获得最优配置。
音视频
基于字节跳动音视频场景下的产品与运营实践,火山引擎为客户提供覆盖全场景云端一体音视频解决方案,一站获取完备音视频能力,助力业务创新敏捷落地。
智能营销
基于抖音集团的用户增长方法论,火山引擎从业务视角出发,持续串联内容生产、内容管理、公私域运营等环节,提供覆盖营销全链路的完整解决方案。
汽车行业
基于抖音集团在智能与数据领域的沉淀,火山引擎以“智能驾驶云”、“智能座舱云”、“体验运营云”为核心,打造个性化的互动智能座舱,提升全生命周期用户体验,构建精细化用户运营和业务增长能力。
金融行业
基于字节跳动的技术积累,火山引擎为金融机构提供从底层技术架构到技术中台,再到各类智能应用的全方位技术支持,构建数字敏捷,激发金融活力。
文娱行业
基于抖音集团稳定的基础产品能力、数据驱动的营销增长套件、AI加持的智能互动产品与多媒体技术,火山引擎为企业构建稳定业务、扩大用户触点、驱动交互创新、实现业务增长。
医疗
基于对生物医学行业的关注,火山引擎与行业深度结合,通过BT+IT技术推动行业加速,为客户提供多场景的解决方案,支持客户业务创新、敏捷落地。
政府文旅
基于抖音集团的技术底座,火山引擎整合云基础、数据、人工智能、物联网等技术能力,全面助力城市实现数字化转型,在城市治理、文旅营销等场景中全面实现效率提升。
通信传媒
基于抖音集团在泛资讯、短视频等领域的前沿能力,火山引擎提供了覆盖内容引入、生产、运营、分发、消费的端到端服务能力,打造完善的媒体数智化运营体系。
大消费
基于抖音集团的场景化实践,火山引擎围绕人货场关系,整合云基础、数据、算法、AI、内容等能力,实现从投放到交易的数据化闭环,帮助企业数字化运营效率提升。
优质的服务,全方位的支持 火山引擎坚定进入云市场 我们将始终坚持三个关键的理念 |
||
定制化服务方案 |
全方位业务响应 |
专业化技术支持 |
试用额度
- 火山引擎官网页面可进行免费体验,体验链接:声音复刻体验,每个主账号支持10次体验机会,不支持音频导出/下载,如需要获取音频,需在火山引擎控制台声音复刻服务下通过接口接入服务。
- 声音复刻建立应用后,会赠送一个音色的试用额度,支持上传10次训练音频,并享有20000字符的试听调用量。训练机会和试听字符任一项达到限额则试用额度用尽,试用额度在额度用尽、试用到期或服务开通为正式版后失效,试用音色无法直接转为正式音色。具体试用额度的用量、可使用范围、有效期等详情以控制台领取页面显示为准。
额度 |
并发 |
有效期 |
|
---|---|---|---|
声音复刻 |
20000字符 |
10 |
半年 |
正式版本
正式版本只支持API接入,有预付费和按调用量后付费两种计费模式。
预付费 |
后付费 |
|
---|---|---|
付费方式 |
预先付费 |
结算用量后付费 |
生效时间 |
立即生效 |
开通正式版即生效 |
累进周期 |
\ |
天 |
计费/结算周期 |
年 |
小时 |
- 注:
- 后付费按天累进当月用量阶梯,默认按小时计费,每小时出具上一小时账单。
- 预付费服务(除资源包外)一旦下单,不支持退订,请仔细阅读控制台相关条款/协议,确认清楚使用场景再进行下单。预付费未使用资源包支持7天无理由退订,详细规则见【退费说明】章节。
一、音色费用
价格(元/个) |
计价方式 |
|
---|---|---|
声音复刻费用 |
(0,50],138 |
按单次下单数量全额累进单价,不累计过往下单数量 |
模型存储费用 |
1元/个/月 |
包月,首次下单需购买12个月 |
二、调用推理费用
支持两种计费模式,可根据业务特点按需选择:
模式1:按调用字符数付费
说明
文档中“字”都是指字符,字符是指计算机中使用的文字和符号,1个汉字算1个字符,英文字母、希腊字母、标点符号、特殊符号、空格、回车等算1个字符。
调用字符需要使用UTF-8编码,该编码每个汉字通常占三个字节,计费使用字符数,与字节数无关。
语音合成标记语言(SSML:Speech Synthesis Markup Language)中的标签按照正常字符进行计费。
按调用字符数后付费
日调用量(万字) |
按调用量后付费(元/万字) |
---|---|
(0,+∞) |
8 |
按调用字符数资源包预付费
资源包规格(万字) |
资源包有效期 |
价格(元) |
---|---|---|
10 |
1年 |
75 |
200 |
1400 |
|
2000 |
13000 |
|
20000 |
110000 |
|
100000 |
450000 |
增购并发费用
说明
并发定义:同一时刻请求服务的数量,是某一个时刻后端服务同时处理的请求数,计数周期为点。举例,您新建一个语音合成请求,服务端在持续进行合成处理或音频流返回,此时并发是1;在该请求处理的同时,又新建了一个请求发送文本数据,这时服务端同时处理该应用的2个请求,并发数就变为2。
按调用字符数付费模式,默认支持10并发,增购单价100元/并发/月。
模式2:按调用并发数付费
按照纯并发计费模式,该模式只需购买并发,不再收取字符调用费用,音色和模型存储费正常计费。无默认支持并发,购买并发单价2000元/并发/月。
详情参考:https://www.volcengine.com/docs/6561/1167803
一、账号注册和登录
Step1: 注册账号
- 点击立即注册,注册成为火山用户(如已注册,请直接登录)
Step2: 登录+实名认证
-
请点击立即登录立即登录,登录火山引擎控制台
-
完成实名认证
二、开启和使用服务
Step1:创建应用
- 点击“创建应用”来新增应用,填入应用名称、简介和所需接入的能力服务;
-
只有接入能力的应用在服务中心中才有对应的显示;
-
创建完成后可点击编辑来增加服务,已勾选的服务不能取消;
-
Step2:开通服务
- 试用版本一般只够简单的测试使用,商用正式接入时需要开通服务为正式版本:
Step3:购买资源包
- 购买时长/次数资源包
-
时长/次数资源包通常按照统一价格和额度提供,用户选择相应的资源包(可多次购买)
-
在购买次数/时长等资源包的情况下 ,会优先扣减资源包的额度;
-
资源包抵扣顺序规则请参考:文档中心-火山引擎
-
Step4:语音合成-购买音色
语音合成如需购买音色,请参考以下步骤和说明。
- 购买音色
-
语音合成开通正式版服务后,服务详情增加【音色购买】入口;
-
点击【购买】按钮,即可勾选所需要的音色进行付款;
-
当前音色购买首年需按年购买,支持按月续费
-
Step5:续费(并发/QPS/音色)
- 包年包月计费项支持续费
-
可以在【服务包及使用详情】处点击「续费」按钮,即可自动跳转到续费下单详情页面,完成支付即可完成续费;
-
也可以在【费用-续费管理】发起续费,勾选续费项发起「续费」/「批量续费」/「开通自动续费」/设置「到期不续费」
-
计算 |
存储 |
数据库 | 容器与中间件 |
人工智能与机器学习 | 网络 | CDN与边缘 | 大数据 |
视频云 | 安全 | 企业服务与云通信 | 查看全部产品 |
企业上云
基于多云开放的高可用架构,火山引擎帮助企业业务快速云上部署,保障业务运行稳定,不断追求极致性能,使企业云上每一次计算及存储都能获得最优配置。
音视频
基于字节跳动音视频场景下的产品与运营实践,火山引擎为客户提供覆盖全场景云端一体音视频解决方案,一站获取完备音视频能力,助力业务创新敏捷落地。
智能营销
基于抖音集团的用户增长方法论,火山引擎从业务视角出发,持续串联内容生产、内容管理、公私域运营等环节,提供覆盖营销全链路的完整解决方案。
汽车行业
基于抖音集团在智能与数据领域的沉淀,火山引擎以“智能驾驶云”、“智能座舱云”、“体验运营云”为核心,打造个性化的互动智能座舱,提升全生命周期用户体验,构建精细化用户运营和业务增长能力。
金融行业
基于字节跳动的技术积累,火山引擎为金融机构提供从底层技术架构到技术中台,再到各类智能应用的全方位技术支持,构建数字敏捷,激发金融活力。
文娱行业
基于抖音集团稳定的基础产品能力、数据驱动的营销增长套件、AI加持的智能互动产品与多媒体技术,火山引擎为企业构建稳定业务、扩大用户触点、驱动交互创新、实现业务增长。
医疗
基于对生物医学行业的关注,火山引擎与行业深度结合,通过BT+IT技术推动行业加速,为客户提供多场景的解决方案,支持客户业务创新、敏捷落地。
政府文旅
基于抖音集团的技术底座,火山引擎整合云基础、数据、人工智能、物联网等技术能力,全面助力城市实现数字化转型,在城市治理、文旅营销等场景中全面实现效率提升。
通信传媒
基于抖音集团在泛资讯、短视频等领域的前沿能力,火山引擎提供了覆盖内容引入、生产、运营、分发、消费的端到端服务能力,打造完善的媒体数智化运营体系。
大消费
基于抖音集团的场景化实践,火山引擎围绕人货场关系,整合云基础、数据、算法、AI、内容等能力,实现从投放到交易的数据化闭环,帮助企业数字化运营效率提升。
优质的服务,全方位的支持 火山引擎坚定进入云市场 我们将始终坚持三个关键的理念 |
||
定制化服务方案 |
全方位业务响应 |
专业化技术支持 |