语音大模型服务MiniMax-稀宇科技
专用API
服务商:
上海稀宇科技有限公司
【更新时间: 2024.03.22】
依托新一代AI大模型能力,MiniMax语音模型speech-01能够根据上下文,智能预测文本的情绪、语调等信息,并生成超自然、高保真、个性化的语音。
|
服务星级:6星
浏览次数
121
采购人数
2
试用次数
0
SLA: N/A
响应: N/A
适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
|
- API详情
- 定价
- 使用指南
- 常见 FAQ
- 关于我们
- 相关推荐
什么是稀宇科技的语音大模型服务MiniMax?
依托新一代AI大模型能力,MiniMax语音模型speech-01能够根据上下文,智能预测文本的情绪、语调等信息,并生成超自然、高保真、个性化的语音。相较于传统语音合成技术,MiniMax的语音模型以更精准、快速的方式,在音质、断句气口、韵律节奏等方面达到以“AI”乱真的合成新高度,为客户带来更生动、更具情感表现力的听觉体验。
什么是稀宇科技的语音大模型服务MiniMax?
稀宇科技的语音大模型服务MiniMax有哪些核心功能?
-
多品质音色复刻
-
语音在线合成
-
自动理解文本
稀宇科技的语音大模型服务MiniMax的核心优势是什么?
- 高保真、超自然:具备理解人类语言中复杂含义的能力,包括情感、语气甚至笑声,从文本中预测喜悦、悲伤、愤怒等多维信息,生成更贴合“自然人声”的语音语调。在某些情境下,甚至能表现出极具戏剧化的特征,如发出笑声等
- 多样化、高延展:能在一定量的参数中学习到数千个声音的音色特征,并自由组合,生成无限数量的声音变体、情感和风格,无论是成熟御姐、温柔女主播,还是青涩男大、稳重男主持,亦或是其他风格化的音色,都能轻松生成,满足多元场景需求
- 低成本、高效率:无需专业录音环境和设备,我们的快速复刻服务可以在极简的条件下运行,只需提供30秒的录制音频,即可完成语音克隆。生成的语音与原音色高度相似,大幅减少时间和资金的投入。
在哪些场景会用到稀宇科技的语音大模型服务MiniMax?
有声读物
|
语音助手
|
咨询播报
|
IP复刻
|
CV配音
|
计费项 |
接口说明 |
单价 |
T2A |
支持音量、语调、语速调整和混音功能 |
5元/万字符 |
T2A pro |
在T2A接口的基础上,支持单次合成最高5000字符输入,支持比特率、采样率相关参数调整特性,支持音频时长、音频大小等返回参数,支持字幕返回。 |
5元/万字符 |
T2A large |
在T2A接口的基础上,支持单次合成最高1000万字符输入,支持非法字符检测等功能,适用于整本书籍语音合成的超长文本场景。 |
2元/万字符 |
T2A stream |
支持基于自然语言交互生成回复的能力,适用于语音通话、语音聊天等需求流式的相关场景。 |
5元/万字符 |
voice_clone(快速复刻) |
基于大语言模型的音色克隆更加精准快速,无需数小时时长的超高质量原音频、无需传统TTS的超长工期,可以在极短时间内完成音色复刻,并通过大语言模型加持,使复刻后的音色与原音色进行高质量还原,从而满足客户需求。 |
本接口暂时只提供邀请制客户使用,有使用需求的客户可以通过客户经理或者通过官方邮箱open-platform@minimaxi.com进行申请使用。 |
相关文档请查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20
概念说明
音频信息
一段音频文件可以包含多种信息,这些信息共同决定了音频文件的播放质量、兼容性和文件大小。其中最关键的包括:
- 声道(Channels): 声道数表明了音频是单声道(Mono)、双声道(Stereo)还是多声道(如5.1环绕声)。单声道有一个音频信号,双声道有两个独立信号,为左声道和右声道,多声道则提供沉浸式的听觉体验。
- 格式(Format): 音频格式定义了音频文件的存储方式。常见的格式有WAV(无损格式,通常文件较大)、MP3(有损压缩,文件相对较小)、AAC(先进的有损压缩格式)、FLAC(无损压缩,文件大小介于WAV和MP3之间)等。不同格式影响文件的压缩率、音质和兼容性。
- 采样率(Sample Rate): 采样率是指每秒钟采样次数,单位是赫兹(Hz),它决定了音频的频率范围。CD质量音频的标准采样率是44.1kHz,意味着每秒钟采样44100次。更高的采样率可以捕捉更高频率的声音,但文件大小也会更大。
音色克隆
音色克隆(TTS,即Text-to-Speech)是人工智能领域的一个子集,它涉及到将文本转换成口语的过程。音色克隆特指的是利用特定的声音样本来创建一个数字化的声音模型,这个模型可以用来生成听起来与原始声音样本非常相似的语音输出。简而言之,音色克隆可以在极短时间内完成特定人的说话方式和声音特征的复刻。
字幕
在语音大模型的上下文中,字幕通常是语音大模型听取语音后自动转换生成的文字,它们代表视频或音频中人们所说话的内容,这个过程通常被称为自动语音识别(ASR)。在视频流或实时事件中,这些生成的文字就是字幕,它们可以实时显示在屏幕上。
字典
“字典”通常指的是一个音素字典(phonetic dictionary)或发音字典,这是一种将单词和短语映射到它们音素或音标表示的列表,在中文系统中,字典通常包含中文汉字到它们拼音的映射。音素是语言中最小的语音单位,是发音的基础。
MiniMax语音大模型中,古文“将进酒”在音素字典中可能被表示为[“qiang1”, “ jin4”, “jiu3”],这反映了其发音的组成部分。
字典帮助模型学习如何正确地将文本映射到语音。在自动语音识别(ASR)中,系统会尝试将听到的语音与字典中的音素模式相匹配,以此识别出说话内容。在文本到语音(TTS)系统中,字典用于将文本转换为可以发声的音素序列。在某些复杂的语音系统中,字典也可能包含关于词汇的语音变化信息,这对于处理不同口音、语速变化以及语言中的不规则发音特别重要。
计费项 |
接口说明 |
单价 |
T2A |
支持音量、语调、语速调整和混音功能 |
5元/万字符 |
T2A pro |
在T2A接口的基础上,支持单次合成最高5000字符输入,支持比特率、采样率相关参数调整特性,支持音频时长、音频大小等返回参数,支持字幕返回。 |
5元/万字符 |
T2A large |
在T2A接口的基础上,支持单次合成最高1000万字符输入,支持非法字符检测等功能,适用于整本书籍语音合成的超长文本场景。 |
2元/万字符 |
T2A stream |
支持基于自然语言交互生成回复的能力,适用于语音通话、语音聊天等需求流式的相关场景。 |
5元/万字符 |
voice_clone(快速复刻) |
基于大语言模型的音色克隆更加精准快速,无需数小时时长的超高质量原音频、无需传统TTS的超长工期,可以在极短时间内完成音色复刻,并通过大语言模型加持,使复刻后的音色与原音色进行高质量还原,从而满足客户需求。 |
本接口暂时只提供邀请制客户使用,有使用需求的客户可以通过客户经理或者通过官方邮箱open-platform@minimaxi.com进行申请使用。 |
相关文档请查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20
概念说明
音频信息
一段音频文件可以包含多种信息,这些信息共同决定了音频文件的播放质量、兼容性和文件大小。其中最关键的包括:
- 声道(Channels): 声道数表明了音频是单声道(Mono)、双声道(Stereo)还是多声道(如5.1环绕声)。单声道有一个音频信号,双声道有两个独立信号,为左声道和右声道,多声道则提供沉浸式的听觉体验。
- 格式(Format): 音频格式定义了音频文件的存储方式。常见的格式有WAV(无损格式,通常文件较大)、MP3(有损压缩,文件相对较小)、AAC(先进的有损压缩格式)、FLAC(无损压缩,文件大小介于WAV和MP3之间)等。不同格式影响文件的压缩率、音质和兼容性。
- 采样率(Sample Rate): 采样率是指每秒钟采样次数,单位是赫兹(Hz),它决定了音频的频率范围。CD质量音频的标准采样率是44.1kHz,意味着每秒钟采样44100次。更高的采样率可以捕捉更高频率的声音,但文件大小也会更大。
音色克隆
音色克隆(TTS,即Text-to-Speech)是人工智能领域的一个子集,它涉及到将文本转换成口语的过程。音色克隆特指的是利用特定的声音样本来创建一个数字化的声音模型,这个模型可以用来生成听起来与原始声音样本非常相似的语音输出。简而言之,音色克隆可以在极短时间内完成特定人的说话方式和声音特征的复刻。
字幕
在语音大模型的上下文中,字幕通常是语音大模型听取语音后自动转换生成的文字,它们代表视频或音频中人们所说话的内容,这个过程通常被称为自动语音识别(ASR)。在视频流或实时事件中,这些生成的文字就是字幕,它们可以实时显示在屏幕上。
字典
“字典”通常指的是一个音素字典(phonetic dictionary)或发音字典,这是一种将单词和短语映射到它们音素或音标表示的列表,在中文系统中,字典通常包含中文汉字到它们拼音的映射。音素是语言中最小的语音单位,是发音的基础。
MiniMax语音大模型中,古文“将进酒”在音素字典中可能被表示为[“qiang1”, “ jin4”, “jiu3”],这反映了其发音的组成部分。
字典帮助模型学习如何正确地将文本映射到语音。在自动语音识别(ASR)中,系统会尝试将听到的语音与字典中的音素模式相匹配,以此识别出说话内容。在文本到语音(TTS)系统中,字典用于将文本转换为可以发声的音素序列。在某些复杂的语音系统中,字典也可能包含关于词汇的语音变化信息,这对于处理不同口音、语速变化以及语言中的不规则发音特别重要。