![]() |
实时音视频-北京火山引擎
专用API
【更新时间: 2024.06.27】
亿级 DAU 产品验证打磨的音视频最佳实践,提供全球范围内高质量、低延时的实时音视频通信能力,帮助开发者快速构建语音通话、视频通话、互动直播、转推直播等丰富的场景功能。
0.007元/分钟起
去服务商官网采购>
|
服务星级:2星
浏览次数
25
采购人数
0
试用次数
0
收藏
×
完成
取消
×
书签名称
确定
|
- API详情
- 定价
- 使用指南
- 常见 FAQ
- 关于我们
- 相关推荐


什么是北京火山引擎的实时音视频?
火山引擎实时音视频(Volcengine Real Time Communication,veRTC)提供全球范围内高可靠、高并发、低延时的实时音视频通信能力,实现多种类型的实时交流和互动。通过在应用中接入 veRTC SDK,并调用 veRTC 提供的 API,可以快速构建:音视频聊天、在线教育、直播连麦、视频会议、游戏语音、云游戏、云端渲染等丰富场景功能,覆盖互娱、教育、游戏、会议等各种行业需求。
什么是北京火山引擎的实时音视频接口?
北京火山引擎的实时音视频有哪些核心功能?
基础功能
- 语音通话:支持 1v1 语音聊天和多人语音群聊,48kHz 全频带采样,先进 3A 处理算法,还原高音质。
- 视频通话:支持 1v1 视频聊天和多人视频群聊,VR 最高支持 8K 高清画质,采用行业领先的编解码算法策略
- 互动直播:单房间支持最多 1000 名主播,10 万名观众,首帧时长中位数 <300ms
进阶功能
- 连麦互动:支持主播与观众连麦、主播与主播连麦,上下麦切换体验平滑流畅。
- 合流转推:将多人 RTC 流进行云端合流转码,支持合流、自定义布局,并推流到指定直播 CDN。
- 伴音伴奏:将本地背景音、伴奏等同步发送给远端用户。
- 氛围音:支持播放短小的氛围音和音效文件,如笑声、鼓掌、欢呼、尖叫等氛围音效果。
- 耳返:支持耳返监听功能,支持调节耳返的音量,耳返延时低至 50ms。
- AI 降噪:通过 AI 算法有效抑制常见平稳噪声和非平稳噪声,为用户提供超纯净音质体验。
- 推送多路流:支持同时发送高清大流和低清小流,接收端根据网络自动订阅。
- 超分:支持将低分辨率视频超分成高分辨率视频,提高视频清晰度和画质。
- 屏幕共享:将电脑桌面、窗口、指定区域分享给其他人,支持与摄像头画面同时显示。
- 自采集自渲染:支持自定义的视频源和渲染器,可以更灵活地处理视频。
- 云端录制:通过 OpenAPI 发起录制任务请求,veRTC 进行音视频录制并上传至客户指定的存储平台
扩展功能
- 美颜特效:深度融合火山引擎 CV 功能,支持基础美颜、高级美颜、滤镜、贴纸等。
- 空间音频:一种能够呈现声源的空间方位的音频技术,提高用户音频体验的沉浸感。
- 范围语音:一种音频效果,开启此功能后,声音的衰减系数随距离声源的距离变大而变大。
- 美声音效:设置变声、混响、语音变调功能。
- 曲库管理:获取歌曲列表、搜索歌曲、获取热歌榜单等。
- 背景分割:支持通过 AI 算法将人物与背景分割。
- 添加视频水印:为实时音视频通信的视频画面添加自定义水印。
- ASR 语音识别:采用业内领先的端到端算法模型,准确地将语音内容转写成文字。
- 发送和接收媒体补充增强信息(SEI):SEI 信息跟随音视频帧发送,实现 SEI 内容与音视频内容精准同步。
- 内容审核:支持音视频敏感内容审核功能,确保内容安全。
- AI 应用:一站式的 AI 接入服务,支持表情识别、手势识别、注意力识别、中英文开口时长等 AI 功能。
北京火山引擎的实时音视频的核心优势是什么?
1. 音频 3A 处理
业界领先的 3A 算法。实现 48kHz 高音质全双工的回声消除。自动噪声抑制、自动增益使用超低计算量机器学习算法,更低的功耗实现更好的效果。
2. 机型主动适配
适配 40000+ 款不同的机型,根据设备的性能打分、覆盖率等进行差异化的视频采集/编码策略,实现 RTC 硬编硬解的机型适配(按实际通话时长计算)比例超过 90%。
3. 最佳画质
采用 H.265 编码器,效率较 H.264 显著提升。另外支持 Simulcast、SVC、ROI、自动码率等先进编码策略和超分、视频降噪、暗光增强等先进画质增强算法,可根据不同机型性能,下发不同档位的视频分辨率,移动端最高支持 1080P,PC 端最高支持 4K,VR 最高支持 8K。
4. 高可用
支持单元化部署,分钟级急速扩容。同城双机房,多线路冗余传输。符合 SLA 服务等级协议规定的指标,服务可用性不低于 99.9%。
5. 低延时
基于优质全球传输网络,全球端到端 400ms 延时达标率 ≥ 99.5%,服务端平均延时 < 50ms。
6. 弱网自适应
应用 FEC、ARQ、HARQ、自适应 Jitter Buffer、自适应码率下发等弱网策略,实现 50% 丢包无感知恢复,最高 80% 抗丢包能力。支持内容自适应编码,可基于线上视频清晰度的实时反馈来进行自动码率调整,减轻网络传输的压力。同时采用智能拥塞控制算法 VICC,能够根据不同的网络条件、业务偏好和码率特征进行自适应调整,以提升各种复杂弱网下的带宽利用率。
7. 性能动态适配
支持智能流控协议,可以综合考虑音视频通话中每个订阅者的个性化需求,在网络情况、终端性能发生变化的时候,自动调整音视频流的配置,提升用户体验。
8. 场景化策略
支持区分不同业务场景的参数配置下发,根据不同用户规模、机型、地区、网络模型采取不同的适配策略,满足多样化的高质量音视频体验需求。
9. 高效集成开发
提供灵活规范的 API,支持一键配置业务最佳实践,降低开发者集成复杂度,提高开发效率,平均 2 周内即可上线。可裁剪的 SDK 包设计,CPU 内存占用更低。适用于各种平台,可以快速构建多端应用。
10. 超大规模互动
行业首创单房间支持超千人同时开麦,突破传统实时音视频上麦人数限制,互动人数提升 20 倍以上,观众人数无上限。
11. 多样化产品融合
与火山引擎平台各核心产品深度融合,联动美颜特效、直播、点播、内容审核、语音识别、AI 应用等产品,为用户提供各种实时音视频场景下的全链路解决方案。
12. 安全合规
拥有完善的安全保护体系,可提供全链路音视频加密、用户业务数据隔离,且满足 ISO 等信息安全标准以及 GDPR、CCPA 等跨境安全合规要求。
在哪些场景会用到北京火山引擎的实时音视频?
1. 在线KTV
排麦独唱与实时互动结合是当前互娱社交领域的热门玩法,用户跟随音乐演唱歌曲并与其他用户进行音视频实时互动,满足了用户才艺展示的需求,为用户之间关系的构建提供了玩法通道;通过排麦独唱增加了房间内互动的乐趣,有助于提高用户活跃度及用户留存率。火山引擎提供实时音视频通话、正版音乐曲库、K歌音效处理等互动K歌一站式解决方案,帮助开发者无门槛搭建排麦独唱场景。
2. 一起看直播
一起看直播是社交娱乐的新场景,通过实时音视频互动体验线下与朋友一起看直播的氛围。房主创建一个线上实时互动的房间,在房间内播放直播视频,邀请用户一起边看直播边视频聊天。火山引擎基于实时音视频 SDK,提供抖音同款“一起看直播”解决方案。支持添加美颜特效、房间内文字聊天,增强好友看播趣味互动。
3. 游戏房
游戏房是泛娱乐社交领域的一种新玩法,例如情侣小游戏、聊天室小游戏等。主播或用户在传统的语音聊天室或语音通话的基础上选择不同的小游戏,例如五子棋、你画我猜、猜拳等。通过小游戏可以增加用户的停留时长,创造更多的话题。对于聊天室场景,主播可以邀请麦下的观众与其一起玩小游戏,与他们实时互通。
4. 音视频通话
音视频通话是社交中一种最常见的基础场景,在与陌生人之间通话时,更多地需要剔除角色的差异。通过输入用户 ID,创建并进入一个线上实时互动的房间,双方可以在房间内实时畅聊,同时支持添加美颜特效,为用户打造一个稳定、高质量的音视频聊天室。


计费类型 | 计价档位 | 规格 | 单价(元/分钟) | 微信小程序端 单价(元/分钟) |
---|---|---|---|---|
音频通信 | 纯音频 | 纯音频 | 0.007 | 0.009 |
视频通信 | 360P 视频 | 视频分辨率不高于 360P(800 x 360 = 288000) | 0.014 | 0.016 |
视频通信 | 720P 视频 | 视频分辨率高于 360P(800 x 360 = 288000),但不高于 720P(1600 x 720 = 1152000) | 0.028 | 0.03 |
视频通信 | 1080P 视频 | 视频分辨率高于 720P(1600 x 720 = 1152000),但不高于 1080P(2400 x 1080 = 2592000) | 0.063 | 0.072 |
视频通信 | 2K 视频 | 视频分辨率高于(2400 x 1080 = 2592000),但不高于 2K(3200 x 1440 = 4608000) | 0.112 | / |
视频通信 | 4K 视频 | 视频分辨率高于(3200 x 1440 = 4608000),但不高于 4K(4800 x 2160 = 10368000) | 0.252 | / |


步骤1:登录火山引擎控制台
登录火山引擎控制台 。
步骤2:实名认证
登录成功后,你必须先进行实名认证,参看实名认证:
步骤3:申请开通 RTC 服务
-
你必须在总览页选择 「实时音视频」 进入,并 申请开通 。
-
你必须勾选 同意《实时音视频服务协议》 ,才可以成功开通实时音视频服务。
步骤4:创建 RTC 应用,获取 AppId
- 【可选】在多人团队协作中,你可能希望通过子账户(IAM)功能细化权限管理,参看账号和授权创建和授权子账号应用管理权限。
- 登录 RTC 控制台后,你可以在 「应用管理」 中管理应用,包括修改应用名称,查看 AppID、 AppKey、创建时间等。 其中,
defaultAppName
为系统默认创建。
说明
- AppId 是每个应用的唯一标识符,在调用 volcEngineRTC SDK 的 API 接口实现功能,如创建对象时,你必须填入你获取到的 AppId 。
- AppKey 是每个应用对应的密钥,请妥善保管。AppKey 用于生成 Token 鉴权,一旦你的密钥泄露,可能会被盗用流量。
- 如果你需要创建新的应用,可以在 「应用管理」 中点击创建应用 , 提交更多创建应用的申请。
指南详情链接:https://www.volcengine.com/docs/6348/69865




计算 |
存储 |
数据库 | 容器与中间件 |
人工智能与机器学习 | 网络 | CDN与边缘 | 大数据 |
视频云 | 安全 | 企业服务与云通信 | 查看全部产品 |
企业上云
基于多云开放的高可用架构,火山引擎帮助企业业务快速云上部署,保障业务运行稳定,不断追求极致性能,使企业云上每一次计算及存储都能获得最优配置。
音视频
基于字节跳动音视频场景下的产品与运营实践,火山引擎为客户提供覆盖全场景云端一体音视频解决方案,一站获取完备音视频能力,助力业务创新敏捷落地。
智能营销
基于抖音集团的用户增长方法论,火山引擎从业务视角出发,持续串联内容生产、内容管理、公私域运营等环节,提供覆盖营销全链路的完整解决方案。
汽车行业
基于抖音集团在智能与数据领域的沉淀,火山引擎以“智能驾驶云”、“智能座舱云”、“体验运营云”为核心,打造个性化的互动智能座舱,提升全生命周期用户体验,构建精细化用户运营和业务增长能力。
金融行业
基于字节跳动的技术积累,火山引擎为金融机构提供从底层技术架构到技术中台,再到各类智能应用的全方位技术支持,构建数字敏捷,激发金融活力。
文娱行业
基于抖音集团稳定的基础产品能力、数据驱动的营销增长套件、AI加持的智能互动产品与多媒体技术,火山引擎为企业构建稳定业务、扩大用户触点、驱动交互创新、实现业务增长。
医疗
基于对生物医学行业的关注,火山引擎与行业深度结合,通过BT+IT技术推动行业加速,为客户提供多场景的解决方案,支持客户业务创新、敏捷落地。
政府文旅
基于抖音集团的技术底座,火山引擎整合云基础、数据、人工智能、物联网等技术能力,全面助力城市实现数字化转型,在城市治理、文旅营销等场景中全面实现效率提升。
通信传媒
基于抖音集团在泛资讯、短视频等领域的前沿能力,火山引擎提供了覆盖内容引入、生产、运营、分发、消费的端到端服务能力,打造完善的媒体数智化运营体系。
大消费
基于抖音集团的场景化实践,火山引擎围绕人货场关系,整合云基础、数据、算法、AI、内容等能力,实现从投放到交易的数据化闭环,帮助企业数字化运营效率提升。
优质的服务,全方位的支持 火山引擎坚定进入云市场 我们将始终坚持三个关键的理念 |
||
定制化服务方案 |
全方位业务响应 |
专业化技术支持 |


计费类型 | 计价档位 | 规格 | 单价(元/分钟) | 微信小程序端 单价(元/分钟) |
---|---|---|---|---|
音频通信 | 纯音频 | 纯音频 | 0.007 | 0.009 |
视频通信 | 360P 视频 | 视频分辨率不高于 360P(800 x 360 = 288000) | 0.014 | 0.016 |
视频通信 | 720P 视频 | 视频分辨率高于 360P(800 x 360 = 288000),但不高于 720P(1600 x 720 = 1152000) | 0.028 | 0.03 |
视频通信 | 1080P 视频 | 视频分辨率高于 720P(1600 x 720 = 1152000),但不高于 1080P(2400 x 1080 = 2592000) | 0.063 | 0.072 |
视频通信 | 2K 视频 | 视频分辨率高于(2400 x 1080 = 2592000),但不高于 2K(3200 x 1440 = 4608000) | 0.112 | / |
视频通信 | 4K 视频 | 视频分辨率高于(3200 x 1440 = 4608000),但不高于 4K(4800 x 2160 = 10368000) | 0.252 | / |


步骤1:登录火山引擎控制台
登录火山引擎控制台 。
步骤2:实名认证
登录成功后,你必须先进行实名认证,参看实名认证:
步骤3:申请开通 RTC 服务
-
你必须在总览页选择 「实时音视频」 进入,并 申请开通 。
-
你必须勾选 同意《实时音视频服务协议》 ,才可以成功开通实时音视频服务。
步骤4:创建 RTC 应用,获取 AppId
- 【可选】在多人团队协作中,你可能希望通过子账户(IAM)功能细化权限管理,参看账号和授权创建和授权子账号应用管理权限。
- 登录 RTC 控制台后,你可以在 「应用管理」 中管理应用,包括修改应用名称,查看 AppID、 AppKey、创建时间等。 其中,
defaultAppName
为系统默认创建。
说明
- AppId 是每个应用的唯一标识符,在调用 volcEngineRTC SDK 的 API 接口实现功能,如创建对象时,你必须填入你获取到的 AppId 。
- AppKey 是每个应用对应的密钥,请妥善保管。AppKey 用于生成 Token 鉴权,一旦你的密钥泄露,可能会被盗用流量。
- 如果你需要创建新的应用,可以在 「应用管理」 中点击创建应用 , 提交更多创建应用的申请。
指南详情链接:https://www.volcengine.com/docs/6348/69865






计算 |
存储 |
数据库 | 容器与中间件 |
人工智能与机器学习 | 网络 | CDN与边缘 | 大数据 |
视频云 | 安全 | 企业服务与云通信 | 查看全部产品 |
企业上云
基于多云开放的高可用架构,火山引擎帮助企业业务快速云上部署,保障业务运行稳定,不断追求极致性能,使企业云上每一次计算及存储都能获得最优配置。
音视频
基于字节跳动音视频场景下的产品与运营实践,火山引擎为客户提供覆盖全场景云端一体音视频解决方案,一站获取完备音视频能力,助力业务创新敏捷落地。
智能营销
基于抖音集团的用户增长方法论,火山引擎从业务视角出发,持续串联内容生产、内容管理、公私域运营等环节,提供覆盖营销全链路的完整解决方案。
汽车行业
基于抖音集团在智能与数据领域的沉淀,火山引擎以“智能驾驶云”、“智能座舱云”、“体验运营云”为核心,打造个性化的互动智能座舱,提升全生命周期用户体验,构建精细化用户运营和业务增长能力。
金融行业
基于字节跳动的技术积累,火山引擎为金融机构提供从底层技术架构到技术中台,再到各类智能应用的全方位技术支持,构建数字敏捷,激发金融活力。
文娱行业
基于抖音集团稳定的基础产品能力、数据驱动的营销增长套件、AI加持的智能互动产品与多媒体技术,火山引擎为企业构建稳定业务、扩大用户触点、驱动交互创新、实现业务增长。
医疗
基于对生物医学行业的关注,火山引擎与行业深度结合,通过BT+IT技术推动行业加速,为客户提供多场景的解决方案,支持客户业务创新、敏捷落地。
政府文旅
基于抖音集团的技术底座,火山引擎整合云基础、数据、人工智能、物联网等技术能力,全面助力城市实现数字化转型,在城市治理、文旅营销等场景中全面实现效率提升。
通信传媒
基于抖音集团在泛资讯、短视频等领域的前沿能力,火山引擎提供了覆盖内容引入、生产、运营、分发、消费的端到端服务能力,打造完善的媒体数智化运营体系。
大消费
基于抖音集团的场景化实践,火山引擎围绕人货场关系,整合云基础、数据、算法、AI、内容等能力,实现从投放到交易的数据化闭环,帮助企业数字化运营效率提升。
优质的服务,全方位的支持 火山引擎坚定进入云市场 我们将始终坚持三个关键的理念 |
||
定制化服务方案 |
全方位业务响应 |
专业化技术支持 |