官方

北京火山引擎科技有限公司

去官网 去官网

火山引擎是字节跳动旗下的云服务平台, 将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、数智平台VeDI、 人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

通用API 通用API
实时语音翻译服务
实时语音翻译API提供多语种实时语音转文本和翻译服务,支持智能断句、低延迟高效率的语音识别和翻译。
销量:- 响应时长:- sla:-
商标证书OCR识别
利用光学字符识别(OCR)技术对商标证书上的文字信息进行识别和提取商标证书上的关键信息,如商标注册号、商标图样、注册人信息等,从而方便进行商标信息的整理、查询和管理。
销量:- 响应时长:- sla:-
拉伸图像恢复
通过人工智能算法,自动识别过度拉伸的图像,并将图像内容恢复成正常比例。
销量:- 响应时长:- sla:-
Prometheus
Prometheus是一款开源的系统监控与警报工具,由SoundCloud开发并捐献给Cloud Native Computing Foundation。它具备强大的数据采集、存储以及查询功能,适用于以时间序列数据为模型的监控场景。
销量:- 响应时长:- sla:-
文件存储NFS协议
NFS(Network File System)是一种广泛应用的网络文件系统协议,允许用户通过网络将远程计算机上的磁盘文件共享给本地主机访问。
销量:- 响应时长:- sla:-
Flink
Apache Flink 是一款开源的流处理与批处理统一计算框架,提供高效、准确、实时的数据处理能力。
销量:- 响应时长:- sla:-
MongoDB
云数据库 MongoDB 版是完全兼容 MongoDB 协议、高度兼容 DynamoDB 协议的在线文档型数据库服务。
销量:- 响应时长:- sla:-
RocketMQ
RocketMQ是由阿里捐赠给Apache的一款低延迟、高并发、高可用、高可靠的分布式消息中间件。
销量:- 响应时长:- sla:-
微服务引擎
微服务引擎面向业界主流开源微服务项目, 提供注册配置中心和分布式协调、云原生网关、微服务治理和分布式任务调度能力。
销量:- 响应时长:- sla:-
港澳台通行证识别
支持识别4类港澳台出入境证件,包含港澳通行证正/反面、台湾通行证正/反面、台胞证(台湾居民来往大陆通行证)正/反面、返乡证(港澳居民来往内地通行证)正/反面进行高精准结构化识别,包括证件号码,签发机关、姓名、姓名拼音、性别、出生日期、有效期限、签发地点
销量:- 响应时长:- sla:-
MySQL
云数据库 MySQL 版基于 MySQL 源码分支,经过高并发、大数据量的考验,拥有优良的性能, 还支持读写分离、SQL、多可用区集群等高级功能。
销量:- 响应时长:- sla:-
手势识别
识别图片中的手势类型,返回手势名称、手势矩形框、置信度等信息,可识别常见手势,适用于手势特效、智能家居手势交互等场景。识别质量受拍摄距离、图片质量影响,建议针对近距离单个手势进行识别,效果最佳。
销量:- 响应时长:- sla:-
长语音转文字
长语音转写服务,可将一个小时以内的长语音文件转换为文本数据
销量:- 响应时长:- sla:-
PostgreSQL
云原生数据库 PostgreSQL 版100%兼容 PostgreSQL,高度兼容Oracle语法。为用户提供快速弹性、高性能、海量存储、安全可靠的数据库服务。
销量:- 响应时长:- sla:-
Elasticsearch
Elasticsearch 是一个开源、分布式、实时搜索与数据分析引擎,以其高可扩展性和近实时搜索能力著称。
销量:- 响应时长:- sla:-
MapReduce
MapReduce是一种分布式编程模型和计算框架,由Google提出并在Apache Hadoop中实现,主要用于大规模数据集的并行处理。
销量:- 响应时长:- sla:-
文件存储HDFS
HDFS(Hadoop Distributed File System)是一种分布式文件系统,专为大规模数据存储与处理而设计。
销量:- 响应时长:- sla:-
HBase
云数据库 HBase 版是面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力。
销量:- 响应时长:- sla:-
redis
Redis是一种开源、高性能的键值对数据库,以内存存储为主,支持持久化。它提供了丰富的数据结构如字符串、哈希表、列表、集合、有序集合等,并具备发布/订阅、事务、Lua脚本等功能。
销量:- 响应时长:- sla:-
块存储(云硬盘)
块存储服务(通常称为云硬盘)是一种基于云计算环境的高性能、高可靠的数据存储解决方案。它为用户提供可扩展的、类似于物理硬盘的虚拟块存储空间,能够即插即用地挂载到云服务器上,实现数据的高效读写与持久化存储。
销量:- 响应时长:- sla:-
音频文件转文字
音频文件转文字API服务利用深度学习技术,将音频中的语音内容自动转换为文字,适用于智能客服质检、会议访谈转写、游戏语音输入、课堂内容分析等场景。
销量:- 响应时长:- sla:-
视频点播
视频点播(ApsaraVideo VOD,简称VOD)是集视频采集、编辑、上传、媒体资源管理、自动化转码处理(窄带高清™)、视频审核分析、分发加速于一体的一站式音视频点播解决方案。
销量:- 响应时长:- sla:-
长文本在线合成语音
一次性合成长文本:最高支持10万字文本一次性合成,无需拆分文本和拼接音频,调用便捷,异步返回音频,并支持下载到本地反复使用
销量:- 响应时长:- sla:-
对象存储 OSS
对象存储服务(OSS,Object Storage Service)是一种安全、稳定、高效且易于管理的数据存储解决方案,可用于文件上传。
销量:- 响应时长:- sla:-
Kafka
Apache Kafka是一种高吞吐量、分布式的消息发布订阅系统,以其强大的实时数据处理和流处理能力而广受业界认可。
销量:- 响应时长:- sla:-
通用物体和场景识别
该API用于通用物体及场景识别,即对于输入的一张图片(可正常解码,且长宽比适宜),输出图片中的多个物体及场景标签。
销量:- 响应时长:- sla:-
RabbitMQ
RabbitMQ是一款开源、高可用、基于AMQP协议的消息中间件,它提供可靠的消息传递和队列功能。
销量:- 响应时长:- sla:-
图像清晰度增强
图像清晰度增强API服务利用先进的图像处理技术,提升图像的清晰度和对比度,广泛应用于医学影像诊断、安防监控、卫星遥感、数字图书馆、媒体编辑、智能交通等领域。
销量:- 响应时长:- sla:-
文本翻译
能够将源语言文本快速、准确地转换成目标语言文本。通过该服务,用户可以根据不同的语言参数实现多种国际语言之间的互译,满足用户在跨语言交流、学习和工作中的翻译需求。
销量:- 响应时长:- sla:-
营业执照OCR识别
预集成
双引擎识别:企业营业执照OCR识别同时,进行企业工商信息查询比对。
销量:- 响应时长:- sla:-
短信通知
预集成
可通过接口自定义签名和模板,提供行业专业内容模板可直接用;支持三大运营商,支持携号转网,支持过滤虚拟运营商、提供商户后台,支持批量发送。
销量:- 响应时长:- sla:-
驾驶证识别
驾驶证识别是一项基于光学字符识别(OCR)技术的服务,它可以高效准确地从驾驶证的正页和副页图像中抽取并结构化识别各类关键信息。
销量:- 响应时长:- sla:-
图像修复
图像修复API利用深度学习技术,可修复模糊、损坏等低画质图像,适用于历史文献、安防监控、创意设计、个人照片、艺术品等领域。一键实现高清还原,为用户提供优质的图像修复服务。
销量:- 响应时长:- sla:-
增值税发票OCR识别
预集成
识别增值税普票、机动车发票、火车票、PDF电子票、行程单等类型发票的基本信息、销售方及购买方信息、商品信息、价税信息等,并转化为文字/数字。
销量:- 响应时长:- sla:-
通用文字识别
通用文字识别API是一种先进的技术工具,能够从图像中准确抽取并转换各种形态的文字信息为可编辑的文本格式。
销量:- 响应时长:- sla:-
火车票识别
火车票识别能够读取火车票图片中的多种重要信息。其中包括火车票编号、始发站、到达站、出发日期与时间、列车车次、乘客姓名、座位号等信息
销量:- 响应时长:- sla:-
身份证人像面识别
预集成
身份证人像面OCR识别,支持识别身份证正面文字信息,通过比对姓名和身份证号,实时联网核查核验是否一致并返回结果。支持对URL网络图片和Base64信息进行识别,支持PNG、JPG、JPEG格式,双引擎识别。
销量:- 响应时长:- sla:-
印章识别
检测并识别合同文件或常用票据中的印章,输出文字内容、印章位置信息以及相关置信度,支持圆形章、椭圆形章、方形章等常见印章
销量:- 响应时长:- sla:-
人脸实名认证
预集成
用户授权后,通过人脸照片、姓名、身份证号,公安库身份证头像进行权威比对即可实时准确的核验用户是否为本人。支持活体检测,直连官方,权威核验,实时查询。
销量:- 响应时长:- sla:-
短信推广
预集成
适用于新品推广、客户复购激活、催好评、宽泛营销、商超、汽车4S店等。精准高效营销触达,可快速发展新客户或维护目标客户,提供专业人员短信内容编辑辅助。
销量:- 响应时长:- sla:-
人体检测与属性识别
对于输入的一张图片(可正常解码,且长宽比适宜),检测图像中的所有人体并返回每个人体的位置信息,识别人体的静态属性和行为。
销量:- 响应时长:- sla:-
实时语音转文字
实时语音转文字API服务利用深度学习技术,快速准确地将语音信号转换成文字。适用于智能客服质检、会议访谈转写、游戏语音输入、课堂内容分析等场景。
销量:- 响应时长:- sla:-
机票行程单识别
本接口支持机票行程单关键字段的识别,包括姓名、身份证件号码、航班号、票价 、合计、电子客票号码、填开日期等。
销量:- 响应时长:- sla:-
表格文字识别
表格文字识别Api用于识别并结构化输出图像中的表格数据。该服务适用于多种应用场景,如财务报表录入、文档数字化管理等
销量:- 响应时长:- sla:-
身份证国徽面识别
预集成
身份证国徽面OCR识别,支持识别身份证反面文字信息,支持对URL网络图片和Base64信息进行识别,支持PNG、JPG、JPEG格式,双引擎识别。
销量:- 响应时长:- sla:-
图像风格转换
提供多种艺术风格特效转化服务,还可自定义风格图像进行风格迁移。用于开展趣味活动,或集成到美图应用中对图像进行风格转换。
销量:- 响应时长:- sla:-
短信验证码
预集成
过滤虚拟运营商、空号、沉默号、羊毛号;可通过接口自定义签名和模板,提供行业专业内容模板
销量:- 响应时长:- sla:-
银行卡OCR识别
预集成
银行卡OCR识别_图像识别OCR_银行卡信息识别,支持识别银行卡正面信息,包含银行卡号、银行卡类型、银行名称、银行代码等信息, 识别是否翻拍,是否复印件并返回结果。
销量:- 响应时长:- sla:-
行驶证识别
行驶证识别是一项利用光学字符识别(OCR)技术和图像处理技术来自动识别机动车行驶证信息的技术方案。这项技术主要用于快速、准确地提取行驶证上的关键字段信息,例如号牌号码、车辆类型、所有人姓名、住址以及其他重要的车辆登记信息。
销量:- 响应时长:- sla:-
活体检验
预集成
分析用户提交的自拍照片,判断内容中是否存在hack行为,验证当前用户是否为实人实时操作,以防御各种非真人的人脸攻击。检测成功会返回一张人脸照片用于人脸比对验证。多用于远程身份核验场景。
销量:- 响应时长:- sla:-
出租车票识别
利用光学字符识别出租车票上的发票号码、发票代码、里程、车牌号等信息。
销量:- 响应时长:- sla:-
人脸对比
预集成
通过人脸比对,验证两张人脸照片是否为同一人,支持jpg,jpeg,png格式,通过AI算法模型,准确率达99%,毫秒级响应,支持高并发
销量:- 响应时长:- sla:-
人像动漫化
运用对抗生成网络技术,结合人脸检测、头发分割、人像分割等技术,为用户量身定制千人千面的二次元动漫形象,并支持通过参数设置,生成戴口罩的二次元动漫人像
销量:- 响应时长:- sla:-
短文本在线合成语音
提供风格多样的19种音库供您选择,适用于有声阅读、新闻播报、订单播报、智能硬件等应用场景,即将推出更多特色音库
销量:- 响应时长:- sla:-
专用API 专用API
大模型声音复刻-火山引擎
大模型声音复刻基于全自研最新语音大模型打造的超轻量级音色定制方案,开放环境中录制秒级别录音即可极速拥有专属定制音色,广泛应用于视频配音、数字人驱动、语音助手、在线教育等场景。
北京火山引擎-边缘智能
边缘智能平台专为现场边缘领域的业务场景设计,它与云原生生态完全兼容,并融合了物联网和人工智能的应用能力。通过边缘云基础设施,我们能帮助您构建出具有高度可靠性的云边智能解决方案。
北京火山引擎-火山方舟大模型服务平台
火山方舟是面向开发者的企业级大模型服务平台,提供模型训练、推理、评测、精调等全方位功能与服务,并重点支撑大模型生态。
北京火山引擎-视频技术
北京火山引擎视频处理技术,涵盖内容生成、理解与编辑。支持视频编辑、增强、分割,自动识别精彩瞬间,智能选取封面。适用于短视频、直播、教育、传媒等行业,提升视频制作效率和吸引力。
北京火山引擎-音频技术
音频技术(SAMI)专注于语音合成、音频处理、音乐理解与创作。我们的优势在于音乐与音频的多模态技术融合,自主研发的算法追求卓越性能。我们的目标是利用AI激发创作者的灵感,为用户带来创新的交互体验,探索声音的无限潜力。
北京火山引擎-智能变美
基于深度学习算法,对包含人像人体内容的图像进行智能编辑与处理,包括人像编辑、人像技术、人体与行为分析等功能,可满足用户对于人像人体编辑的多元化需求,可应用于互联网娱乐、互动营销、智能图像优化、安全认证等各类场景。
北京火山引擎-智能处理
北京火山引擎-智能处理支持画质检测、画质增强、高清低码、老片修复、视频DNA等,提供全流程视频前后智能处理。
北京火山引擎-智能创作云
火山引擎的智能创作云,专为企业设计,集成AIGC创作、视频混剪等AI工具,搭配丰富模板和版权素材库。一站式服务覆盖内容创作、分发、广告投放及数据分析,全面助力企业内容营销效率和效果提升。
北京火山引擎-智能广告营销平台
火山引擎的iAd平台,即智能广告营销平台,提供一站式解决方案,覆盖企业数字营销全流程。通过创意资产管理、智能广告投放和多渠道效果分析,助力企业实现公私域一体化的全渠道营销管理,推动业务增长。
北京火山引擎-智能绘图
利用深度学习技术,智能编辑处理图像中的人像和人体,提供人像美化、技术优化和行为分析服务,满足多样化编辑需求,广泛应用于娱乐、营销、图像优化和安全验证等多个场景。
北京火山引擎-智能绘图文本转图片通用版
北京火山引擎智能绘图(文本转图片通用版)多模态通用图片生成,可以基于文字输入生成逼真且通用的图片,用户可通过输入文本prompt描述图片内容并自定义风格特征,模型输出对应风格化的图片。
北京火山引擎-智能美化特效
智能美化特效SDK是基于计算机视觉智能算法、超大规模的人脸检测和识别技术的特效库。可为创作者提供适用于移动端(iOS/Android)的自动图像美化、人脸美颜、特效加工等辅助编辑功能。
北京火山引擎-智能视频分析
智能视频分析,是基于深度学习视频结构化图像处理技术对视频图像进行处理分析的综合性平台,其核心是对视频结构化分析技术的应用。
北京火山引擎-智能数据洞察
智能数据洞察 DataWind 是一款基于大数据明细级别分析的增强型 DataWind 平台。能够提供万亿级数据、亚秒级查询的计算性能,支持丰富的可视化效果和简易的拖拽式操作,能够融合 AI 技术对数据进行智能洞察。
北京火山引擎-智能推荐平台
智能推荐平台依托字节跳动领先的大规模机器学习和个性化推荐技术,借助在信息资讯、视频直播、社交、电商等多个领域的能力积累,为客户提供端到端的一站式推荐服务能力搭建的平台,满足不同场景客户的推荐需求。
北京火山引擎-智能外呼
火山引擎智能外呼是基于行业领先的自研语音对话技术与丰富的细分场景运营经验,打造的真实互动语音外呼机器人。可以精准识别对话意图,构建自然流畅的语音服务体验,全面助力企业智能化营销,创造极致业务价值。
北京火山引擎-实时音视频
亿级 DAU 产品验证打磨的音视频最佳实践,提供全球范围内高质量、低延时的实时音视频通信能力,帮助开发者快速构建语音通话、视频通话、互动直播、转推直播等丰富的场景功能。
北京火山引擎-音视频字幕
基于语音识别技术,能够自动将音/视频中的语音、歌词转换为字幕文本,适用于辅助视频字幕创作和外挂字幕自动生成。产品支持多个语种的识别、打轴,是完美适配视频创作和视频观看场景的智能字幕解决方案。
火山引擎实时音视频
拥有亿级DAU产品验证打磨的音视频最佳实践提供全球范围内高质量、低延时的实时音视频通信能力帮助开发者快速构建音视频通话、互动直播等丰富场景功能
火山引擎AI扩图
智能扩图支持多种扩展类型,包括:等比扩展、画幅扩展、四边扩展、画布扩展,用户prompt可选输入,不输入则按照算法默认逻辑进行扩展。 考虑到效果更佳,建议选择较小的扩展比例,建议一次性给客户返回3-4个效果供客户进行挑选。
火山引擎人像年龄变换
人像年龄变换可用于改变用户脸部年龄,包括变小孩,变老等。此外,年龄渐变又可以衍生成为新的玩法,有很大探索空间。
火山引擎智能变美
智能变美运用先进的图像处理技术,将输入的人脸图片进行智能变美。可助力于手机厂商、美颜app等相机类的美颜能力,一键智能实现磨皮锐化、肤色美白、瘦脸、五官调整、祛斑祛痘处理。还可应用于互动娱乐等场景,如直播、短视频、社交平台,轻松提升用户形象。
火山引擎人像抠图
人像抠图是通过人像分割与抠图技术识别图片中人体的完整轮廓,进行抠像处理,支持泛互娱、办公、教育等业务,适用于人像背景的替换、人体消除、人体特效等场景。
火山引擎人像融合
人像融合是基于3D人脸和对抗生成网络等计算机视觉技术,对模版图和融合图中的人像进行图片融合操作,返回融合后的图片。
图片翻译
图片翻译是火山引擎基于行业领先的文字识别和翻译技术,提供多场景、多语种、高精度的整图识别+翻译服务。您只需传入图片,即可自动识别图片中的文字并进行翻译,支持实景回填将译文还原到原图相应位置上。
火山引擎视频画质评分
对输入视频进行多维度画质评分,包括清晰度、亮度、噪声、色彩、美观度、有无边框等。
火山引擎图片方向矫正
图片方向矫正可以检测场景图片中存在的透视不和谐问题,并进行自动矫正,让图片看上去更美观精致。适用于风景拍摄,应用场景广泛。
火山引擎图片裁剪
图片裁剪技术(Image Cropping)基于美学分析与AI技术,实现对于图片内容的智能裁剪。自动判断图片主体区域,裁剪图片中的最佳裁剪区域以适配不同尺寸要求。
火山引擎高速公路过路费票识别
支持对高速公路过路费发票中的所有关键字段进行检测、识别以及进行结构化解析,得到发票代码、入口站、出口站、日期、通行费、盖章公司名称等关键信息,满足财会报销场景的多样化信息提取需求。
火山引擎增值税卷票识别服务
支持对增值税卷票所有关键字段的检测、识别与解析,识别准确度高,适应多种复杂场景,支持对票据图片进行方向判断和裁剪修正服务。
火山引擎多语种OCR识别
多语种OCR服务支持中英文、日语、法语、德语、俄语、西班牙语等50+语种的文字识别能力。向客户提供文字识别结果、语种等多种关键信息。为多语种场景下的图片文字识别、提取提供完整解决方案。
火山引擎图片涂抹编辑
用户可通过涂抹、选区等方式建立重绘区域,调用算法重新绘制。此功能为支持输入prompt的涂抹编辑功能,按照prompt生成指定内容。考虑效果更优,建议一次性给客户返回3-4个效果供客户进行挑选。
火山引擎图片涂抹消除
用户可通过涂抹、选区等方式建立重绘区域,调用算法重新绘制。此功能为不支持输入prompt的消除功能,在路人消除、杂物消除、水印消除等任务表现较好,建议一次性给客户返回3-4个效果供客户进行挑选。 算法侧会出现一定概率生成「AI鬼脸」的问题,算法侧会返回错误码(201304),建议业务方可通过判断错误码显示兜底图片或自行处理。
火山引擎单图写真
将输入的人像图片通过大模型生成技术,生成与输入人像特征高相似的风格化图片,目前4种头像风格(单人、男女均支持)和9种胸像写真风格(单人、只支持女生),更多风格定制可联系火山销售同学。
火山引擎文生图-高美感通用版
高美感通用V1.3是通用场景的文生图模型,其在美学水平和V1.2保持接近,图文匹配度和结构准确性相较V1.2有较大提升,生成的图片可支持*2超分,可支持通用场景下的文生图功能。
火山引擎文生图-高美感动漫版
高美感动漫模型V1.3聚焦动漫等艺术风格化场景,美学理解、镜头知识理解与整体效果均有显著提,本接口同时支持文生图与图生图。
火山引擎图生图-高美感动漫版
高美感通用V1.1是聚焦动漫场景的图生图模型,支持超分处理,整体表现均衡稳定,在图文匹配度、结构准确性与图像效果均有较好表现。
火山引擎图生图-高美感通用版
高美感通用V1.1是通用场景的图生图模型,整体在图文匹配度、结构准确性与图像效果均有较好表现。
火山引擎头发抠图
头发抠图用于识别图片人物头发区域,返回分割后的图片。可以实现精准分割,分割后图像编辑结果无违和感,可用于染发、换发色等。
火山引擎3D游戏特效
3D游戏特效以GAN技术为核心,将人脸/全图转化为3D游戏风。3D特效让用户的形象更有空间立体感, 可以一比一生成3D效果,可用于游戏展、cosplay大会、大型游戏比赛等活动宣传。
火山引擎人像特效
人像特效基于小样本生成技术的风格化特效解决方案-EffectGAN,智能创作团队打造了包含浮世绘、波普风、3d卡通风、皮克斯、美漫、天使、恶魔特效等七种人像特效。其中,3D特效让用户的形象更有空间立体感, 此次提供的3D卡通风可以一比一生成3D效果,可用于游戏展、cosplay大会、大型游戏比赛等活动宣传。
火山引擎希区柯克特效
希区柯克特效基于人像分割技术,实现照片2D转3D,达到3D裸眼慢动作的效果。将自拍图像与背景图片运用希区柯克技术无感融合,开启场景拉伸的视频拍摄新玩法,可用于个人社交娱乐、影视剧效果模拟拍摄等。
火山引擎发型编辑
发型编辑基于深度学习算法,对人像的发型进行加刘海、变长发、增发量等操作。除了可以帮助用户直观体验多种发型设计,提升美容美发业的客户个性化体验外,还可用于短视频、社交平台,或是集成到相册类app,对用户的个性化照片加入发型编辑的玩法,实现用户的互动参与和分享。
火山引擎活照片
活照片基于人脸驱动算法,把图像中的人脸变成动态化效果。可以驱动图片中的五官做任意动作,让面部鲜活起来,动态类特效变静为动,让用户的照片充满动感。和表情编辑GAN差别在于,该能力支持任意人脸生成各类动态复杂动作,且可以做长时间动态表情。可用于线上娱乐视频生成,表情包生产等。
火山引擎人像畸变矫正
人像畸变矫正基于深度学习算法,智能修复因镜头畸变对人像产生的拉伸和变形。适用场景有智能图像优化, 如图库、社交、PUGC内容平台的图像质量优化场景,高效解决人像畸变的问题。
火山引擎表情编辑
表情编辑运用先进的图像处理技术,对图像中人脸的表情进行编辑,包括露齿笑、嘟嘟嘴、不高兴、闭嘴笑。支持实时特效和图片编辑等应用场景。除了特效场景之外,可应用于各个业务线,比如抖音社交(表情包)、轻颜、醒图(人像表情编辑,包括表情美化、可爱、搞怪等各类表情)、直播(情绪管理)、游戏(人物表情捏脸)。
火山引擎眼睑合转开
眼睑合转开能对图像中人眼进行变换,即闭眼转化为睁眼。应用场景主要有:智能照片修复(通过闭眼转睁眼技术,修复抓拍的闭眼照片,还原欢庆时刻)、互动娱乐(特效制作,吸引用户互动、参与以及分享)。
火山引擎140种文本语种检测
文本语种检测服务目前支持140种语言的识别检测,可识别文本所属语言种类,返回最可靠的结果。广泛应用于通用文本、商务沟通、搜索、广告、游戏等场景语种识别任务。
火山引擎视频场景识别
对视频内容进行识别分析,输出自然风光、日常生活等数千种场景、风格及内容属性标签。
火山引擎图片配文
基于深度学习算法,根据图片内容,生成具有意境美、文学美的配文。
火山引擎图片评分
基于深度学习,对图像质量进行评分,包括清晰度、美学、亮度、人脸、对比度、黑边、三明治、白天夜晚等多个维度。
火山引擎图片流动
基于深度学习算法,检测出图片中的头发、水面、天空、纹理,使其产生流动效果,返回流动视频。
火山引擎商品识别
识别图片中的商品分类及属性,包含服饰鞋靴、箱包、玩具、3C家电、家居日用等品类。
火山引擎通用图像分割
检测图像中的主体并识别轮廓,实现精细化分割抠图能力,对镂空主体及复杂背景均有良好效果,并分割图片中的前景主体,适用于人像、食物等通用场景。
火山引擎商品图像分割
识别图像中的主体商品轮廓,并与背景分离,返回分割后的前景商品图(4通道),对镂空主体、多商品及复杂背景均有良好抠图效果。除商品分割以外,本接口还提供人像以及通用物体的分割抠图能力,可以实现人像和通用物体的精细化分割。
火山引擎车辆分割
基于深度学习算法,准确分割出车辆部分,支持车辆抠图、趣味换背景等相关用法。
火山引擎歌词对齐
LyricsAlignment为用户提供文本转歌曲的歌词对齐能力,该API目前支持非流式、多语种歌词对齐。
火山引擎歌唱合成
MemeSong为用户提供文本转歌曲的歌唱合成能力,该API目前支持非流式、中文合成。
火山引擎响度检测
LoudnessDetect为用户提供音频响度检测能力。
火山引擎副歌检测
DeepChorus为用户提供副歌检测能力,自动分析获取音乐的段落结构,发现音乐的副歌高潮部分,可用于音乐视频高光剪辑等场景。
火山引擎音源分离
MusicSourceSeparate 为用户提供歌曲音源分离能力。
火山引擎音乐标签
MusicTagging 为用户提供音乐标签分类能力,通过曲风、情绪、场景、语言、二级曲风5个维度分析音乐,自动生成各维度下的分类标签以及对应概率值。
火山引擎音乐转谱
MIDI 为用户提供音乐转谱提取能力,将输入的音频进行分析提取、导出MIDI格式音乐,包含音乐的音符、力度、时长等信息。
火山引擎在线节拍检测
BeatTracking 为用户提供节拍检测能力,自动分析获取音乐的节拍点,发现音乐的更多信息,辅助音乐资源利用。
火山引擎音视频字幕
基于语音识别技术,能够自动将音/视频中的语音、歌词转换为字幕文本,适用于辅助视频字幕创作和外挂字幕自动生成。产品支持多个语种的识别、打轴,是完美适配视频创作和视频观看场景的智能字幕解决方案。
火山引擎音色转换
音色转换方案是指通过输入任意用户语音,输出指定音色的声音,实现语音趣味变声,丰富语音交互体验;可应用于音视频创作、虚拟形象、电商直播、游戏、汽车等场景。
火山引擎声音复刻
声音复刻是基于全自研最新语音大模型算法MegaTTS打造的超轻量级音色定制方案。用户在开放环境中录制秒级别录音即可极速拥有专属AI定制音色。
×
完成
取消
×
书签名称
确定