图像内容理解-百度智能云

图像内容理解-百度智能云

专用API
【更新时间: 2024.06.25】 图像理解视觉大模型,可多维度识别与理解图片内容,包括人、物、行为、场景、文字等,支持输出对图片内容的一句话描述,同时返回图片的分类标签、文字内容等信息
服务星级:
6星
⭐ ⭐ ⭐ ⭐ ⭐ ⭐ 🌟
调用次数
0
集成人数
0
商用人数
0
! SLA: N/A
! 响应: N/A
! 适用于个人&企业
添加到书签
×
完成
取消
×
书签名称
确定
<
产品介绍
>

什么是图像内容理解-百度智能云?

图像内容理解是一种基于先进视觉大模型的技术,能够多维度地识别并理解图片中的丰富信息。它不仅能够分析图片中的人、物体、行为、场景以及文字,还能通过整合这些信息,输出对整个图片内容的精确描述。这种技术通常与强大的语言处理模型结合,使得机器能够进行看图问答、视觉推理等复杂任务,为用户提供一种类似人类的视觉理解能力。

什么是图像内容理解-百度智能云接口?

由服务使用方的应用程序发起,以Restful风格为主、通过公网HTTP协议调用图像内容理解-百度智能云,从而实现程序的自动化交互,提高服务效率。

图像内容理解-百度智能云有哪些核心功能?

物体和场景全识别
识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景,支持拼接返回大类及细分类名称
图片文字全识别
检测并识别图片内的全部文字信息,涵盖文档、证件等常见场景,支持输出文字内容及文字位置
 
     

图像内容理解-百度智能云的核心优势是什么?

内容准确
依托图像理解视觉大模型,可精准提炼出对图片的描述,提供更精细、精准的理解服务
服务稳定
提供高可靠性、弹性可伸缩、高并发承载的公有云服务,服务可用性高达99.9%以上
简单易用
标准化接口封装,调用简单,只需上传单张图片,秒级别获取识别结果
     

在哪些场景会用到图像内容理解-百度智能云接口?

多模态组件提供
支持作为 AI 能力组件,结合大语言模型无缝理解图像信息,让大模型真正具备“视觉感官”,补齐大语言模型的视觉推理能力

 

趣味看图对话
结合大语言模型,可基于图片内容进行问答对话,提高用户交互体验,广泛应用于智能手机厂商、拍照识图、趣味科普等场景

 

内容智能推荐
基于模型为图片添加的标签,可推荐相关的话题或用户,支持用于自动标签、图片分类和内容推荐等场景

 

<
使用指南
>

1. 成为开发者

三步完成账号的基本注册与认证:

STEP1:点击百度AI开放平台导航右侧的控制台,选择需要使用的AI服务项。若为未登录状态,将跳转至登录界面,请您使用百度账号登录。如还未持有百度账户,可以点击此处注册百度账户
STEP2:首次使用,登录后将会进入开发者认证页面,请填写相关信息完成开发者认证。注:(如您之前已经是百度云用户或百度开发者中心用户,此步可略过)。
STEP3:通过控制台左侧导航,选择产品服务-人工智能,进入具体AI服务项的控制面板(如文字识别、人脸识别),进行相关业务操作。

image.png

2. 创建应用

账号登录成功,您需要创建应用才可正式调用AI能力。应用是您调用API服务的基本操作单元,您可以基于应用创建成功后获取的API Key及Secret Key,进行接口调用操作,及相关配置。

以人脸识别为例,您可按照下图所示的操作流程,完成创建操作。

image.png
两种入口只是展现形式不同,相关AI服务模块内容完全一样 点击上图中的「创建应用」,即可进入应用创建界面,如下图所示:

image.png
两种入口只是展现形式不同,相关AI服务模块内容完全一样 创建应用需填写的内容如下:

应用名称: 必填项,用于标识您所创建的应用的名称,支持中英文、数字、下划线及中横线,此名称一经创建完毕,不可修改;

接口选择: 必填项,每个应用可以勾选业务所需的所有AI服务的接口权限(仅可勾选具备免费试用权限的接口能力),应用权限可跨服务勾选,创建应用完毕,此应用即具备了所勾选服务的调用权限;

包名绑定: 选填项,如果您需要使用OCR、AR及语音客户端SDK服务(iOS/Android),需要绑定包名信息,以便生成授权License,上图中勾选了「通用文字识别」权限后,即展现此项。 注:人脸识别客户端SDK需要单独申请使用,无需在此配置;

应用描述: 必填项,对此应用的业务场景进行描述。

以上内容根据您的需要,填写完毕后,即可点击「立即创建」,完成应用的创建。应用创建完毕后,您可以点击左侧导航中的「应用列表」,进行应用查看,如下图红框部分所示:

image.png
两种入口只是展现形式不同,相关AI服务模块内容完全一样
温馨提示:每项服务最多创建100个应用,同一账号下,每项服务都有一定请求限额,该限额所有应用共享。每项服务的请求限额可以在该服务控制台的概览页查看,通常包含调用量请求限额与QPS限额。

3. 获取密钥

在您创建完毕应用后,平台将会分配给您此应用的相关凭证,主要为AppID、API Key、Secret Key。以上三个信息是您应用实际开发的主要凭证,每个应用之间各不相同,请您妥善保管。下图为示例内容:


两种入口只是展现形式不同,相关AI服务模块内容完全一样

4. 生成签名

您需要使用创建应用所分配到的AppID、API Key及Secret Key,进行Access Token(用户身份验证和授权的凭证)的生成,方法详见 Access Token获取,我们为您准备了几种常见语言的请求示例代码。

温馨提示:Access Token的有效期为30天(以秒为单位),请您集成时注意在程序中定期请求新的token。

5. 启动开发

目前AI产品主要有两种方式使用:API与SDK,您可以选择各产品的文档,查看具体使用方法及参数。 语音识别 | 语音合成 | 文字识别 | 人脸识别 | 人体分析 | 图像识别 | 图像搜索 | 图像增强与特效 | 车辆分析图像审核 | 语言与知识 | 文本审核 | 增强现实AR

同时,我们也为您提供集成多项能力的解决方案,如 智能对话平台UNIT | 智能创作平台,您可以查看文档了解具体使用方法。

SDK下载可以直接点击这里进入,选择您需要的SDK进行下载。其中,人脸客户端SDK需要申请才可使用,请直接:点击此处申请

 

详情参考:https://ai.baidu.com/ai-doc/REFERENCE/Ck3dwjgn3

 

<
产品问答
>
?
需要使用什么账号登录?
您需要拥有一个百度账号,用来登录百度云,可以点击此处注册百度账户。如您以前拥有百度推广账户,同样可以登录百度云。
?
注册百度账户时收不到验证码怎么办?
由于欠费停机、存储信息已满、信号网络延迟等原因没有及时收到验证码,这时请检查您的手机及话费余额,保证手机可正常接收短信后,请尝试重新获取验证码。由于欠费停机、存储信息已满、信号网络延迟等原因没有及时收到验证码,这时请检查您的手机及话费余额,保证手机可正常接收短信后,请尝试重新获取验证码。
?
每个服务的请求配额都是免费的么?
目前我们为每个账户下的每项API服务,都设置了固定的免费请求配额,便于您体验服务及应用调试。在免费试用阶段,成功调用或失败调用都算做一次有效调用,会消耗免费测试资源。
?
每个服务的请求配额有限制么?
目前在同一账号下,您可以在对应服务的控制台中查看。付费服务不限请求数量,即用即扣。目前在同一账号下,您可以在对应服务的控制台中查看。付费服务不限请求数量,即用即扣。
?
支持哪些语言的服务端SDK?
目前支持各项服务的Java、PHP、Python、C#、Node.js版本服务端SDK,部分技术推出了C++、IOS、Android等版本服务端SDK,详情请参见各技术服务SDK文档。
?
邀测、公测和商用接口有什么区别吗?
邀测的全称是邀请测试。AI能力引擎刚推出之际,邀请用户小范围测试。只有经过邀测后,才能进行公测,您需要提交工单申请或者直接通过产品页面进行商务咨询;公测的全称是公开测试。AI能力引擎向平台所有用户开放,提供一定的免费调用额度。同时,支持用户提交工单进行免费测试资源提额申请;商用是指AI能力引擎向平台所有用户开放,并收取一定费用。平台为用户提供一定的免费测试量。邀测的全称是邀请测试。AI能力引擎刚推出之际,邀请用户小范围测试。只有经过邀测后,才能进行公测,您需要提交工单申请或者直接通过产品页面进行商务咨询;公测的全称是公开测试。AI能力引擎向平台所有用户开放,提供一定的免费调用额度。同时,支持用户提交工单进行免费测试资源提额申请;商用是指AI能力引擎向平台所有用户开放,并收取一定费用。平台为用户提供一定的免费测试量。
<
关于我们
>
提供全球领先的人工智能、大数据和云计算服务,加速产业智能化转型升级
联系信息
服务时间: 7 * 24
电话号码: 400-920-8999转1

安全合规可信的云服务

API接口列表
<
使用指南
>

1. 成为开发者

三步完成账号的基本注册与认证:

STEP1:点击百度AI开放平台导航右侧的控制台,选择需要使用的AI服务项。若为未登录状态,将跳转至登录界面,请您使用百度账号登录。如还未持有百度账户,可以点击此处注册百度账户
STEP2:首次使用,登录后将会进入开发者认证页面,请填写相关信息完成开发者认证。注:(如您之前已经是百度云用户或百度开发者中心用户,此步可略过)。
STEP3:通过控制台左侧导航,选择产品服务-人工智能,进入具体AI服务项的控制面板(如文字识别、人脸识别),进行相关业务操作。

image.png

2. 创建应用

账号登录成功,您需要创建应用才可正式调用AI能力。应用是您调用API服务的基本操作单元,您可以基于应用创建成功后获取的API Key及Secret Key,进行接口调用操作,及相关配置。

以人脸识别为例,您可按照下图所示的操作流程,完成创建操作。

image.png
两种入口只是展现形式不同,相关AI服务模块内容完全一样 点击上图中的「创建应用」,即可进入应用创建界面,如下图所示:

image.png
两种入口只是展现形式不同,相关AI服务模块内容完全一样 创建应用需填写的内容如下:

应用名称: 必填项,用于标识您所创建的应用的名称,支持中英文、数字、下划线及中横线,此名称一经创建完毕,不可修改;

接口选择: 必填项,每个应用可以勾选业务所需的所有AI服务的接口权限(仅可勾选具备免费试用权限的接口能力),应用权限可跨服务勾选,创建应用完毕,此应用即具备了所勾选服务的调用权限;

包名绑定: 选填项,如果您需要使用OCR、AR及语音客户端SDK服务(iOS/Android),需要绑定包名信息,以便生成授权License,上图中勾选了「通用文字识别」权限后,即展现此项。 注:人脸识别客户端SDK需要单独申请使用,无需在此配置;

应用描述: 必填项,对此应用的业务场景进行描述。

以上内容根据您的需要,填写完毕后,即可点击「立即创建」,完成应用的创建。应用创建完毕后,您可以点击左侧导航中的「应用列表」,进行应用查看,如下图红框部分所示:

image.png
两种入口只是展现形式不同,相关AI服务模块内容完全一样
温馨提示:每项服务最多创建100个应用,同一账号下,每项服务都有一定请求限额,该限额所有应用共享。每项服务的请求限额可以在该服务控制台的概览页查看,通常包含调用量请求限额与QPS限额。

3. 获取密钥

在您创建完毕应用后,平台将会分配给您此应用的相关凭证,主要为AppID、API Key、Secret Key。以上三个信息是您应用实际开发的主要凭证,每个应用之间各不相同,请您妥善保管。下图为示例内容:


两种入口只是展现形式不同,相关AI服务模块内容完全一样

4. 生成签名

您需要使用创建应用所分配到的AppID、API Key及Secret Key,进行Access Token(用户身份验证和授权的凭证)的生成,方法详见 Access Token获取,我们为您准备了几种常见语言的请求示例代码。

温馨提示:Access Token的有效期为30天(以秒为单位),请您集成时注意在程序中定期请求新的token。

5. 启动开发

目前AI产品主要有两种方式使用:API与SDK,您可以选择各产品的文档,查看具体使用方法及参数。 语音识别 | 语音合成 | 文字识别 | 人脸识别 | 人体分析 | 图像识别 | 图像搜索 | 图像增强与特效 | 车辆分析图像审核 | 语言与知识 | 文本审核 | 增强现实AR

同时,我们也为您提供集成多项能力的解决方案,如 智能对话平台UNIT | 智能创作平台,您可以查看文档了解具体使用方法。

SDK下载可以直接点击这里进入,选择您需要的SDK进行下载。其中,人脸客户端SDK需要申请才可使用,请直接:点击此处申请

 

详情参考:https://ai.baidu.com/ai-doc/REFERENCE/Ck3dwjgn3

 

<
依赖服务
>
<
产品问答
>
?
需要使用什么账号登录?
您需要拥有一个百度账号,用来登录百度云,可以点击此处注册百度账户。如您以前拥有百度推广账户,同样可以登录百度云。
?
注册百度账户时收不到验证码怎么办?
由于欠费停机、存储信息已满、信号网络延迟等原因没有及时收到验证码,这时请检查您的手机及话费余额,保证手机可正常接收短信后,请尝试重新获取验证码。由于欠费停机、存储信息已满、信号网络延迟等原因没有及时收到验证码,这时请检查您的手机及话费余额,保证手机可正常接收短信后,请尝试重新获取验证码。
?
每个服务的请求配额都是免费的么?
目前我们为每个账户下的每项API服务,都设置了固定的免费请求配额,便于您体验服务及应用调试。在免费试用阶段,成功调用或失败调用都算做一次有效调用,会消耗免费测试资源。
?
每个服务的请求配额有限制么?
目前在同一账号下,您可以在对应服务的控制台中查看。付费服务不限请求数量,即用即扣。目前在同一账号下,您可以在对应服务的控制台中查看。付费服务不限请求数量,即用即扣。
?
支持哪些语言的服务端SDK?
目前支持各项服务的Java、PHP、Python、C#、Node.js版本服务端SDK,部分技术推出了C++、IOS、Android等版本服务端SDK,详情请参见各技术服务SDK文档。
?
邀测、公测和商用接口有什么区别吗?
邀测的全称是邀请测试。AI能力引擎刚推出之际,邀请用户小范围测试。只有经过邀测后,才能进行公测,您需要提交工单申请或者直接通过产品页面进行商务咨询;公测的全称是公开测试。AI能力引擎向平台所有用户开放,提供一定的免费调用额度。同时,支持用户提交工单进行免费测试资源提额申请;商用是指AI能力引擎向平台所有用户开放,并收取一定费用。平台为用户提供一定的免费测试量。邀测的全称是邀请测试。AI能力引擎刚推出之际,邀请用户小范围测试。只有经过邀测后,才能进行公测,您需要提交工单申请或者直接通过产品页面进行商务咨询;公测的全称是公开测试。AI能力引擎向平台所有用户开放,提供一定的免费调用额度。同时,支持用户提交工单进行免费测试资源提额申请;商用是指AI能力引擎向平台所有用户开放,并收取一定费用。平台为用户提供一定的免费测试量。
<
关于我们
>
提供全球领先的人工智能、大数据和云计算服务,加速产业智能化转型升级
联系信息
服务时间: 7 * 24
电话号码: 400-920-8999转1

安全合规可信的云服务

<
合作案例
>

寿光蔬菜

 

泰康人寿

 

国家电网 国网新疆电力公司

 

常熟经济技术开发区

 

火星人集成灶

 

宝钢集团

 

BAOWU

 

源创电喷

 

恒逸

 

中国建材集团有限公司

 

国家电网湖南电力公司

 

 

重庆两江新区 三一重工 徐州工业