图像内容理解-百度智能云
专用API
服务商:
北京百度网讯科技有限公司
【更新时间: 2024.06.25】
图像理解视觉大模型,可多维度识别与理解图片内容,包括人、物、行为、场景、文字等,支持输出对图片内容的一句话描述,同时返回图片的分类标签、文字内容等信息
咨询
去服务商官网采购>
|
服务星级:2星
浏览次数
39
采购人数
0
试用次数
0
SLA: N/A
响应: N/A
适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
|
- API详情
- 使用指南
- 常见 FAQ
- 关于我们
- 相关推荐
什么是百度智能云的图像内容理解?
图像内容理解是一种基于先进视觉大模型的技术,能够多维度地识别并理解图片中的丰富信息。它不仅能够分析图片中的人、物体、行为、场景以及文字,还能通过整合这些信息,输出对整个图片内容的精确描述。这种技术通常与强大的语言处理模型结合,使得机器能够进行看图问答、视觉推理等复杂任务,为用户提供一种类似人类的视觉理解能力。
什么是百度智能云的图像内容理解接口?
百度智能云的图像内容理解有哪些核心功能?
图片理解与内容描述
多维度理解图片内容,支持输出对图片内容的一句话描述,结合大语言模型,可应用于看图问答、视觉推理等场景
|
物体和场景全识别
识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景,支持拼接返回大类及细分类名称
|
图片文字全识别
检测并识别图片内的全部文字信息,涵盖文档、证件等常见场景,支持输出文字内容及文字位置
|
百度智能云的图像内容理解的核心优势是什么?
内容准确
依托图像理解视觉大模型,可精准提炼出对图片的描述,提供更精细、精准的理解服务
|
服务稳定
提供高可靠性、弹性可伸缩、高并发承载的公有云服务,服务可用性高达99.9%以上
|
简单易用
标准化接口封装,调用简单,只需上传单张图片,秒级别获取识别结果
|
在哪些场景会用到百度智能云的图像内容理解?
多模态组件提供
支持作为 AI 能力组件,结合大语言模型无缝理解图像信息,让大模型真正具备“视觉感官”,补齐大语言模型的视觉推理能力
|
|
趣味看图对话
结合大语言模型,可基于图片内容进行问答对话,提高用户交互体验,广泛应用于智能手机厂商、拍照识图、趣味科普等场景
|
|
内容智能推荐
基于模型为图片添加的标签,可推荐相关的话题或用户,支持用于自动标签、图片分类和内容推荐等场景
|
|
1. 成为开发者
三步完成账号的基本注册与认证:
STEP1:点击百度AI开放平台导航右侧的控制台,选择需要使用的AI服务项。若为未登录状态,将跳转至登录界面,请您使用百度账号登录。如还未持有百度账户,可以点击此处注册百度账户。
STEP2:首次使用,登录后将会进入开发者认证页面,请填写相关信息完成开发者认证。注:(如您之前已经是百度云用户或百度开发者中心用户,此步可略过)。
STEP3:通过控制台左侧导航,选择产品服务-人工智能,进入具体AI服务项的控制面板(如文字识别、人脸识别),进行相关业务操作。
2. 创建应用
账号登录成功,您需要创建应用才可正式调用AI能力。应用是您调用API服务的基本操作单元,您可以基于应用创建成功后获取的API Key及Secret Key,进行接口调用操作,及相关配置。
以人脸识别为例,您可按照下图所示的操作流程,完成创建操作。
两种入口只是展现形式不同,相关AI服务模块内容完全一样 点击上图中的「创建应用」,即可进入应用创建界面,如下图所示:
两种入口只是展现形式不同,相关AI服务模块内容完全一样 创建应用需填写的内容如下:
应用名称: 必填项,用于标识您所创建的应用的名称,支持中英文、数字、下划线及中横线,此名称一经创建完毕,不可修改;
接口选择: 必填项,每个应用可以勾选业务所需的所有AI服务的接口权限(仅可勾选具备免费试用权限的接口能力),应用权限可跨服务勾选,创建应用完毕,此应用即具备了所勾选服务的调用权限;
包名绑定: 选填项,如果您需要使用OCR、AR及语音客户端SDK服务(iOS/Android),需要绑定包名信息,以便生成授权License,上图中勾选了「通用文字识别」权限后,即展现此项。 注:人脸识别客户端SDK需要单独申请使用,无需在此配置;
应用描述: 必填项,对此应用的业务场景进行描述。
以上内容根据您的需要,填写完毕后,即可点击「立即创建」,完成应用的创建。应用创建完毕后,您可以点击左侧导航中的「应用列表」,进行应用查看,如下图红框部分所示:
两种入口只是展现形式不同,相关AI服务模块内容完全一样
温馨提示:每项服务最多创建100个应用,同一账号下,每项服务都有一定请求限额,该限额所有应用共享。每项服务的请求限额可以在该服务控制台的概览页查看,通常包含调用量请求限额与QPS限额。
3. 获取密钥
在您创建完毕应用后,平台将会分配给您此应用的相关凭证,主要为AppID、API Key、Secret Key。以上三个信息是您应用实际开发的主要凭证,每个应用之间各不相同,请您妥善保管。下图为示例内容:
两种入口只是展现形式不同,相关AI服务模块内容完全一样
4. 生成签名
您需要使用创建应用所分配到的AppID、API Key及Secret Key,进行Access Token(用户身份验证和授权的凭证)的生成,方法详见 Access Token获取,我们为您准备了几种常见语言的请求示例代码。
温馨提示:Access Token的有效期为30天(以秒为单位),请您集成时注意在程序中定期请求新的token。
5. 启动开发
目前AI产品主要有两种方式使用:API与SDK,您可以选择各产品的文档,查看具体使用方法及参数。 语音识别 | 语音合成 | 文字识别 | 人脸识别 | 人体分析 | 图像识别 | 图像搜索 | 图像增强与特效 | 车辆分析| 图像审核 | 语言与知识 | 文本审核 | 增强现实AR
同时,我们也为您提供集成多项能力的解决方案,如 智能对话平台UNIT | 智能创作平台,您可以查看文档了解具体使用方法。
SDK下载可以直接点击这里进入,选择您需要的SDK进行下载。其中,人脸客户端SDK需要申请才可使用,请直接:点击此处申请
详情参考:https://ai.baidu.com/ai-doc/REFERENCE/Ck3dwjgn3
安全合规可信的云服务 |
||||
1. 成为开发者
三步完成账号的基本注册与认证:
STEP1:点击百度AI开放平台导航右侧的控制台,选择需要使用的AI服务项。若为未登录状态,将跳转至登录界面,请您使用百度账号登录。如还未持有百度账户,可以点击此处注册百度账户。
STEP2:首次使用,登录后将会进入开发者认证页面,请填写相关信息完成开发者认证。注:(如您之前已经是百度云用户或百度开发者中心用户,此步可略过)。
STEP3:通过控制台左侧导航,选择产品服务-人工智能,进入具体AI服务项的控制面板(如文字识别、人脸识别),进行相关业务操作。
2. 创建应用
账号登录成功,您需要创建应用才可正式调用AI能力。应用是您调用API服务的基本操作单元,您可以基于应用创建成功后获取的API Key及Secret Key,进行接口调用操作,及相关配置。
以人脸识别为例,您可按照下图所示的操作流程,完成创建操作。
两种入口只是展现形式不同,相关AI服务模块内容完全一样 点击上图中的「创建应用」,即可进入应用创建界面,如下图所示:
两种入口只是展现形式不同,相关AI服务模块内容完全一样 创建应用需填写的内容如下:
应用名称: 必填项,用于标识您所创建的应用的名称,支持中英文、数字、下划线及中横线,此名称一经创建完毕,不可修改;
接口选择: 必填项,每个应用可以勾选业务所需的所有AI服务的接口权限(仅可勾选具备免费试用权限的接口能力),应用权限可跨服务勾选,创建应用完毕,此应用即具备了所勾选服务的调用权限;
包名绑定: 选填项,如果您需要使用OCR、AR及语音客户端SDK服务(iOS/Android),需要绑定包名信息,以便生成授权License,上图中勾选了「通用文字识别」权限后,即展现此项。 注:人脸识别客户端SDK需要单独申请使用,无需在此配置;
应用描述: 必填项,对此应用的业务场景进行描述。
以上内容根据您的需要,填写完毕后,即可点击「立即创建」,完成应用的创建。应用创建完毕后,您可以点击左侧导航中的「应用列表」,进行应用查看,如下图红框部分所示:
两种入口只是展现形式不同,相关AI服务模块内容完全一样
温馨提示:每项服务最多创建100个应用,同一账号下,每项服务都有一定请求限额,该限额所有应用共享。每项服务的请求限额可以在该服务控制台的概览页查看,通常包含调用量请求限额与QPS限额。
3. 获取密钥
在您创建完毕应用后,平台将会分配给您此应用的相关凭证,主要为AppID、API Key、Secret Key。以上三个信息是您应用实际开发的主要凭证,每个应用之间各不相同,请您妥善保管。下图为示例内容:
两种入口只是展现形式不同,相关AI服务模块内容完全一样
4. 生成签名
您需要使用创建应用所分配到的AppID、API Key及Secret Key,进行Access Token(用户身份验证和授权的凭证)的生成,方法详见 Access Token获取,我们为您准备了几种常见语言的请求示例代码。
温馨提示:Access Token的有效期为30天(以秒为单位),请您集成时注意在程序中定期请求新的token。
5. 启动开发
目前AI产品主要有两种方式使用:API与SDK,您可以选择各产品的文档,查看具体使用方法及参数。 语音识别 | 语音合成 | 文字识别 | 人脸识别 | 人体分析 | 图像识别 | 图像搜索 | 图像增强与特效 | 车辆分析| 图像审核 | 语言与知识 | 文本审核 | 增强现实AR
同时,我们也为您提供集成多项能力的解决方案,如 智能对话平台UNIT | 智能创作平台,您可以查看文档了解具体使用方法。
SDK下载可以直接点击这里进入,选择您需要的SDK进行下载。其中,人脸客户端SDK需要申请才可使用,请直接:点击此处申请
详情参考:https://ai.baidu.com/ai-doc/REFERENCE/Ck3dwjgn3
安全合规可信的云服务 |
||||
|
|
|
|
|
|
|
|
|
|
|
|