所有文章 > API开发 > cURL 命令调用 Vertex AI Gemini API
cURL 命令调用 Vertex AI Gemini API

cURL 命令调用 Vertex AI Gemini API

本文档展示了如何使用 Vertex AI Gemini APIcURL 命令与 Gemini Pro (gemini-pro) 模型和 Gemini Pro Vision (gemini-pro-vision) 模型进行交互。

BaidaoVertex AI Gemini API

Vertex AI Gemini API 提供了与 Gemini 模型交互的统一接口。本文档使用到Gemini API 中两种模型:

1. Gemini Pro 模型(gemini-pro):旨在处理自然语言任务、多轮文本和代码聊天以及代码生成。

2. Gemini Pro Vision 模型(gemini-pro-vision):支持多模式提示。可以在提示请求中包含文本、图像和视频,并获得文本或代码响应。

可以使用 Vertex AI Gemini API 和 cURL 命令与 Gemini Pro ( gemini-pro) 模型和 Gemini Pro Vision ( gemini-pro-vision) 模型进行交互。

安装配置

本文档将介绍以下任务的安装配置工作:

● 安装 Python SDK。

● 使用 Vertex AI Gemini API 与每个模型进行交互。

1、Gemini Pro(gemini-pro)型号:

             1.1 根据文本提示生成文本。

             1.2 探索各种功能和配置选项。

2、Gemini Pro Vision ( gemini-pro-vision) 型号:

             2.1 根据图像和文本提示生成文本。

             2.2 从视频生成文本。

安装软件包

1. 在 Google Cloud 控制台中,导航到Vertex AI Workbench。在 Google Cloud 控制台顶部的搜索栏中,输入Vertex AI Workbench,然后点击第一个结果。

Gemini Pro Vision(gemini-pro-vision)是一种多模式模型,支持在文本或聊天提示中添加图像和视频以获得文本响应。

注意:Gemini Pro Vision 型号不支持纯文本提示。请使用 Gemini Pro 型号来获取纯文本提示。

2. 单击“用户管理的笔记本”,然后单击“打开 JupyterLab获取generative-ai-jupyterlab笔记本”。

3. 在启动器上的Notebook下,单击Python 3以打开一个新的 Python 笔记本。

4. 通过在笔记本的第一个单元格中运行以下命令来安装适用于 Python 的 Vertex AI SDK。

单击顶部的播放按钮  !pip3 安装–升级–用户 google-cloud-aiplatform

输出:

5. 要在此 Jupyter 运行时中使用新安装的软件包,建议重新启动运行时。通过运行以下代码片段或单击顶部的刷新按钮重新启动内核,然后单击重新启动按钮。

import IPython

app = IPython.Application.instance()

app.kernel.do_shutdown(True)

输出:

重启完成后,根据提示点击Ok继续。

使用 Gemini Pro 模型

Gemini Pro(gemini-pro)模型专为分类、总结、提取和写作等自然语言任务而定制。

1. 设置 Google Cloud 项目并为 cURL 命令定义环境变量。

从文本生成文本

向模型发送文本提示。Gemini Pro ( gemini-pro) 模型提供流式响应机制。通过这种方法,无需等待完整的响应;只要片段可用,就可以开始处理它们。

2. 运行以下代码片段,从文本生成文本。

输出:

模型参数

发送给模型的每个提示都包含控制模型如何生成响应的参数值。模型可以为不同的参数值生成不同的结果。可以尝试使用不同的模型参数来查看结果如何变化。

3. 运行以下代码片段来生成包含参数值的响应。

输出:

聊天

Gemini Pro 模型支持自然的多轮对话,非常适合需要来回交互的文本任务。

如果当内容代表对话轮次时,才应指定该字段。可以设置role为以下值之一:user,model。

4、运行以下代码片段进行聊天。

输出:

使用 Gemini Pro 视觉模型

Gemini Pro Vision(gemini-pro-vision)是一种多模式模型,支持在文本或聊天提示中添加图像和视频以获得文本响应。

注意:Gemini Pro Vision 型号不支持纯文本提示。请使用 Gemini Pro 型号来获取纯文本提示。

1、运行以下代码片段从 Google Cloud Storage 下载图像。

输出:

从本地图像生成文本

指定要在提示和字段中内联包含的图像或视频的base64mime_type编码。图像支持的MIMEimage/png类型包括和image/jpeg。

2. 运行以下支持的代码片段mine_type来生成响应。

输出:

从 Google Cloud Storage 上的图片生成文本

指定要包含在提示中的图片的 Cloud Storage URI。存储文件的存储桶必须位于发送请求的同一 Google Cloud 项目中。您还必须指定字段mime_type。支持的图片 MIME 类型包括image/png和image/jpeg。

3. 运行以下代码片段,从 Google Cloud Storage 上的图像生成文本。

输出:

从视频文件生成文本

指定要包含在提示中的视频的 Cloud Storage URI。存储文件的存储桶必须位于发送请求的同一 Google Cloud 项目中。还必须指定字段mime_type。视频支持的 MIME 类型包括video/mp4。

4. 运行以下代码片段从视频文件生成文本:

输出:

总结

Gemini 是 Google DeepMind 开发的一系列能够处理多种模态信息的生成式 AI 模型。与传统的 AI 模型不同,Gemini 不仅可以接受文本输入,还能理解图像和视频,并将这些信息结合起来进行学习和推理。

这意味着你可以向它展示一张图片,它就能描述图片内容,或者根据一段视频生成文字摘要。

Gemini 模型在文本生成方面也表现出色,能够根据用户的提示生成连贯且富有创造力的文本。例如,你可以要求它写一首诗、一篇故事,甚至是一篇学术论文,它都可以完成你的任务。

总而言之,Gemini 是一个功能强大且具有前瞻性的 AI 模型,它为我们提供了新的可能性,并将在未来改变我们与人工智能交互的方式。

文章转自微信公众号@百道数据

#你可能也喜欢这些API文章!