cURL 命令调用 Vertex AI Gemini API

本文档展示了如何使用 Vertex AI Gemini API 和 cURL 命令与 Gemini Pro (gemini-pro) 模型和 Gemini Pro Vision (gemini-pro-vision) 模型进行交互。

BaidaoVertex AI Gemini API

Vertex AI Gemini API 提供了与 Gemini 模型交互的统一接口。本文档使用到Gemini API 中两种模型：

1. Gemini Pro 模型（gemini-pro）：旨在处理自然语言任务、多轮文本和代码聊天以及代码生成。

2. Gemini Pro Vision 模型（gemini-pro-vision）：支持多模式提示。可以在提示请求中包含文本、图像和视频，并获得文本或代码响应。

可以使用 Vertex AI Gemini API 和 cURL 命令与 Gemini Pro ( gemini-pro) 模型和 Gemini Pro Vision ( gemini-pro-vision) 模型进行交互。

安装配置

本文档将介绍以下任务的安装配置工作：

● 安装 Python SDK。

● 使用 Vertex AI Gemini API 与每个模型进行交互。

1、Gemini Pro（gemini-pro）型号：

1.1 根据文本提示生成文本。

1.2 探索各种功能和配置选项。

2、Gemini Pro Vision ( gemini-pro-vision) 型号：

2.1 根据图像和文本提示生成文本。

2.2 从视频生成文本。

安装软件包

1. 在 Google Cloud 控制台中，导航到Vertex AI Workbench。在 Google Cloud 控制台顶部的搜索栏中，输入Vertex AI Workbench，然后点击第一个结果。

Gemini Pro Vision（gemini-pro-vision）是一种多模式模型，支持在文本或聊天提示中添加图像和视频以获得文本响应。

注意：Gemini Pro Vision 型号不支持纯文本提示。请使用 Gemini Pro 型号来获取纯文本提示。

2. 单击“用户管理的笔记本”，然后单击“打开 JupyterLab获取generative-ai-jupyterlab笔记本”。

3. 在启动器上的Notebook下，单击Python 3以打开一个新的 Python 笔记本。

4. 通过在笔记本的第一个单元格中运行以下命令来安装适用于 Python 的 Vertex AI SDK。

单击顶部的播放按钮 !pip3 安装–升级–用户 google-cloud-aiplatform

输出：

5. 要在此 Jupyter 运行时中使用新安装的软件包，建议重新启动运行时。通过运行以下代码片段或单击顶部的刷新按钮重新启动内核，然后单击重新启动按钮。

import IPython

app = IPython.Application.instance()

app.kernel.do_shutdown(True)

输出：

重启完成后，根据提示点击Ok继续。

使用 Gemini Pro 模型

Gemini Pro（gemini-pro）模型专为分类、总结、提取和写作等自然语言任务而定制。

1. 设置 Google Cloud 项目并为 cURL 命令定义环境变量。

从文本生成文本

向模型发送文本提示。Gemini Pro ( gemini-pro) 模型提供流式响应机制。通过这种方法，无需等待完整的响应；只要片段可用，就可以开始处理它们。

2. 运行以下代码片段，从文本生成文本。

输出：

模型参数

发送给模型的每个提示都包含控制模型如何生成响应的参数值。模型可以为不同的参数值生成不同的结果。可以尝试使用不同的模型参数来查看结果如何变化。

3. 运行以下代码片段来生成包含参数值的响应。

输出：

聊天

Gemini Pro 模型支持自然的多轮对话，非常适合需要来回交互的文本任务。

如果当内容代表对话轮次时，才应指定该字段。可以设置role为以下值之一：user，model。

4、运行以下代码片段进行聊天。

输出：

使用 Gemini Pro 视觉模型

Gemini Pro Vision（gemini-pro-vision）是一种多模式模型，支持在文本或聊天提示中添加图像和视频以获得文本响应。

注意：Gemini Pro Vision 型号不支持纯文本提示。请使用 Gemini Pro 型号来获取纯文本提示。

1、运行以下代码片段从 Google Cloud Storage 下载图像。

输出：

从本地图像生成文本

指定要在提示和字段中内联包含的图像或视频的base64mime_type编码。图像支持的MIMEimage/png类型包括和image/jpeg。

2. 运行以下支持的代码片段mine_type来生成响应。

输出：

从 Google Cloud Storage 上的图片生成文本

指定要包含在提示中的图片的 Cloud Storage URI。存储文件的存储桶必须位于发送请求的同一 Google Cloud 项目中。您还必须指定字段mime_type。支持的图片 MIME 类型包括image/png和image/jpeg。

3. 运行以下代码片段，从 Google Cloud Storage 上的图像生成文本。

输出：

从视频文件生成文本

指定要包含在提示中的视频的 Cloud Storage URI。存储文件的存储桶必须位于发送请求的同一 Google Cloud 项目中。还必须指定字段mime_type。视频支持的 MIME 类型包括video/mp4。

4. 运行以下代码片段从视频文件生成文本：

输出：

总结

Gemini 是 Google DeepMind 开发的一系列能够处理多种模态信息的生成式 AI 模型。与传统的 AI 模型不同，Gemini 不仅可以接受文本输入，还能理解图像和视频，并将这些信息结合起来进行学习和推理。

这意味着你可以向它展示一张图片，它就能描述图片内容，或者根据一段视频生成文字摘要。

Gemini 模型在文本生成方面也表现出色，能够根据用户的提示生成连贯且富有创造力的文本。例如，你可以要求它写一首诗、一篇故事，甚至是一篇学术论文，它都可以完成你的任务。

总而言之，Gemini 是一个功能强大且具有前瞻性的 AI 模型，它为我们提供了新的可能性，并将在未来改变我们与人工智能交互的方式。

文章转自微信公众号@百道数据

cURL 命令调用 Vertex AI Gemini API

BaidaoVertex AI Gemini API

安装配置

安装软件包

使用 Gemini Pro 模型

从文本生成文本

模型参数

聊天

使用 Gemini Pro 视觉模型

从本地图像生成文本

从 Google Cloud Storage 上的图片生成文本

从视频文件生成文本

总结

Serverless实践系列：云函数+API，告知天气信息

LLM|Gemini：谷歌Gemini Pro 开放API ，Gemini Pro 可免费使用

我们有何不同？

热门场景实测，选对API

#AI文本生成大模型API

#AI深度推理大模型API