云原生 API 网关 APISIX 入门教程
cURL 命令调用 Vertex AI Gemini API
本文档展示了如何使用 Vertex AI Gemini API 和 cURL 命令与 Gemini Pro (gemini-pro) 模型和 Gemini Pro Vision (gemini-pro-vision) 模型进行交互。
BaidaoVertex AI Gemini API
Vertex AI Gemini API 提供了与 Gemini 模型交互的统一接口。本文档使用到Gemini API 中两种模型:
1. Gemini Pro 模型(gemini-pro):旨在处理自然语言任务、多轮文本和代码聊天以及代码生成。
2. Gemini Pro Vision 模型(gemini-pro-vision):支持多模式提示。可以在提示请求中包含文本、图像和视频,并获得文本或代码响应。
可以使用 Vertex AI Gemini API 和 cURL 命令与 Gemini Pro ( gemini-pro) 模型和 Gemini Pro Vision ( gemini-pro-vision) 模型进行交互。
安装配置
本文档将介绍以下任务的安装配置工作:
● 安装 Python SDK。
● 使用 Vertex AI Gemini API 与每个模型进行交互。
1、Gemini Pro(gemini-pro)型号:
1.1 根据文本提示生成文本。
1.2 探索各种功能和配置选项。
2、Gemini Pro Vision ( gemini-pro-vision) 型号:
2.1 根据图像和文本提示生成文本。
2.2 从视频生成文本。
安装软件包
1. 在 Google Cloud 控制台中,导航到Vertex AI Workbench。在 Google Cloud 控制台顶部的搜索栏中,输入Vertex AI Workbench,然后点击第一个结果。
Gemini Pro Vision(gemini-pro-vision)是一种多模式模型,支持在文本或聊天提示中添加图像和视频以获得文本响应。
注意:Gemini Pro Vision 型号不支持纯文本提示。请使用 Gemini Pro 型号来获取纯文本提示。
2. 单击“用户管理的笔记本”,然后单击“打开 JupyterLab获取generative-ai-jupyterlab笔记本”。
3. 在启动器上的Notebook下,单击Python 3以打开一个新的 Python 笔记本。
4. 通过在笔记本的第一个单元格中运行以下命令来安装适用于 Python 的 Vertex AI SDK。
单击顶部的播放按钮 !pip3 安装–升级–用户 google-cloud-aiplatform
输出:
5. 要在此 Jupyter 运行时中使用新安装的软件包,建议重新启动运行时。通过运行以下代码片段或单击顶部的刷新按钮重新启动内核,然后单击重新启动按钮。
import IPython
app = IPython.Application.instance()
app.kernel.do_shutdown(True)
输出:
重启完成后,根据提示点击Ok继续。
使用 Gemini Pro 模型
Gemini Pro(gemini-pro)模型专为分类、总结、提取和写作等自然语言任务而定制。
1. 设置 Google Cloud 项目并为 cURL 命令定义环境变量。
从文本生成文本
向模型发送文本提示。Gemini Pro ( gemini-pro) 模型提供流式响应机制。通过这种方法,无需等待完整的响应;只要片段可用,就可以开始处理它们。
2. 运行以下代码片段,从文本生成文本。
输出:
模型参数
发送给模型的每个提示都包含控制模型如何生成响应的参数值。模型可以为不同的参数值生成不同的结果。可以尝试使用不同的模型参数来查看结果如何变化。
3. 运行以下代码片段来生成包含参数值的响应。
输出:
聊天
Gemini Pro 模型支持自然的多轮对话,非常适合需要来回交互的文本任务。
如果当内容代表对话轮次时,才应指定该字段。可以设置role为以下值之一:user,model。
4、运行以下代码片段进行聊天。
输出:
使用 Gemini Pro 视觉模型
Gemini Pro Vision(gemini-pro-vision)是一种多模式模型,支持在文本或聊天提示中添加图像和视频以获得文本响应。
注意:Gemini Pro Vision 型号不支持纯文本提示。请使用 Gemini Pro 型号来获取纯文本提示。
1、运行以下代码片段从 Google Cloud Storage 下载图像。
输出:
从本地图像生成文本
指定要在提示和字段中内联包含的图像或视频的base64mime_type编码。图像支持的MIMEimage/png类型包括和image/jpeg。
2. 运行以下支持的代码片段mine_type来生成响应。
输出:
从 Google Cloud Storage 上的图片生成文本
指定要包含在提示中的图片的 Cloud Storage URI。存储文件的存储桶必须位于发送请求的同一 Google Cloud 项目中。您还必须指定字段mime_type。支持的图片 MIME 类型包括image/png和image/jpeg。
3. 运行以下代码片段,从 Google Cloud Storage 上的图像生成文本。
输出:
从视频文件生成文本
指定要包含在提示中的视频的 Cloud Storage URI。存储文件的存储桶必须位于发送请求的同一 Google Cloud 项目中。还必须指定字段mime_type。视频支持的 MIME 类型包括video/mp4。
4. 运行以下代码片段从视频文件生成文本:
输出:
总结
Gemini 是 Google DeepMind 开发的一系列能够处理多种模态信息的生成式 AI 模型。与传统的 AI 模型不同,Gemini 不仅可以接受文本输入,还能理解图像和视频,并将这些信息结合起来进行学习和推理。
这意味着你可以向它展示一张图片,它就能描述图片内容,或者根据一段视频生成文字摘要。
Gemini 模型在文本生成方面也表现出色,能够根据用户的提示生成连贯且富有创造力的文本。例如,你可以要求它写一首诗、一篇故事,甚至是一篇学术论文,它都可以完成你的任务。
总而言之,Gemini 是一个功能强大且具有前瞻性的 AI 模型,它为我们提供了新的可能性,并将在未来改变我们与人工智能交互的方式。
文章转自微信公众号@百道数据