Ollama：管理本地大模型的利器

Ollama 是一个开源的LLM（大型语言模型）服务工具，用于简化在本地运行大语言模型、降低使用大语言模型的门槛。本文将详细介绍Ollama的基本使用，包括安装、配置、管理大模型以及如何通过API调用Ollama服务。

Ollama 简介

Ollama的官网简洁明了地介绍了它的作用：Get up and running with large language models.。Ollama提供了一个平台，让开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新的大语言模型，如Qwen2、Llama3、Phi3、Gemma2等。

Ollama官网

Ollama 安装和配置

下载安装 Ollama

可以在Ollama官网下载适合Windows/MacOS/Linux的安装程序。安装完成后，可以通过设置一些环境变量来优化Ollama的性能和使用体验。

环境变量配置

以下是一些常用的环境变量及其说明：

OLLAMA_MODELS：模型文件存放目录。
OLLAMA_HOST：Ollama服务监听的网络地址。
OLLAMA_PORT：Ollama服务监听的端口。
OLLAMA_ORIGINS：HTTP客户端请求来源。
OLLAMA_KEEP_ALIVE：模型在内存中的存活时间。
OLLAMA_NUM_PARALLEL：请求处理并发数量。
OLLAMA_MAX_QUEUE：请求队列长度。
OLLAMA_DEBUG：输出Debug日志标识。
OLLAMA_MAX_LOADED_MODELS：同时加载到内存中的模型数量。

配置示例

export OLLAMA_HOST=0.0.0.0

export OLLAMA_PORT=11434

export OLLAMA_MODELS=/path/to/your/models

Ollama 管理本地大模型

展示本地大模型列表

通过ollama list命令可以查看本地已下载的大模型列表。

删除单个本地大模型

使用ollama rm命令可以删除指定的大模型。

启动本地模型

使用ollama run命令可以启动本地模型进行交互。

查看本地运行中模型列表

通过ollama ps命令可以查看当前运行中的模型列表。

复制本地大模型

使用ollama cp命令可以复制本地已有的大模型。

Ollama 导入模型到本地的三种方式

方式一：从Ollama远程仓库下载

使用ollama pull命令可以直接从Ollama远程仓库下载大模型。

方式二：导入GGUF模型文件

如果已经有GGUF模型权重文件，可以使用ollama create命令导入到本地。

方式三：导入safetensors模型文件

同样，如果已经有safetensors模型权重文件，也可以使用ollama create命令导入到本地。

基于WebUI部署Ollama可视化对话界面

下载并安装Node.js

首先需要下载并安装Node.js。

下载Ollama-WebUI工程代码

通过git clone命令下载Ollama-WebUI的代码。

启动WebUI

在Ollama-WebUI目录下，执行npm run dev启动WebUI。

Ollama WebUI对话界面

Ollama 客户端API应用

Ollama HTTP访问服务

Ollama提供了generate和chat两个API接口，可以通过HTTP请求调用。

Python API应用

在Python中，可以通过安装ollama包来使用Ollama的API。

import ollama

response = ollama.generate(model='qwen:7b', prompt='天空为什么是蓝色的？')
print(response)

Java API应用（SpringBoot应用）

在SpringBoot应用中，可以通过添加依赖和配置来使用Ollama的API。

@RestController
public class OllamaClientController {

    @Autowired
    private OllamaChatClient ollamaChatClient;

    @GetMapping("/ollama/chat/v1")
    public String ollamaChat(@RequestParam String msg) {
        return this.ollamaChatClient.call(msg);
    }
}