Character.AI 的最佳实践

Character.AI 是一家专注于构建通用人工智能（AGI）的全栈 AI 公司，致力于通过大型语言模型（LLM）的开发和应用提升人们的日常生活体验。本文将深入探讨 Character.AI 在实现 AI 推理优化方面的最佳实践，并探讨其在各个行业中的应用和未来发展潜力。

内存高效的架构设计

在 Character.AI 的 AI 推理过程中，内存的高效管理是关键所在。LLM 推理的瓶颈主要在于注意力键值（KV）缓存的大小。为了突破这一瓶颈，Character.AI 采用了多项技术，显著减少了 KV 缓存的大小，提升了推理效率。

多查询注意力

Character.AI 在所有注意力层中实现了多查询注意力，与传统的分组查询注意力相比，这种方法将 KV 缓存减少了 8 倍。多查询注意力通过优化查询机制，提高了注意力计算的效率，并减少了内存占用，为大规模推理提供了支持。

混合注意力范围

在注意力层的设计中，Character.AI 采用混合注意力范围，通过交替使用局部注意力和全局注意力层，有效降低了计算复杂度。局部注意力通过滑动窗口技术，将复杂度从 O(长度^2) 降低到 O(长度)，在不影响模型质量的情况下，显著减少了内存和计算资源的消耗。

跨层 KV 共享

Character.AI 还在相邻的注意力层之间实现了 KV 缓存的共享，进一步减少了缓存的大小。在长上下文的应用中，全局注意力层占据了大部分的 KV 缓存空间，通过共享机制，能够有效降低内存占用而不影响模型性能。

有状态缓存

为了在对话应用中提升效率，Character.AI 开发了一种高效的有状态缓存系统。这种系统能够在对话回合之间在主机内存上缓存注意力 KV，从而实现高达 95% 的缓存命中率，大幅降低推理成本。

LRU 缓存结构

Character.AI 的有状态缓存系统采用了 LRU（最近最少使用）缓存结构，将缓存的 KV 张量组织在一个树结构中。通过前缀 Token 的滚动哈希进行索引，系统能够在每次查询时检索最长匹配的缓存，使得部分匹配的消息也可以重用缓存，提升了推理效率。

粘性会话

在服务器层面，Character.AI 使用粘性会话，将同一对话的查询路由到同一台服务器。由于缓存大小的优化，每台服务器可以同时缓存数千个对话，进一步提高了系统的整体效率和性能。

训练和服务的量化

Character.AI 采用 int8 量化技术，在模型权重、激活和注意力 KV 缓存上进行量化处理。这种方法不仅支持矩阵乘法和注意力计算，还通过直接以 int8 精度训练模型，消除了训练与推理不匹配的风险。

int8 内核实现

为了支持量化训练，Character.AI 开发了定制的 int8 内核，实现了高效的矩阵乘法和注意力计算。通过这种优化，训练效率得到了显著提升，推理成本也得以降低。

训练效率的提升

与传统的“训练后量化”技术不同，Character.AI 在模型训练的初期就采用了量化方法。通过这种方式，不仅提高了训练效率，还确保了模型在推理阶段的高精度和一致性。

共同构建未来

Character.AI 的创新不仅限于当前的技术应用，更在于其对未来发展的展望。公司计划通过不断优化 AI 系统，提高推理效率和可扩展性，推动 LLM 作为全球创新驱动力的发展。

AI 驱动的全球创新

Character.AI 致力于构建一个由 LLM 驱动的全球创新平台，为用户提供增强体验的机会。通过不断推动 AI 的可能极限，公司希望在未来的每次互动中，AI 系统都能成为核心驱动力。

未来的发展方向

在未来的发展中，Character.AI 将继续专注于技术创新和优化，以确保其 AI 系统能够高效、可扩展地服务于全球用户。通过与新兴技术的整合和应用，Character.AI 有望在 AI 驱动的全球创新中发挥关键作用。

代码块描述

在 Character.AI 的优化实践中，代码实现是关键。以下是一个示例代码块描述，展示了如何使用 Python 实现多查询注意力的简单示例：

import torch
from torch import nn

class MultiQueryAttention(nn.Module):
    def __init__(self, embed_size, heads):
        super(MultiQueryAttention, self).__init__()
        self.heads = heads
        self.embed_size = embed_size
        self.values = nn.Linear(self.embed_size, self.embed_size, bias=False)
        self.keys = nn.Linear(self.embed_size, self.embed_size, bias=False)
        self.queries = nn.Linear(self.embed_size, self.embed_size, bias=False)
        self.fc_out = nn.Linear(self.embed_size, self.embed_size)

    def forward(self, values, keys, query, mask):
        N = query.shape[0]
        value_len, key_len, query_len = values.shape[1], keys.shape[1], query.shape[1]

        values = self.values(values)
        keys = self.keys(keys)
        queries = self.queries(query)

        # Split for multi-head attention
        values = values.reshape(N, value_len, self.heads, self.embed_size // self.heads)
        keys = keys.reshape(N, key_len, self.heads, self.embed_size // self.heads)
        queries = queries.reshape(N, query_len, self.heads, self.embed_size // self.heads)

        # Attention
        energy = torch.einsum("nqhd,nkhd->nhqk", [queries, keys])
        if mask is not None:
            energy = energy.masked_fill(mask == 0, float("-1e20"))

        attention = torch.nn.functional.softmax(energy / (self.embed_size ** (1 / 2)), dim=3)

        out = torch.einsum("nhql,nlhd->nqhd", [attention, values]).reshape(N, query_len, self.embed_size)
        out = self.fc_out(out)
        return out