深入了解 Gateway API 的推理扩展
2025/04/15
本文深入探讨了 Gateway API 推理扩展在 Kubernetes 上运行 AI 推理工作负载时的应用。该项目引入了两个新的自定义资源定义(CRD):InferenceModel 和 InferencePool,以及端点选择器概念,旨在通过智能路由和负载均衡优化 GPU 和 LLM 的利用率。这些功能显著提高了请求处理效率,为组织节省成本。推理扩展项目的设计使得能够以‘模型即服务’的方式自托管 GenAI/LLM,提高 AI 推理的灵活性和性能。