推理扩展(标签)文章,第1页-API学院-幂简集成

本文深入探讨了 Gateway API 推理扩展在 Kubernetes 上运行 AI 推理工作负载时的应用。该项目引入了两个新的自定义资源定义（CRD）：InferenceModel 和 InferencePool，以及端点选择器概念，旨在通过智能路由和负载均衡优化 GPU 和 LLM 的利用率。这些功能显著提高了请求处理效率，为组织节省成本。推理扩展项目的设计使得能够以‘模型即服务’的方式自托管 GenAI/LLM，提高 AI 推理的灵活性和性能。

深入了解 Gateway API 的推理扩展