Skip to content

About Inference Routing

NVIDIA OpenShell 透過兩個端點處理推論流量:inference.local 端點和外部端點。下表概述了 OpenShell 如何處理推論流量。

路徑 工作原理
External endpoints api.openai.comapi.anthropic.com 等主機的流量處理方式與其他出站請求相同,由 network_policies 決定是否允許。請參閱「自訂沙盒策略」。
inference.local 每個沙箱內部都暴露了一個特殊的端點,用於在本地路由推論流量,從而保護隱私和安全。隱私路由器會剝離原始憑證,注入已設定的後端憑證,並將流量轉送到託管模型端點。

How inference.local Works

當沙箱內的程式碼呼叫 https://inference.local 時,隱私權路由器會將請求路由到為該閘道配置的後端。配置的模型應用於產生請求,並且提供者憑證由 OpenShell 提供,而不是由沙箱內的程式碼提供。

如果程式碼直接呼叫外部推論主機,則該流量僅由 network_policies 進行評估。

特性 細節
Credentials 無需沙盒 API 金鑰。憑證來自已配置的提供者記錄。
Configuration 一個 provider 和一個 model 定義了活動網關的沙箱推論。該網關上的每個沙箱都使用相同的 inference.local 後端。
Provider support NVIDIA、任何相容於 OpenAI 的供應商以及 Anthropic 都透過同一個端點運作。
Hot-refresh OpenShell 能夠偵測提供者憑證的變更和推斷更新,而無需重新建立沙箱。預設情況下,變更會在大約 5 秒內傳播。

Supported API Patterns

支援的請求模式取決於 inference.local 設定的 provider。

Pattern Method Path
Chat Completions POST /v1/chat/completions
Completions POST /v1/completions
Responses POST /v1/responses
Model Discovery GET /v1/models
Model Discovery GET /v1/models/*
Pattern Method Path
Messages POST /v1/messages

拒絕向 inference.local 發出的與已配置提供者支援的模式不符的請求。