Gateway ottimizzato per l'inferenza

Questo documento descrive come configurare il deployment di Google Kubernetes Engine in modo da poter utilizzare Google Cloud Managed Service per Prometheus per raccogliere le metriche da Inference Optimized Gateway. Questo documento illustra come:

  • Configura il gateway ottimizzato per l'inferenza per generare report sulle metriche.
  • Configura una risorsa PodMonitoring per Managed Service per Prometheus per raccogliere le metriche esportate.
  • Accedi a una dashboard in Cloud Monitoring per visualizzare le metriche.

Queste istruzioni si applicano solo se utilizzi la raccolta gestita con Managed Service per Prometheus. Se utilizzi la raccolta di cui hai eseguito il deployment autonomo, consulta la documentazione di Gateway ottimizzato per l'inferenza per informazioni sull'installazione.

Queste istruzioni sono fornite come esempio e dovrebbero funzionare nella maggior parte degli ambienti Kubernetes. Se hai difficoltà a installare un'applicazione o un esportatore a causa di criteri di sicurezza o organizzativi restrittivi, ti consigliamo di consultare la documentazione open source per ricevere assistenza.

Per informazioni su Inference Optimized Gateway, consulta Inference Optimized Gateway.

Prerequisiti

Per raccogliere le metriche dall'esportatore di gateway ottimizzato per l'inferenza utilizzando Managed Service per Prometheus e la raccolta gestita, il deployment deve soddisfare i seguenti requisiti:

  • Sul cluster deve essere in esecuzione Google Kubernetes Engine versione 1.21.4-gke.300 o successiva.
  • Devi eseguire Managed Service per Prometheus con la raccolta gestita abilitata. Per ulteriori informazioni, consulta la guida introduttiva alla raccolta gestita.

Inference Optimized Gateway espone automaticamente le metriche nel formato Prometheus. Non devi installarlo separatamente. Per verificare che l'esportatore di gateway ottimizzato per l'inferenza stia emettendo le metriche sugli endpoint previsti:

  1. Configura il port forwarding utilizzando il seguente comando:

    kubectl -n NAMESPACE_NAME port-forward POD_NAME 9090
    
  2. Accedi all'endpoint localhost:9090/metrics utilizzando l'utilità curl in un'altra sessione del terminale come descritto nel documento Metriche di scansione.

Definisci una risorsa PodMonitoring

Per il rilevamento dei target, l'operatore Managed Service per Prometheus richiede una risorsa PodMonitoring che corrisponda all'esportatore del gateway ottimizzato per l'inferenza nello stesso spazio dei nomi.

Puoi utilizzare la seguente configurazione di PodMonitoring:

# Copyright 2025 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: inference-optimized-gateway-monitoring
  labels:
    app.kubernetes.io/name: inference-optimized-gateway
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  endpoints:
  - port: metrics
    scheme: http
    interval: 5s
    path: /metrics
  selector:
    matchLabels:
      app: inference-gateway-ext-proc
Assicurati che i valori dei campi port e matchLabels corrispondano a quelli dei pod di gateway ottimizzati per l'inferenza che vuoi monitorare.

Per applicare le modifiche alla configurazione da un file locale, esegui il seguente comando:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

Puoi anche utilizzare Terraform per gestire le configurazioni.

Verificare la configurazione

Puoi utilizzare Esplorazione metriche per verificare di aver configurato correttamente l'esportatore del gateway ottimizzato per l'inferenza. L'importazione delle metriche da parte di Cloud Monitoring potrebbe richiedere uno o due minuti.

Per verificare che le metriche siano importate, procedi nel seguente modo:

  1. Nella console Google Cloud, vai alla pagina  Esplora metriche:

    Vai a Esplora metriche

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Nella barra degli strumenti del riquadro Query Builder, seleziona il pulsante  MQL o  PromQL.
  3. Verifica che PromQL sia selezionato nel pulsante di attivazione/disattivazione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti che consente di formattare la query.
  4. Inserisci ed esegui la seguente query:
    inference_model_request_total{cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}

Visualizza dashboard

L'integrazione di Cloud Monitoring include la dashboard Panoramica di Prometheus per gateway ottimizzati per l'inferenza. Le dashboard vengono installate automaticamente quando configuri l'integrazione. Puoi anche visualizzare anteprime statiche delle dashboard senza installare l'integrazione.

Per visualizzare una dashboard installata:

  1. Nella console Google Cloud, vai alla pagina  Dashboard:

    Vai a Dashboard

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Seleziona la scheda Elenco dashboard.
  3. Scegli la categoria Integrazioni.
  4. Fai clic sul nome della dashboard, ad esempio Panoramica di Prometheus per gateway ottimizzati per l'inferenza.

Per visualizzare un'anteprima statica della dashboard:

  1. Nella console Google Cloud, vai alla pagina  Integrazioni:

    Vai a Integrations (Integrazioni).

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Fai clic sul filtro della piattaforma di deployment Kubernetes Engine.
  3. Individua l'integrazione di Gateway ottimizzato per l'inferenza e fai clic su Visualizza dettagli.
  4. Seleziona la scheda Dashboard.

Risoluzione dei problemi

Per informazioni sulla risoluzione dei problemi di importazione delle metriche, consulta Problemi di raccolta dagli esportatori in Risoluzione dei problemi relativi all'importazione.