Deployment

I modelli di Google e dei partner e le funzionalità di IA generativa su Vertex AI sono disponibili per regioni specifiche e per un endpoint globale. Gli endpoint globali coprono l'intero mondo e offrono disponibilità e affidabilità superiori rispetto alle singole regioni.

Per informazioni sulla residenza dei dati, consulta Residenza dei dati.

Endpoint globale

La selezione di un endpoint globale per le richieste può migliorare la disponibilità complessiva riducendo al contempo gli errori di risorse esaurite (429). Non utilizzare l'endpoint globale se hai requisiti di elaborazione ML, perché non puoi controllare o sapere a quale regione vengono inviate le richieste di elaborazione ML quando viene effettuata una richiesta.

Modelli supportati

L'utilizzo dell'endpoint globale è supportato per i seguenti modelli:

Utilizzare l'endpoint globale

Per utilizzare l'endpoint globale, escludi la località dal nome dell'endpoint e configura la località della risorsa su global. Ad esempio, il seguente è l'URL dell'endpoint globale:

https://aiplatform.googleapis.com/v1/projects/test-project/locations/global/publishers/google/models/gemini-2.0-flash-001:generateContent

Per l'SDK Google Gen AI, crea un client che utilizzi la posizione global:

client = genai.Client(
    vertexai=True, project='your-project-id', location='global'
)

Limitazioni

Le seguenti funzionalità non sono disponibili quando si utilizza l'endpoint globale:

  • Ottimizzazione
  • Previsione batch
  • Memorizzazione nella cache del contesto
  • Corpus RAG (Retrieval-Augmented Generation) (le richieste RAG sono supportate)
  • Controlli di servizio VPC
  • Throughput riservato

Passaggi successivi