Scegli un tipo di endpoint

Per eseguire il deployment di un modello per l'inferenza online, è necessario un endpoint. Gli endpoint possono essere divisi nei seguenti tipi:

  • È possibile accedere agli endpoint pubblici tramite internet pubblico. Sono più facili da usare perché non è necessaria alcuna infrastruttura di rete privata. Esistono due tipi di endpoint pubblici: dedicati e condivisi. Un endpoint pubblico dedicato è un endpoint più veloce che fornisce l'isolamento della produzione, supporta dimensioni del payload maggiori e timeout delle richieste più lunghi rispetto a un endpoint pubblico condiviso. Inoltre, quando inviate una richiesta di inferenza a un endpoint pubblico dedicato, questa viene isolata dal traffico di altri utenti. Per questi motivi, gli endpoint pubblici dedicati sono consigliati come best practice.

  • Gli endpoint privati dedicati che utilizzano Private Service Connect forniscono una connessione sicura per la comunicazione privata tra l'ambiente on-premise eGoogle Cloud. Possono essere utilizzate per controllare il traffico delle API di Google tramite l'utilizzo delle API Private Service Connect. Sono consigliate come best practice.

  • Gli endpoint privati forniscono anche una connessione sicura al modello e possono essere utilizzati anche per la comunicazione privata tra on-premise eGoogle Cloud. Utilizzano l'accesso privato ai servizi tramite una connessione di peering di rete VPC.

Per saperne di più sul deployment di un modello in un endpoint, consulta Eseguire il deployment di un modello in un endpoint.

La seguente tabella confronta i tipi di endpoint supportati per la pubblicazione delle inferenze online di Vertex AI.

Endpoint pubblico dedicato (consigliato) Endpoint pubblico condiviso Endpoint privato dedicato che utilizza Private Service Connect (consigliato) Endpoint privato
Finalità Esperienza di networking predefinita. Consente l'invio di richieste da internet pubblico. Esperienza di networking predefinita. Consente l'invio di richieste da internet pubblico. Consigliato per le applicazioni aziendali di produzione. Migliora la latenza e la sicurezza della rete assicurandosi che le richieste e le risposte vengano instradate in privato. Consigliato per le applicazioni aziendali di produzione. Migliora la latenza e la sicurezza della rete assicurandosi che le richieste e le risposte vengano instradate in privato.
Accesso al networking Internet pubblico utilizzando un piano di rete dedicato Internet pubblico utilizzando il piano di networking condiviso Networking privato utilizzando l'endpoint Private Service Connect Networking privato utilizzando l'accesso privato ai servizi (peering di rete VPC)
Controlli di servizio VPC Non supportati. Utilizza invece un endpoint privato dedicato. Supportato Supportato Supportato
Costo Vertex AI Inference Vertex AI Inference Vertex AI Inference + endpoint Private Service Connect Vertex AI Inference + Accesso privato ai servizi (vedi: "Utilizzo di un endpoint di Private Service Connect (regola di forwarding) per accedere a un servizio pubblicato")
Latenza di rete Ottimizzata Non ottimizzato Ottimizzata Ottimizzata
Crittografia dei dati in transito TLS con certificato firmato dalla CA TLS con certificato firmato dalla CA TLS facoltativo con certificato autofirmato Nessuno
Timeout dell'inferenza Configurabile fino a 1 ora 60 secondi Configurabile fino a 1 ora 60 secondi
Limite di dimensione del payload 10 MB 1,5 MB 10 MB 10 MB
Quota QPM Illimitato 30.000 Illimitato Illimitato
Supporto del protocollo HTTP o gRPC HTTP HTTP o gRPC HTTP
Supporto dello streaming Sì (SSE) No Sì (SSE) No
Suddivisione traffico No
Registrazione di richieste e risposte No
Logging degli accessi No
Deployment del modello Gemini ottimizzato No No No
Modelli AutoML e spiegabilità No No No
Librerie client supportate SDK Vertex AI Python Librerie client Vertex AI, SDK Vertex AI per Python SDK Vertex AI Python SDK Vertex AI Python

Passaggi successivi