Per eseguire il deployment di un modello per l'inferenza online, è necessario un endpoint. Gli endpoint possono essere divisi nei seguenti tipi:
È possibile accedere agli endpoint pubblici tramite internet pubblico. Sono più facili da usare perché non è necessaria alcuna infrastruttura di rete privata. Esistono due tipi di endpoint pubblici: dedicati e condivisi. Un endpoint pubblico dedicato è un endpoint più veloce che fornisce l'isolamento della produzione, supporta dimensioni del payload maggiori e timeout delle richieste più lunghi rispetto a un endpoint pubblico condiviso. Inoltre, quando inviate una richiesta di inferenza a un endpoint pubblico dedicato, questa viene isolata dal traffico di altri utenti. Per questi motivi, gli endpoint pubblici dedicati sono consigliati come best practice.
Gli endpoint privati dedicati che utilizzano Private Service Connect forniscono una connessione sicura per la comunicazione privata tra l'ambiente on-premise eGoogle Cloud. Possono essere utilizzate per controllare il traffico delle API di Google tramite l'utilizzo delle API Private Service Connect. Sono consigliate come best practice.
Gli endpoint privati forniscono anche una connessione sicura al modello e possono essere utilizzati anche per la comunicazione privata tra on-premise eGoogle Cloud. Utilizzano l'accesso privato ai servizi tramite una connessione di peering di rete VPC.
Per saperne di più sul deployment di un modello in un endpoint, consulta Eseguire il deployment di un modello in un endpoint.
La seguente tabella confronta i tipi di endpoint supportati per la pubblicazione delle inferenze online di Vertex AI.
Endpoint pubblico dedicato (consigliato) | Endpoint pubblico condiviso | Endpoint privato dedicato che utilizza Private Service Connect (consigliato) | Endpoint privato | |
---|---|---|---|---|
Finalità | Esperienza di networking predefinita. Consente l'invio di richieste da internet pubblico. | Esperienza di networking predefinita. Consente l'invio di richieste da internet pubblico. | Consigliato per le applicazioni aziendali di produzione. Migliora la latenza e la sicurezza della rete assicurandosi che le richieste e le risposte vengano instradate in privato. | Consigliato per le applicazioni aziendali di produzione. Migliora la latenza e la sicurezza della rete assicurandosi che le richieste e le risposte vengano instradate in privato. |
Accesso al networking | Internet pubblico utilizzando un piano di rete dedicato | Internet pubblico utilizzando il piano di networking condiviso | Networking privato utilizzando l'endpoint Private Service Connect | Networking privato utilizzando l'accesso privato ai servizi (peering di rete VPC) |
Controlli di servizio VPC | Non supportati. Utilizza invece un endpoint privato dedicato. | Supportato | Supportato | Supportato |
Costo | Vertex AI Inference | Vertex AI Inference | Vertex AI Inference + endpoint Private Service Connect | Vertex AI Inference + Accesso privato ai servizi (vedi: "Utilizzo di un endpoint di Private Service Connect (regola di forwarding) per accedere a un servizio pubblicato") |
Latenza di rete | Ottimizzata | Non ottimizzato | Ottimizzata | Ottimizzata |
Crittografia dei dati in transito | TLS con certificato firmato dalla CA | TLS con certificato firmato dalla CA | TLS facoltativo con certificato autofirmato | Nessuno |
Timeout dell'inferenza | Configurabile fino a 1 ora | 60 secondi | Configurabile fino a 1 ora | 60 secondi |
Limite di dimensione del payload | 10 MB | 1,5 MB | 10 MB | 10 MB |
Quota QPM | Illimitato | 30.000 | Illimitato | Illimitato |
Supporto del protocollo | HTTP o gRPC | HTTP | HTTP o gRPC | HTTP |
Supporto dello streaming | Sì (SSE) | No | Sì (SSE) | No |
Suddivisione traffico | Sì | Sì | Sì | No |
Registrazione di richieste e risposte | Sì | Sì | Sì | No |
Logging degli accessi | Sì | Sì | Sì | No |
Deployment del modello Gemini ottimizzato | No | Sì | No | No |
Modelli AutoML e spiegabilità | No | Sì | No | No |
Librerie client supportate | SDK Vertex AI Python | Librerie client Vertex AI, SDK Vertex AI per Python | SDK Vertex AI Python | SDK Vertex AI Python |
Passaggi successivi
- Scopri di più sul deployment di un modello in un endpoint.