Questa pagina è stata tradotta dall'API Cloud Translation.

Esegui il deployment di un modello utilizzando la console Google Cloud

Nella Google Cloud console, puoi creare un endpoint pubblico e implementarvi un modello.

I modelli possono essere dispiacchiati dalla pagina Previsione online o dalla pagina Registry dei modelli.

Esegui il deployment di un modello dalla pagina Previsione online

Nella pagina Previsione online, puoi creare un endpoint ed eseguire il deployment di uno o più modelli come segue:

Nella Google Cloud console, nella sezione Vertex AI, vai alla pagina Previsione online.

Vai alla pagina Previsione online
Fai clic su Crea.
Nel riquadro Nuovo endpoint:
1. Inserisci il nome dell'endpoint.
2. Seleziona Standard per il tipo di accesso.
3. Per creare un endpoint pubblico dedicato (non condiviso), seleziona la casella di controllo Attiva DNS dedicato.
4. Fai clic su Continua.
Nel riquadro Impostazioni modello:
1. Seleziona il tuo modello dall'elenco a discesa.
2. Scegli la versione del modello dall'elenco a discesa.
3. Inserisci la percentuale di Suddivisione traffico per il modello.
4. Fai clic su Fine.
5. Ripeti questi passaggi per tutti gli altri modelli da implementare.

Esegui il deployment di un modello dalla pagina Registro dei modelli

Nella pagina Model Registry, puoi eseguire il deployment di un modello in uno o più endpoint nuovi o esistenti come segue:

Nella Google Cloud console, nella sezione Vertex AI, vai alla pagina Modelli.

Vai alla pagina Modelli
Fai clic sul nome e sull'ID versione del modello di cui vuoi eseguire il deployment per aprire la relativa pagina dei dettagli.
Seleziona la scheda Deployment e test.

Se il modello è già stato implementato in uno o più endpoint, questi sono elencati nella sezione Esegui il deployment del modello.
Fai clic su Esegui il deployment nell'endpoint.
Per eseguire il deployment del modello in un nuovo endpoint:
1. Seleziona Crea nuovo endpoint.
2. Specifica un nome per il nuovo endpoint.
3. Per creare un endpoint pubblico dedicato (non condiviso), seleziona la casella di controllo Attiva DNS dedicato.
4. Fai clic su Continua.
Per eseguire il deployment del modello in un endpoint esistente:
1. Seleziona Aggiungi a endpoint esistente.
2. Seleziona l'endpoint dall'elenco a discesa.
3. Fai clic su Continua.
Puoi eseguire il deployment di più modelli in un endpoint oppure puoi eseguire il deployment dello stesso modello in più endpoint.
Se esegui il deployment del modello in un endpoint esistente in cui sono già stati implementati uno o più modelli, devi aggiornare la percentuale di Suddivisione del traffico per il modello di cui stai eseguendo il deployment e per i modelli già implementati in modo che tutte le percentuali sommino al 100%.
Se esegui il deployment del modello in un nuovo endpoint, accetta 100 per la Suddivisione del traffico. In caso contrario, modifica i valori di suddivisione del traffico per tutti i modelli nell'endpoint in modo che sommino 100.
Inserisci il numero minimo di nodi di calcolo che vuoi fornire per il tuo modello.

Si tratta del numero di nodi che devono essere sempre disponibili per il modello.

Ti vengono addebitati i nodi utilizzati, sia per gestire il carico di inferenza sia per i nodi di standby (minimi), anche senza traffico di inferenza. Consulta la pagina dei prezzi.

Il numero di nodi di calcolo può aumentare se necessario per gestire il traffico di inferenza, ma non supererà mai il numero massimo di nodi.
Per utilizzare la scalabilità automatica, inserisci il numero massimo di nodi di calcolo a cui vuoi che Vertex AI esegua la scalabilità.
Seleziona il tipo di macchina.

Risorse di macchine più grandi aumentano le prestazioni di inferenza e i costi. Confronta i tipi di macchine disponibili.
Seleziona un Tipo di acceleratore e un Conteggio acceleratori.

Se hai attivato l'utilizzo dell'acceleratore quando hai importato o creato il modello, viene visualizzata questa opzione.

Per il conteggio degli acceleratori, consulta la tabella GPU per verificare la presenza di numeri validi di GPU che puoi utilizzare con ogni tipo di macchina CPU. Il conteggio degli acceleratori fa riferimento al numero di acceleratori per nodo, non al numero totale di acceleratori nel deployment.
Se vuoi utilizzare un account di servizio personalizzato per il deployment, seleziona un account di servizio nel menu a discesa Account di servizio.
Scopri come modificare le impostazioni predefinite per la registrazione delle inferenze.
Fai clic su Fine per il modello e, quando tutte le percentuali di Suddivisione traffico sono corrette, fai clic su Continua.
Viene visualizzata la regione in cui viene eseguito il deployment del modello. Deve essere la regione in cui hai creato il modello.
Fai clic su Esegui il deployment per eseguire il deployment del modello nell'endpoint.

Passaggi successivi

Scopri come ottenere un'inferenza online.
Scopri come modificare le impostazioni predefinite per la registrazione delle inferenze.