Questa pagina fornisce indicazioni per il deployment di un modello di AI generativa in un endpoint per la previsione online.
Controllare Model Garden
Se il modello si trova in Model Garden, puoi eseguirlo facendo clic su Esegui il deployment (disponibile per alcuni modelli) o Apri blocco note.
In caso contrario, puoi eseguire una delle seguenti operazioni:
Se il tuo modello è simile a uno di Model Garden, potresti essere in grado di riutilizzare direttamente uno dei container di Model Garden.
Crea il tuo container personalizzato conforme ai requisiti dei container personalizzati per la previsione prima di importare il modello nel Vertex AI Model Registry. Una volta importata, diventa una risorsa
model
che puoi eseguire il deployment in un endpoint.Puoi utilizzare i Dockerfile e gli script che utilizziamo per creare i nostri container Model Garden come riferimento o come punto di partenza per creare i tuoi container personalizzati.
Pubblicazione di previsioni con NVIDIA NIM
I microservizi di inferenza NVIDIA (NIM) sono modelli di AI preaddestrati e ottimizzati pacchettizzati come microservizi. Sono progettati per semplificare il deployment di AI ad alte prestazioni e pronte per la produzione nelle applicazioni.
NVIDIA NIM può essere utilizzato insieme a Artifact Registry e Vertex AI Prediction per eseguire il deployment di modelli di IA generativa per la previsione online.
Impostazioni per i container personalizzati
Questa sezione descrive i campi del containerSpec
del modello che potresti dover specificare durante l'importazione dei modelli di AI generativa.
Puoi specificare questi campi utilizzando l'API REST di Vertex AI o il
comando gcloud ai models upload
.
Per ulteriori informazioni, consulta
Campi dell'API relativi ai contenitori.
sharedMemorySizeMb
Alcuni modelli di AI generativa richiedono più memoria condivisa. La memoria condivisa è un meccanismo di comunicazione interprocessuale (IPC) che consente a più processi di accedere e manipolare un blocco di memoria comune. La dimensione predefinita della memoria condivisa è 64 MB.
Alcuni server di modelli, come vLLM o Nvidia Triton, utilizzano la memoria condivisa per memorizzare nella cache i dati interni durante le inferenze del modello. Senza memoria condivisa sufficiente, alcuni server del modello non possono fornire le predizioni per i modelli generativi. La quantità di memoria condivisa necessaria, se presente, è un dettaglio di implementazione del contenitore e del modello. Consulta la documentazione del server di modelli per le linee guida.
Inoltre, poiché la memoria condivisa può essere utilizzata per la comunicazione tra GPU, l'utilizzo di più memoria condivisa può migliorare le prestazioni per gli acceleratori senza funzionalità NVLink (ad esempio L4), se il contenitore del modello richiede la comunicazione tra GPU.
Per informazioni su come specificare un valore personalizzato per la memoria condivisa, consulta Campi dell'API relativi ai contenitori.
startupProbe
Un probe di avvio è un probe facoltativo utilizzato per rilevare l'avvio del container. Questo probe viene utilizzato per ritardare il probe dell'integrità e i controlli di attività fino all'avvio del contenitore, il che contribuisce a evitare che i contenitori con avvio lento vengano chiusi prematuramente.
Per ulteriori informazioni, consulta Controlli di integrità.
healthProbe
Il probe di integrità controlla se un container è pronto ad accettare il traffico. Se non viene fornito il controllo di integrità, Vertex AI utilizzerà i controlli di integrità predefiniti che inviano una richiesta HTTP alla porta del contenitore e cercano una risposta
200 OK
dal server del modello.Se il server del modello risponde con
200 OK
prima che il modello sia completamente caricato, il controllo di stato andrà a buon fine in modo prematuro e Vertex AI indirizzerà il traffico al contenitore prima che sia pronto.In questi casi, specifica un probe di integrità personalizzato che riesca solo dopo che il modello è completamente caricato e pronto ad accettare il traffico.
Per ulteriori informazioni, consulta Controlli di integrità.
Limitazioni
Tieni presenti le seguenti limitazioni quando implementi i modelli di AI generativa:
- I modelli di IA generativa possono essere implementati solo su una singola macchina. Il deployment su più host non è supportato.
- Per i modelli di grandi dimensioni che non rientrano nella VRAM più grande supportata, ad esempio Llama 3.1 405B, consigliamo di quantizzarli per adattarli.