Ottenere deduzioni da un modello con addestramento personalizzato

Un'inferenza è l'output di un modello di machine learning addestrato. Questa pagina fornisce una panoramica del flusso di lavoro per ottenere inferenze dai modelli su Vertex AI.

Vertex AI offre due metodi per ottenere inferenze:

  • Le inferenze online sono richieste sincrone effettuate a un modello di cui è stato eseguito il deployment in un Endpoint. Pertanto, prima di inviare una richiesta, devi prima eseguire il deployment della risorsa Model in un endpoint. In questo modo, le risorse di computing vengono associate al modello, in modo che possa pubblicare inferenze online con bassa latenza. Utilizza le inferenze online quando effettui richieste in risposta all'input dell'applicazione o in situazioni che richiedono un'inferenza tempestiva.
  • Le inferenze batch sono richieste asincrone effettuate a un modello che non è stato sottoposto a deployment in un endpoint. Invia la richiesta (come risorsa BatchPredictionJob) direttamente alla risorsa Model. Utilizza le inferenze batch quando non hai bisogno di una risposta immediata e vuoi elaborare i dati accumulati attraverso un'unica richiesta.

Testare il modello localmente

Prima di ottenere inferenze, è utile eseguire il deployment del modello su un endpoint locale durante la fase di sviluppo e test. In questo modo puoi eseguire l'iterazione più rapidamente e testare il modello senza eseguirne il deployment in un endpoint online o sostenere costi di inferenza. Il deployment locale è destinato allo sviluppo e ai test locali, non ai deployment di produzione.

Per eseguire il deployment di un modello localmente, utilizza l'SDK Vertex AI per Python ed esegui il deployment di un LocalModel in un LocalEndpoint. Per una dimostrazione, consulta questo notebook.

Anche se il client non è scritto in Python, puoi comunque utilizzare l'SDK Vertex AI per Python per avviare il container e il server in modo da poter testare le richieste dal client.

Ottenere inferenze da modelli addestrati personalizzati

Per ottenere le inferenze, devi prima importare il modello. Una volta importato, diventa una risorsa Model visibile in Vertex AI Model Registry.

Poi, leggi la seguente documentazione per scoprire come ottenere le inferenze:

Passaggi successivi