Scelta di un metodo di addestramento

Questo documento spiega le principali differenze tra l'addestramento di un modello in Vertex AI utilizzando AutoML, l'addestramento personalizzato, Ray su Vertex AI o l'addestramento di un modello utilizzando BigQuery ML.

  • Con AutoML, puoi creare e addestrare un modello con il minimo sforzo tecnico. Puoi utilizzare AutoML per prototipare rapidamente i modelli ed esplorare nuovi set di dati prima di investire nello sviluppo. Ad esempio, puoi utilizzarlo per scoprire quali caratteristiche sono più adatte a un determinato set di dati.

  • Con l'addestramento personalizzato puoi creare un'applicazione di addestramento ottimizzata per i risultati desiderati. Hai il controllo completo sulle funzionalità dell'applicazione di addestramento. ovvero puoi scegliere come target qualsiasi obiettivo, utilizzare qualsiasi algoritmo, sviluppare le tue funzioni di perdita o metriche oppure definire altre personalizzazioni.

  • Con Ray su Vertex AI puoi utilizzare il framework di calcolo distribuito di Ray sull'infrastruttura Google Cloud . Ray su Vertex AI fornisce un ambiente gestito con risorse di calcolo configurabili, integrazione con servizi come Vertex AI Inference e BigQuery e opzioni di networking flessibili per sviluppare ed eseguire carichi di lavoro distribuiti.

  • Utilizzando BigQuery, puoi addestrare i modelli utilizzando i tuoi dati BigQuery direttamente in BigQuery. Utilizzando i comandi SQL, puoi creare rapidamente un modello e utilizzarlo per ottenere inferenze batch.

Per confrontare le diverse funzionalità e competenze richieste per ciascun servizio, consulta la tabella seguente.

AutoML Addestramento personalizzato Ray on Vertex AI BigQuery ML
Sono richieste competenze di data science No Sì, per sviluppare l'applicazione di addestramento nonché per eseguire parte della preparazione dei dati come il feature engineering. È utile avere una comprensione di base dei concetti di machine learning e dei flussi di lavoro di data science. No
Sono richieste conoscenze di programmazione No, AutoML è senza codice. Sì, per sviluppare l'applicazione di addestramento. Sì. Sì.
Tempo per addestrare il modello Minore. È necessaria una minore preparazione dei dati e non è richiesto alcuno sviluppo. Maggiore. È necessaria una maggiore preparazione dei dati ed è richiesto lo sviluppo di applicazioni di addestramento. L'utilizzo dell'addestramento distribuito può ridurre il tempo necessario per addestrare un modello. Il tempo di addestramento dipende dalla logica del codice (preparazione e addestramento dei dati) e dal tempo necessario per il provisioning delle risorse. Minore. La velocità di sviluppo dei modelli aumenta perché non devi creare l'infrastruttura necessaria per le inferenze batch o l'addestramento dei modelli, in quanto BigQuery ML sfrutta il motore di calcolo BigQuery. Ciò aumenta la velocità di addestramento, valutazione e inferenza.
Limiti degli obiettivi di machine learning Sì. Devi scegliere come target uno degli obiettivi predefiniti di AutoML. No No
Le prestazioni del modello possono essere migliorate manualmente con l'ottimizzazione degli iperparametri No. AutoML esegue alcune ottimizzazioni automatiche degli iperparametri, ma non puoi modificare i valori utilizzati. Sì. Puoi ottimizzare il modello durante l'esecuzione di ogni addestramento per la sperimentazione e il confronto. Sì. Poiché fornisci il codice di addestramento personalizzato, puoi impostare o modificare manualmente i valori degli iperparametri prima di avviare un job Ray su Vertex AI. Sì. BigQuery ML supporta l'ottimizzazione degli iperparametri durante l'addestramento dei modelli di ML utilizzando le istruzioni `CREATE MODEL`.
Controllo degli aspetti dell'addestramento personalizzato Limitato. Per i set di dati di immagini e tabelle, puoi specificare il numero di ore nodo da usare per l'addestramento e se consentirne l'interruzione anticipata. Sì. Puoi specificare aspetti dell'ambiente come il tipo di macchina Compute Engine, la dimensione del disco, il framework di machine learning e il numero di nodi, nonché l'immagine Docker che vuoi utilizzare per l'addestramento. Sì. Hai un controllo significativo su vari aspetti dell'ambiente di addestramento. Ad esempio, puoi portare le tue immagini di container Docker personalizzate nel tuo cluster Ray su Vertex AI. Quando crei un cluster Ray, puoi specificare il tipo di macchina sia per il nodo head che per i nodi worker, incluso il numero e il tipo di acceleratori (GPU) che vuoi utilizzare e altro ancora. No
Limiti delle dimensioni dei dati

Sì. AutoML utilizza set di dati gestiti. I limiti delle dimensioni dei dati variano a seconda del tipo di set di dati. Per informazioni specifiche, consulta uno degli argomenti seguenti:

No, nel caso di set di dati non gestiti. Questi hanno gli stessi limiti degli oggetti dei set di dati gestiti creati e ospitati da BigQuery e vengono utilizzati per addestrare i modelli AutoML. No. Tuttavia, la dimensione massima della risposta alla query è di 10 GB per le letture BigQuery. Si tratta di una limitazione della dimensione della risposta dell'API BigQuery, non necessariamente di un limite alla quantità totale di dati che Ray su Vertex AI può elaborare da BigQuery tramite query iterative o parallele. Sì. BigQuery ML applica le quote appropriate in base al singolo progetto. Per saperne di più, consulta Quote e limiti.

Passaggi successivi