Questa versione precedente di AI Platform Training è ritirata e non sarà più disponibile su Google Cloud dopo il 31 gennaio 2025. Esegui la migrazione delle tue risorse all'addestramento personalizzato di Vertex AI per accedere a nuove funzionalità di machine learning non disponibili nella piattaforma AI.

Questa pagina è stata tradotta dall'API Cloud Translation.

Addestramento con l'impiego dell'algoritmo Linear Learner integrato

L'addestramento con gli algoritmi integrati in AI Platform Training ti consente di inviare il tuo set di dati e addestrare un modello senza scrivere alcun codice di addestramento. Questa pagina spiega come funziona l'algoritmo di apprendimento lineare integrato e come utilizzarlo.

Panoramica

Questo algoritmo integrato esegue la pre-elaborazione e l'addestramento:

Preelaborazione: la formazione di AI Platform elabora la combinazione di dati numerici e categorici in un set di dati completamente numerico per prepararli all'addestramento.
Addestramento: utilizzando il set di dati e i parametri del modello che hai fornito, l'addestramento di AI Platform viene eseguito utilizzando Linear Estimator di TensorFlow.

Limitazioni

Le seguenti funzionalità non sono supportate per l'addestramento con l'algoritmo di apprendimento lineare integrato:

Addestramento multi-GPU. Gli algoritmi integrati utilizzano una sola GPU alla volta. Per sfruttare al meglio l'addestramento con più GPU su una macchina, devi creare un'applicazione di addestramento. Trova ulteriori informazioni sui tipi di macchine.
Addestramento con TPU. Per l'addestramento con le TPU, devi creare un'applicazione di addestramento. Scopri come eseguire un job di addestramento con le TPU.
Addestramento distribuito. Per eseguire un job di addestramento distribuito su AI Platform Training, devi creare un'applicazione di addestramento.

Tipi di macchine supportati

I seguenti livelli di scalabilità e tipi di macchine di AI Platform Training sono supportati:

BASIC livello di scalabilità
CUSTOM con uno dei tipi di macchine Compute Engine supportati da AI Platform Training.
Livello di scalabilità CUSTOM con uno dei seguenti tipi di macchine legacy:
- standard
- large_model
- complex_model_s
- complex_model_m
- complex_model_l
- standard_gpu
- standard_p100
- standard_v100
- large_model_v100

Formattare i dati di input

Ogni riga di un set di dati rappresenta un'istanza e ogni colonna rappresenta un valore della funzionalità. La colonna di destinazione rappresenta il valore che vuoi prevedere.

Preparare il file CSV

I dati di input devono essere un file CSV con codifica UTF-8. Se i dati di addestramento sono costituiti solo da valori categorici e numerici, puoi utilizzare il nostro modulo di preelaborazione per inserire i valori numerici mancanti, suddividere il set di dati e rimuovere le righe con più del 10% di valori mancanti. In caso contrario, puoi eseguire la formazione senza attivare la pre-elaborazione automatica.

Devi preparare il file CSV di input in modo che soddisfi i seguenti requisiti:

Rimuovi la riga di intestazione. La riga di intestazione contiene le etichette per ogni colonna. Rimuovi la riga di intestazione per evitare di inviarla con il resto delle istanze di dati come parte dei dati di addestramento.
Assicurati che la colonna di destinazione sia la prima. La colonna target contiene il valore che stai cercando di prevedere. Per un algoritmo di classificazione, tutti i valori nella colonna target sono una classe o una categoria. Per un algoritmo di regressione, tutti i valori nella colonna di destinazione sono numerici.

Gestire i valori interi

Il significato dei valori interi può essere ambiguo, il che rende problematiche le colonne di valori interi nella preelaborazione automatica. AI Platform Training determina automaticamente come gestire i valori interi. Per impostazione predefinita:

Se ogni valore intero è univoco, la colonna viene trattata come chiavi di istanza.
Se sono presenti solo alcuni valori interi univoci, la colonna viene trattata come categorica.
In caso contrario, i valori nella colonna vengono convertiti in valori float e trattati come numerici.

Per eseguire l'override di queste determinazioni predefinite:

Se i dati devono essere trattati come numerici, converti tutti i valori interi nella colonna in virgola mobile, ad es. {101.0, 102.0, 103.0}
Se i dati devono essere trattati come categorici, anteponi un prefisso non numerico a tutti i valori interi della colonna, ad esempio {code_101, code_102, code_103}

Controlla le autorizzazioni dei bucket Cloud Storage

Per archiviare i dati, utilizza un bucket Cloud Storage nello stesso Google Cloud progetto che utilizzi per eseguire i job di addestramento di AI Platform. In caso contrario, concedi l'accesso ad AI Platform Training al bucket Cloud Storage in cui sono archiviati i tuoi dati.

Invia un job di addestramento di Linear Learner

Questa sezione spiega come inviare un job di addestramento utilizzando l'algoritmo di apprendimento lineare integrato.

Puoi trovare brevi spiegazioni di ciascun iperparametro nella console Google Cloud e una spiegazione più completa nel documento di riferimento per l'algoritmo di apprendimento lineare integrato.

Console

Vai alla pagina Job di addestramento della piattaforma AI nella console Google Cloud:

Pagina Lavori di AI Platform Training
Fai clic sul pulsante Nuovo job di addestramento. Dalle opzioni visualizzate di seguito, fai clic su Addestramento con algoritmi integrati.
Nella pagina Crea un nuovo job di addestramento, seleziona Apprendimento lineare e fai clic su Avanti.
Per scoprire di più su tutti i parametri disponibili, segui i link nella console Google Cloud e consulta la documentazione di riferimento sull'apprendente lineare integrato per ulteriori dettagli.

gcloud

Imposta le variabili di ambiente per il tuo job, compilando [VALUES-IN-BRACKETS] con i tuoi valori:

   # Specify the name of the Cloud Storage bucket where you want your
   # training outputs to be stored, and the Docker container for
   # your built-in algorithm selection.
   BUCKET_NAME='BUCKET_NAME'
   IMAGE_URI='gcr.io/cloud-ml-algos/linear_learner_cpu:latest'

   # Specify the Cloud Storage path to your training input data.
   TRAINING_DATA='gs://$BUCKET_NAME/YOUR_FILE_NAME.csv'

   DATE="$(date '+%Y%m%d_%H%M%S')"
   MODEL_NAME='MODEL_NAME'
   JOB_ID="${MODEL_NAME}_${DATE}"

   JOB_DIR="gs://${BUCKET_NAME}/algorithm_training/${MODEL_NAME}/${DATE}"

Invia il job di addestramento utilizzando gcloud ai-platform jobs training submit. Modifica questo esempio generico in modo che funzioni con il tuo set di dati:

   gcloud ai-platform jobs submit training $JOB_ID \
      --master-image-uri=$IMAGE_URI --scale-tier=BASIC --job-dir=$JOB_DIR \
      -- \
      --preprocess --model_type=$MODEL_TYPE --batch_size=250 \
      --learning_rate=0.1 --max_steps=1000 \
      --training_data_path=$TRAINING_DATA

Monitora lo stato del job di addestramento visualizzando i log con gcloud. Consulta gcloud ai-platform jobs describe e gcloud ai-platform jobs stream-logs.
```
   gcloud ai-platform jobs describe ${JOB_ID}
   gcloud ai-platform jobs stream-logs ${JOB_ID}
```

Come funziona l'elaborazione preliminare

La pre-elaborazione automatica funziona per i dati categorici e numerici. La routine di preelaborazione analizza e poi trasforma i dati.

Analisi

Innanzitutto, AI Platform Training rileva automaticamente il tipo di dati di ogni colonna, identifica il modo in cui ogni colonna deve essere trattata e calcola alcune statistiche dei dati al suo interno. Queste informazioni vengono acquisite nel metadata.json file.

La formazione della piattaforma AI analizza il tipo di colonna di destinazione per identificare se il set di dati specificato è per la regressione o la classificazione. Se questa analisi è in conflitto con la tua selezione per model_type, viene generato un errore. Indica esplicitamente come deve essere trattata la colonna di destinazione formattando i dati in modo chiaro nei casi ambigui.

Tipo: la colonna può essere numerica o categorica.
Trattamento: AI Platform Training identifica come trattare ogni colonna come segue:
- Se la colonna include un singolo valore in tutte le righe, viene trattata come costante.
- Se la colonna è di tipo categorico e include valori univoci in tutte le righe, viene trattata come row_identifier.
- Se la colonna è numerica con valori float o se è numerica con valori interi e contiene molti valori univoci, viene trattata come numerica.
- Se la colonna è numerica con valori interi e contiene un numero sufficiente di valori univoci, viene trattata come una colonna categorica in cui i valori interi sono l'identità o il vocabolario.
  - Una colonna è considerata con pochi valori univoci se il numero di valori univoci al suo interno è inferiore al 20% del numero di righe nel set di dati di input.
- Se la colonna è categorica con una cardinalità elevata, viene trattata con l'hashing, in cui il numero di bucket di hash è uguale alla radice quadrata del numero di valori univoci nella colonna.
  - Una colonna categorica è considerata ad alta cardinalità se il numero di valori univoci è maggiore della radice quadrata del numero di righe nel set di dati.
- Se la colonna è categorica e il numero di valori univoci è inferiore o uguale alla radice quadrata del numero di righe nel set di dati, la colonna viene trattata come una normale colonna categorica con un vocabolario.
Statistiche: AI Platform Training calcola le seguenti statistiche, basate sul tipo di colonna e sul trattamento identificati, da utilizzare per trasformare la colonna in una fase successiva.
- Se la colonna è numerica, vengono calcolati i valori di media e varianza.
- Se la colonna è categorica e il trattamento è identità o vocabolario, i valori distinti vengono estratti dalla colonna.
- Se la colonna è categorica e il trattamento è sottoposta ad hashing, il numero di bucket di hash viene calcolato in base alla cardinalità della colonna.

Trasformazione

Al termine dell'analisi iniziale del set di dati, la formazione della piattaforma AI trasforma i dati in base ai tipi, ai trattamenti e alle statistiche applicati al set di dati. AI Platform Training esegue le trasformazioni nel seguente ordine:

Suddivide il set di dati di addestramento in set di dati di convalida e test se specifichi le percentuali di suddivisione.
Rimuove le righe in cui manca più del 10% delle funzionalità.
Compila i valori numerici mancanti utilizzando la media della colonna.

Trasformazioni di esempio

Le righe con il 10% di valori mancanti vengono rimosse. Negli esempi seguenti, assume che la riga contenga 10 valori. Per semplicità, ogni riga di esempio è troncata.

Problema con la riga	Valori originali	Valori trasformati	Spiegazione
Riga di esempio senza valori mancanti	[3, 0,45, ..., *'frutti'*, 0, 1]	[3, 0,45, ..., *1, 0, 0,* 0, 1]	La stringa "frutti" viene trasformata nei valori "1, 0, 0" nella codifica one-hot. Questo accade più avanti nel grafico di TensorFlow.
Troppi valori mancanti	[3, 0,45, ..., 'frutti', __, __]	Riga rimossa	Manca più del 10% dei valori nella riga.
Valore numerico mancante	[3, 0,45, ..., *'frutti'*, 0, __]	[3, 0,45, ..., *1, 0, 0,* 0, *0,54*]	Il valore medio della colonna sostituisce il valore numerico mancante. In questo esempio, la media è 0,54. La stringa "frutti" viene trasformata nei valori "1, 0, 0" nella codifica one-hot. Questo accade più avanti nel grafico di TensorFlow.
Valore categorico mancante	[3, 0,45, ..., __, 0, 1]	[3, 0,45, ..., *0, 0, 0,* 0, 1]	Il valore categorico mancante viene trasformato nei valori "0, 0, 0" nella codifica one-hot. Questo accade più avanti nel grafico di TensorFlow.

Colonne funzionalità

Durante la trasformazione, le colonne non vengono elaborate. I metadati prodotti durante l'analisi vengono invece trasmessi ad AI Platform Training per creare le colonne delle funzionalità di conseguenza:

Tipo di colonna	Trattamento delle colonne	Colonna di funzionalità risultante
Valori numerici	(Tutti i tipi di trattamento delle colonne)	`tf.feature_column.numeric_column` I valori della media e della varianza vengono utilizzati per standardizzare i valori: `new_value = (input_value - mean) / sqrt(variance)`
Categorica	Identità	`tf.feature_column.categorical_column_with_identity`
Categorica	Vocabolario	`tf.feature_column.categorical_column_with_vocabulary_list`
Categorica	Hashing	`tf.feature_column.categorical_column_with_hash_bucket`
Categorica	Identificatore di costante o riga	Ignorato. Nessuna colonna delle funzionalità creata.

Al termine della preelaborazione automatica, AI Platform Training carica nuovamente il set di dati elaborato nel bucket Cloud Storage nella directory specificata nella richiesta del job.

Ulteriori risorse per l'apprendimento

Scopri di più sui modelli lineari su larga scala.
Scopri di più su come vengono creati i modelli lineari con l'API TensorFlow Estimator.
Scopri di più sulle colonne di funzionalità TensorFlow.

Indietro

Introduzione all'algoritmo Linear Learner

Avanti

Riferimento per l'algoritmo Linear Learner