Questa pagina mostra come creare un set di dati Vertex AI dai tuoi dati tabulari per poter iniziare ad addestrare modelli di classificazione e regressione. Puoi creare un set di dati utilizzando la console Google Cloud o l'API Vertex AI.
Prima di iniziare
Prima di poter creare un set di dati Vertex AI dai dati tabulari, devi prima prepararli. Per maggiori dettagli, vedi:
- Preparare i dati di addestramento tabulari per i modelli di classificazione e regressione
- Best practice per la creazione di dati di addestramento tabulari.
Crea un set di dati vuoto e associa i dati preparati
Per creare un modello di machine learning per la classificazione o la regressione, devi prima disporre di una raccolta rappresentativa di dati da utilizzare per l'addestramento. Utilizza la consoleGoogle Cloud o l'API per associare i dati preparati al set di dati. Dopo aver associato i dati, puoi apportare modifiche e iniziare l'addestramento del modello.
Google Cloud console
- Nella console Google Cloud , nella sezione Vertex AI, vai alla pagina Set di dati.
- Fai clic su Crea per aprire la pagina dei dettagli di creazione del set di dati.
- Modifica il campo Nome set di dati per creare un nome visualizzato descrittivo per il set di dati.
- Seleziona la scheda Tabulare.
- Seleziona l'obiettivo Regressione/classificazione.
- Seleziona una regione dall'elenco a discesa Regione.
- Se vuoi utilizzare chiavi di crittografia gestite dal cliente (CMEK) con il tuo set di dati, apri Opzioni avanzate e fornisci la tua chiave. (Anteprima)
- Fai clic su Crea per creare il set di dati vuoto e passare alla scheda Origine.
- Scegli una delle seguenti opzioni in base all'origine dati.
File CSV sul computer
- Fai clic su Carica file CSV dal tuo computer.
- Fai clic su Seleziona file e scegli tutti i file locali da caricare in un bucket Cloud Storage.
- Nella sezione Seleziona un percorso Cloud Storage, inserisci il percorso del bucket Cloud Storage o fai clic su Sfoglia per scegliere la posizione di un bucket.
File CSV in Cloud Storage
- Fai clic su Seleziona file CSV da Cloud Storage.
- Nella sezione Seleziona file CSV da Cloud Storage, inserisci il percorso del bucket Cloud Storage o fai clic su Sfoglia per scegliere la posizione dei file CSV.
Una tabella o una vista in BigQuery
- Fai clic su Seleziona una tabella o una vista da BigQuery.
- Inserisci gli ID progetto, set di dati e tabella per il file di input.
- Fai clic su Continua.
L'origine dati è associata al set di dati.
API
Quando crei un set di dati, lo associ anche alla relativa origine dati. Il codice necessario per creare un set di dati dipende dalla posizione dei dati di addestramento, ovvero in Cloud Storage o BigQuery. Se l'origine dati si trova in un progetto diverso, assicurati di configurare le autorizzazioni necessarie.Creazione di un set di dati con dati in Cloud Storage
REST
Utilizza il metodo datasets.create per creare un set di dati.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
-
LOCATION: la regione in cui verrà archiviato il set di dati. Deve essere una
regione che supporta
le risorse del set di dati. Ad esempio:
us-central1
. - PROJECT: il tuo ID progetto
- DATASET_NAME: il nome visualizzato per il set di dati.
-
METADATA_SCHEMA_URI: l'URI del file dello schema per il tuo obiettivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: percorsi (URI) dei bucket Cloud Storage contenenti i dati di addestramento.
Può essercene più di uno. Ogni URI ha il formato:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: il numero di progetto generato automaticamente per il tuo progetto.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON della richiesta:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Per inviare la richiesta, scegli una di queste opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Java.
Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Node.js.
Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Creazione di un set di dati con dati in BigQuery
REST
Per creare un set di dati, utilizza il metodo datasets.create.Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
-
LOCATION: la regione in cui verrà archiviato il set di dati. Deve essere una
regione che supporta
le risorse del set di dati. Ad esempio:
us-central1
. - PROJECT: il tuo ID progetto
- DATASET_NAME: il nome visualizzato per il set di dati.
-
METADATA_SCHEMA_URI: l'URI del file dello schema per il tuo obiettivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: percorso della tabella BigQuery contenente i dati di addestramento. Nel modulo:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: il numero di progetto generato automaticamente per il tuo progetto.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON della richiesta:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Per inviare la richiesta, scegli una di queste opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Java.
Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Node.js.
Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Recupero dello stato dell'operazione
Alcune richieste avviano operazioni a lunga esecuzione che richiedono tempo per essere completate. Queste richieste restituiscono un nome dell'operazione, che puoi utilizzare per visualizzare lo stato o annullare l'operazione. Vertex AI fornisce metodi helper per effettuare chiamate alle operazioni di lunga durata. Per ulteriori informazioni, consulta Utilizzo di operazioni a lunga esecuzione.