本頁說明如何從表格資料建立 Vertex AI 資料集,以便開始訓練預測模型。您可以使用 Google Cloud 控制台或 Vertex AI API 建立資料集。
事前準備
如要從表格資料建立 Vertex AI 資料集,請先準備訓練資料。
建立空白資料集並關聯準備好的資料
如要建立預測用的機器學習模型,您必須先收集具代表性的資料來訓練模型。使用 Google Cloud 控制台或 API,將準備好的資料與資料集建立關聯。
建立資料集時,您也會將其與資料來源建立關聯。訓練資料可以是 Cloud Storage 中的 CSV 檔案,也可以是 BigQuery 中的資料表。如果資料來源位於其他專案,請務必設定必要權限。
Google Cloud 控制台
- 在 Google Cloud 控制台的 Vertex AI 專區中,前往「資料集」頁面。
- 按一下「建立」,開啟建立資料集詳細資料頁面。
- 修改「資料集名稱」欄位,建立描述性資料集顯示名稱。
- 選取「表格式」分頁標籤。
- 選取「預測」目標。
- 從「Region」(區域) 下拉式清單中選取一個區域。
- 按一下「建立」,建立空白資料集,然後前往「來源」分頁。
- 根據資料來源選擇下列其中一個選項。
電腦上的 CSV 檔案
- 按一下「透過電腦上傳 CSV 檔案」 。
- 按一下「選取檔案」,然後選擇要上傳至 Cloud Storage 值區的所有本機檔案。
- 在「選取 Cloud Storage 路徑」部分,輸入 Cloud Storage 值區的路徑,或按一下「瀏覽」選擇值區位置。
Cloud Storage 中的 CSV 檔案
- 按一下「選取 Cloud Storage 中的 CSV 檔案」 。
- 在「Select CSV files from Cloud Storage」(從 Cloud Storage 選取 CSV 檔案) 區段中,輸入 Cloud Storage 值區的路徑,或按一下「Browse」(瀏覽) 選擇 CSV 檔案的位置。
BigQuery 中的資料表或檢視表
- 按一下「從 BigQuery 選取資料表或檢視表」 。
- 輸入輸入檔案的專案、資料集和資料表 ID。
- 按一下「繼續」。
資料來源已與資料集建立關聯。
-
在「分析」分頁中,指定這個資料集的「時間戳記」資料欄和「序列 ID」資料欄。
您也可以在訓練模型時指定這些資料欄,但一般來說,預測資料集會有特定的時間和時間序列 ID 資料欄,因此建議在資料集中指定這些資料欄。
API:CSV
REST
您可以使用 datasets.create 方法建立資料集。
使用任何要求資料之前,請先替換以下項目:
-
LOCATION:資料集儲存的區域。這必須是支援資料集資源的區域。例如:
us-central1
。 - PROJECT:您的專案 ID。
- DATASET_NAME:資料集的顯示名稱。
-
METADATA_SCHEMA_URI:目標的結構定義檔案 URI。
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI:含有訓練資料的 Cloud Storage 值區路徑 (URI)。
可以有多個。每個 URI 的格式如下:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER:系統自動為專案產生的專案編號。
HTTP 方法和網址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
JSON 要求主體:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
如要傳送要求,請選擇以下其中一個選項:
curl
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
您應該會收到如下的 JSON 回應:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
在試用這個範例之前,請先按照Java使用用戶端程式庫的 Vertex AI 快速入門中的操作說明進行設定。 詳情請參閱 Vertex AI Java API 參考說明文件。
如要向 Vertex AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Node.js
在試用這個範例之前,請先按照Node.js使用用戶端程式庫的 Vertex AI 快速入門中的操作說明進行設定。 詳情請參閱 Vertex AI Node.js API 參考說明文件。
如要向 Vertex AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Python
如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK,請參閱「安裝 Python 適用的 Vertex AI SDK」。 詳情請參閱 Python API 參考說明文件。
API:BigQuery
REST
您可以使用 datasets.create 方法建立資料集。
使用任何要求資料之前,請先替換以下項目:
-
LOCATION:資料集儲存的區域。這必須是支援資料集資源的區域。例如:
us-central1
。 - PROJECT:您的專案 ID。
- DATASET_NAME:資料集的顯示名稱。
-
METADATA_SCHEMA_URI:目標的結構定義檔案 URI。
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI:包含訓練資料的 BigQuery 資料表路徑。在表單中:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER:系統自動為專案產生的專案編號。
HTTP 方法和網址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
JSON 要求主體:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
如要傳送要求,請選擇以下其中一個選項:
curl
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
您應該會收到如下的 JSON 回應:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
在試用這個範例之前,請先按照Java使用用戶端程式庫的 Vertex AI 快速入門中的操作說明進行設定。 詳情請參閱 Vertex AI Java API 參考說明文件。
如要向 Vertex AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Node.js
在試用這個範例之前,請先按照Node.js使用用戶端程式庫的 Vertex AI 快速入門中的操作說明進行設定。 詳情請參閱 Vertex AI Node.js API 參考說明文件。
如要向 Vertex AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Python
如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK,請參閱「安裝 Python 適用的 Vertex AI SDK」。 詳情請參閱 Python API 參考說明文件。
取得作業狀態
部分要求會啟動長時間執行的作業,需要一段時間才能完成。這些要求會傳回作業名稱,您可以使用該名稱查看作業狀態或取消作業。Vertex AI 提供輔助方法,可對長時間執行的作業發出呼叫。詳情請參閱「處理長時間執行作業」。