本頁說明如何從表格資料建立 Vertex AI 資料集,以便開始訓練分類和迴歸模型。您可以使用 Google Cloud 控制台或 Vertex AI API 建立資料集。
事前準備
您必須先準備資料,才能從表格資料建立 Vertex AI 資料集。詳情請參閱:
建立空白資料集並關聯準備好的資料
如要建立用於分類或迴歸的機器學習模型,您必須先收集代表性資料進行訓練。使用Google Cloud 控制台或 API,將準備好的資料連結至資料集。您可以建立資料關聯,然後進行修改並開始訓練模型。
Google Cloud 控制台
- 在 Google Cloud 控制台的 Vertex AI 專區中,前往「Datasets」頁面。
- 按一下「建立」,開啟建立資料集詳細資料頁面。
- 修改「資料集名稱」欄位,建立描述性資料集顯示名稱。
- 選取「Tabular」分頁標籤。
- 選取「迴歸/分類」目標。
- 從「Region」下拉式清單中選取區域。
- 如果您想在資料集中使用客戶管理的加密金鑰 (CMEK) ,請開啟「進階選項」並提供金鑰。(預覽)
- 按一下「建立」建立空白資料集,然後前往「來源」分頁。
- 請根據資料來源選擇下列其中一個選項。
電腦中的 CSV 檔案
- 按一下「從電腦上傳 CSV 檔案」 。
- 按一下「選取檔案」,然後選擇所有要上傳至 Cloud Storage 儲存桶的本機檔案。
- 在「選取 Cloud Storage 路徑」部分,輸入 Cloud Storage 值區的路徑,或按一下「瀏覽」來選擇值區位置。
Cloud Storage 中的 CSV 檔案
- 按一下「選取 Cloud Storage 中的 CSV 檔案」。
- 在「選取 Cloud Storage 中的 CSV 檔案」部分中,輸入 Cloud Storage 值區的路徑,或按一下「瀏覽」選擇 CSV 檔案的位置。
BigQuery 中的資料表或檢視表
- 按一下「從 BigQuery 選取資料表或檢視表」。
- 輸入輸入檔案的專案、資料集和資料表 ID。
- 按一下「繼續」。
資料來源已與資料集建立關聯。
API
建立資料集時,您也需要將資料集與資料來源建立關聯。建立資料集所需的程式碼取決於訓練資料是位於 Cloud Storage 還是 BigQuery。如果資料來源位於其他專案,請務必設定必要權限。建立含有 Cloud Storage 資料的資料集
REST
您可以使用 datasets.create 方法建立資料集。
使用任何要求資料之前,請先替換以下項目:
-
LOCATION:資料集的儲存區域。這必須是支援資料集資源的區域。例如:
us-central1
。 - PROJECT:您的專案 ID。
- DATASET_NAME:資料集的顯示名稱。
-
METADATA_SCHEMA_URI:目標的結構定義檔案 URI。
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI:含有訓練資料的 Cloud Storage 值區路徑 (URI)。可以有多個。每個 URI 的格式如下:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER:系統自動產生的專案編號。
HTTP 方法和網址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
JSON 要求主體:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
如要傳送要求,請選擇以下其中一個選項:
curl
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
您應該會收到如下的 JSON 回應:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
在試用這個範例之前,請先按照 Vertex AI 快速入門:使用用戶端程式庫中的操作說明設定 Java。詳情請參閱 Vertex AI Java API 參考說明文件。
如要向 Vertex AI 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Node.js
在試用這個範例之前,請先按照 Vertex AI 快速入門:使用用戶端程式庫中的操作說明設定 Node.js。詳情請參閱 Vertex AI Node.js API 參考說明文件。
如要向 Vertex AI 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python 適用的 Vertex AI SDK
如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK,請參閱「安裝 Python 適用的 Vertex AI SDK」。 詳情請參閱 Vertex AI SDK for Python API 參考說明文件。
在 BigQuery 中建立含有資料的資料集
REST
您可以使用 datasets.create 方法建立資料集。使用任何要求資料之前,請先替換以下項目:
-
LOCATION:資料集的儲存區域。這必須是支援資料集資源的區域。例如:
us-central1
。 - PROJECT:您的專案 ID。
- DATASET_NAME:資料集的顯示名稱。
-
METADATA_SCHEMA_URI:目標的結構定義檔案 URI。
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI:包含訓練資料的 BigQuery 資料表路徑。在表單中:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER:系統自動產生的專案編號。
HTTP 方法和網址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
JSON 要求主體:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
如要傳送要求,請選擇以下其中一個選項:
curl
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
您應該會收到如下的 JSON 回應:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
在試用這個範例之前,請先按照 Vertex AI 快速入門:使用用戶端程式庫中的操作說明設定 Java。詳情請參閱 Vertex AI Java API 參考說明文件。
如要向 Vertex AI 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Node.js
在試用這個範例之前,請先按照 Vertex AI 快速入門:使用用戶端程式庫中的操作說明設定 Node.js。詳情請參閱 Vertex AI Node.js API 參考說明文件。
如要向 Vertex AI 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python 適用的 Vertex AI SDK
如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK,請參閱「安裝 Python 適用的 Vertex AI SDK」。 詳情請參閱 Vertex AI SDK for Python API 參考說明文件。
取得作業狀態
部分要求會啟動需要時間才能完成的長時間作業。這些要求會傳回作業名稱,您可以使用該名稱查看作業狀態或取消作業。Vertex AI 提供輔助方法,可針對長時間執行的作業進行呼叫。詳情請參閱「處理長時間執行作業」。