BigQuery 到 MongoDB 範本

「BigQuery 到 MongoDB」範本屬於批次管道,可從 BigQuery 讀取資料列,並以文件形式寫入 MongoDB。目前每個資料列都會儲存為文件。

管道相關規定

  • 來源 BigQuery 資料表必須存在。
  • 目標 MongoDB 執行個體應可從 Dataflow 工作站機器存取。

範本參數

必要參數

  • mongoDbUri:MongoDB 連線 URI,格式為 mongodb+srv://:@
  • 資料庫:MongoDB 中用於儲存集合的資料庫。例如:my-db
  • collection:MongoDB 資料庫中的集合名稱。例如:my-collection
  • inputTableSpec:要讀取的 BigQuery 資料表。例如:bigquery-project:dataset.input_table

執行範本

控制台

  1. 前往 Dataflow 的「Create job from template」(透過範本建立工作) 頁面。
  2. 前往「依據範本建立工作」
  3. 在「工作名稱」欄位中,輸入專屬工作名稱。
  4. 選用:如要使用區域端點,請從下拉式選單中選取值。預設區域為 us-central1

    如需可執行 Dataflow 工作的地區清單,請參閱「Dataflow 位置」。

  5. 從「Dataflow template」(Dataflow 範本) 下拉式選單中選取 the BigQuery to MongoDB template。
  6. 在提供的參數欄位中輸入參數值。
  7. 按一下「Run Job」(執行工作)

gcloud

在殼層或終端機中執行範本:

  gcloud dataflow flex-template run JOB_NAME \
      --project=PROJECT_ID \
      --region=REGION_NAME \
      --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/BigQuery_to_MongoDB \
      --parameters \
  inputTableSpec=INPUT_TABLE_SPEC,\
  mongoDbUri=MONGO_DB_URI,\
  database=DATABASE,\
  collection=COLLECTION
  

更改下列內容:

  • PROJECT_ID: 您要執行 Dataflow 工作的專案 ID Google Cloud
  • JOB_NAME: 您選擇的不重複工作名稱
  • REGION_NAME: 您要部署 Dataflow 工作的地區,例如 us-central1
  • VERSION: 您要使用的範本版本

    您可以使用下列值:

  • INPUT_TABLE_SPEC:來源 BigQuery 資料表名稱。
  • MONGO_DB_URI:您的 MongoDB URI。
  • DATABASE:您的 MongoDB 資料庫。
  • COLLECTION:您的 MongoDB 集合。

API

如要使用 REST API 執行範本,請傳送 HTTP POST 要求。如要進一步瞭解 API 和授權範圍,請參閱 projects.templates.launch

  POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch
  {
     "launch_parameter": {
        "jobName": "JOB_NAME",
        "parameters": {
            "inputTableSpec": "INPUT_TABLE_SPEC",
            "mongoDbUri": "MONGO_DB_URI",
            "database": "DATABASE",
            "collection": "COLLECTION"
        },
        "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/BigQuery_to_MongoDB",
     }
  }

更改下列內容:

  • PROJECT_ID: 您要執行 Dataflow 工作的專案 ID Google Cloud
  • JOB_NAME: 您選擇的不重複工作名稱
  • LOCATION: 您要部署 Dataflow 工作的地區,例如 us-central1
  • VERSION: 您要使用的範本版本

    您可以使用下列值:

  • INPUT_TABLE_SPEC:來源 BigQuery 資料表名稱。
  • MONGO_DB_URI:您的 MongoDB URI。
  • DATABASE:您的 MongoDB 資料庫。
  • COLLECTION:您的 MongoDB 集合。

後續步驟