Template Spanner ke Teks Cloud Storage

Template Spanner ke Cloud Storage Text adalah pipeline batch yang membaca data dari tabel Spanner, dan menuliskannya ke Cloud Storage sebagai file teks CSV.

Persyaratan pipeline

  • Tabel Spanner input harus ada sebelum menjalankan pipeline.

Parameter template

Parameter yang diperlukan

  • spannerTable: Tabel Spanner yang akan dibaca datanya.
  • spannerProjectId: ID project Google Cloud yang berisi database Spanner untuk dibaca datanya.
  • spannerInstanceId: ID instance tabel yang diminta.
  • spannerDatabaseId: ID database dari tabel yang diminta.
  • textWritePrefix: Awalan jalur Cloud Storage yang menentukan tempat data ditulis. Contoh, gs://mybucket/somefolder/.

Parameter opsional

Menjalankan template

Konsol

  1. Buka halaman Dataflow Create job from template.
  2. Buka Membuat tugas dari template
  3. Di kolom Nama tugas, masukkan nama tugas yang unik.
  4. Opsional: Untuk Endpoint regional, pilih nilai dari menu drop-down. Region default-nya adalah us-central1.

    Untuk mengetahui daftar region tempat Anda dapat menjalankan tugas Dataflow, lihat Lokasi Dataflow.

  5. Dari menu drop-down Template Dataflow, pilih the Cloud Spanner to Text Files on Cloud Storage template.
  6. Di kolom parameter yang disediakan, masukkan nilai parameter Anda.
  7. Klik Run job.

gcloud

Di shell atau terminal Anda, jalankan template:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Spanner_to_GCS_Text \
    --region REGION_NAME \
    --parameters \
spannerProjectId=SPANNER_PROJECT_ID,\
spannerDatabaseId=DATABASE_ID,\
spannerInstanceId=INSTANCE_ID,\
spannerTable=TABLE_ID,\
textWritePrefix=gs://BUCKET_NAME/output/

Ganti kode berikut:

  • JOB_NAME: nama tugas unik pilihan Anda
  • VERSION: versi template yang ingin Anda gunakan

    Anda dapat menggunakan nilai berikut:

  • REGION_NAME: region tempat Anda ingin men-deploy tugas Dataflow—misalnya, us-central1
  • SPANNER_PROJECT_ID: Google Cloud project ID dari database Spanner tempat Anda ingin membaca data
  • DATABASE_ID: ID database Spanner
  • BUCKET_NAME: nama bucket Cloud Storage Anda
  • INSTANCE_ID: ID instance Spanner
  • TABLE_ID: ID tabel Spanner

API

Untuk menjalankan template menggunakan REST API, kirim permintaan HTTP POST. Untuk mengetahui informasi selengkapnya tentang API dan cakupan otorisasinya, lihat projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Spanner_to_GCS_Text
{
   "jobName": "JOB_NAME",
   "parameters": {
       "spannerProjectId": "SPANNER_PROJECT_ID",
       "spannerDatabaseId": "DATABASE_ID",
       "spannerInstanceId": "INSTANCE_ID",
       "spannerTable": "TABLE_ID",
       "textWritePrefix": "gs://BUCKET_NAME/output/"
   },
   "environment": { "zone": "us-central1-f" }
}

Ganti kode berikut:

  • PROJECT_ID: ID Google Cloud project tempat Anda ingin menjalankan tugas Dataflow
  • JOB_NAME: nama tugas unik pilihan Anda
  • VERSION: versi template yang ingin Anda gunakan

    Anda dapat menggunakan nilai berikut:

  • LOCATION: region tempat Anda ingin men-deploy tugas Dataflow—misalnya, us-central1
  • SPANNER_PROJECT_ID: Google Cloud project ID dari database Spanner tempat Anda ingin membaca data
  • DATABASE_ID: ID database Spanner
  • BUCKET_NAME: nama bucket Cloud Storage Anda
  • INSTANCE_ID: ID instance Spanner
  • TABLE_ID: ID tabel Spanner

Langkah berikutnya