Halaman ini diterjemahkan oleh Cloud Translation API.

Template Java Database Connectivity (JDBC) ke BigQuery

Template JDBC ke BigQuery adalah pipeline batch yang menyalin data dari tabel database relasional ke tabel BigQuery yang ada. Pipeline ini menggunakan JDBC untuk terhubung ke database relasional. Gunakan template ini untuk menyalin data dari database relasional mana pun dengan driver JDBC yang tersedia ke BigQuery.

Untuk lapisan perlindungan tambahan, Anda dapat meneruskan kunci Cloud KMS, beserta parameter string koneksi, sandi, dan nama pengguna yang dienkripsi dengan Base64 yang dienkripsi dengan kunci Cloud KMS. Untuk mengetahui detail tambahan tentang mengenkripsi parameter nama pengguna, sandi, dan string koneksi, lihat Endpoint enkripsi API Cloud KMS.

Persyaratan pipeline

Driver JDBC untuk database relasional harus tersedia.
Tabel BigQuery harus ada sebelum eksekusi pipeline.
Tabel BigQuery harus memiliki skema yang kompatibel.
Database relasional harus dapat diakses dari subnet tempat Dataflow berjalan.

Parameter template

Parameter yang diperlukan

driverJars: Daftar file JAR driver yang dipisahkan koma. Contoh, gs://your-bucket/driver_jar1.jar,gs://your-bucket/driver_jar2.jar.
driverClassName: Nama class driver JDBC. Contoh, com.mysql.jdbc.Driver.
connectionURL: String URL koneksi JDBC. Contoh, jdbc:mysql://some-host:3306/sampledb. Anda dapat meneruskan nilai ini sebagai string yang dienkripsi dengan kunci Cloud KMS, lalu dienkode dengan Base64. Hapus karakter spasi dari string berenkode Base64. Perhatikan perbedaan antara string koneksi database non-RAC Oracle (jdbc:oracle:thin:@some-host:<port>:<sid>) dan string koneksi database RAC Oracle (jdbc:oracle:thin:@//some-host[:<port>]/<service_name>). Misalnya, jdbc:mysql://some-host:3306/sampledb.
outputTable: Lokasi tabel output BigQuery. Contoh, <PROJECT_ID>:<DATASET_NAME>.<TABLE_NAME>.
bigQueryLoadingTemporaryDirectory: Direktori sementara untuk proses pemuatan BigQuery. Contoh, gs://your-bucket/your-files/temp_dir.

Parameter opsional

connectionProperties: String properti yang akan digunakan untuk koneksi JDBC. Format string harus [propertyName=property;]*.Untuk mengetahui informasi selengkapnya, lihat Properti Konfigurasi (https://dev.mysql.com/doc/connector-j/en/connector-j-reference-configuration-properties.html) dalam dokumentasi MySQL. Contohnya, unicode=true;characterEncoding=UTF-8
username: Nama pengguna yang akan digunakan untuk koneksi JDBC. Dapat diteruskan sebagai string yang dienkripsi dengan kunci Cloud KMS, atau dapat berupa rahasia Secret Manager dalam bentuk projects/{project}/secrets/{secret}/versions/{secret_version}.
sandi: Sandi yang akan digunakan untuk koneksi JDBC. Dapat diteruskan sebagai string yang dienkripsi dengan kunci Cloud KMS, atau dapat berupa rahasia Secret Manager dalam bentuk projects/{project}/secrets/{secret}/versions/{secret_version}.
kueri: Kueri yang akan dijalankan pada sumber untuk mengekstrak data. Perhatikan bahwa beberapa jenis SQL JDBC dan BigQuery, meskipun memiliki nama yang sama, memiliki beberapa perbedaan. Beberapa pemetaan jenis SQL -> BigQuery penting yang perlu diingat adalah DATETIME --> TIMESTAMP. Transmisi jenis mungkin diperlukan jika skema Anda tidak cocok. Misalnya, select * from sampledb.sample_table.
KMSEncryptionKey: Kunci enkripsi Cloud KMS yang akan digunakan untuk mendekripsi nama pengguna, sandi, dan string koneksi. Jika Anda meneruskan kunci Cloud KMS, Anda juga harus mengenkripsi nama pengguna, sandi, dan string koneksi. Contoh, projects/your-project/locations/global/keyRings/your-keyring/cryptoKeys/your-key.
useColumnAlias: Jika disetel ke true, pipeline akan menggunakan alias kolom (AS) dan bukan nama kolom untuk memetakan baris ke BigQuery. Setelan defaultnya adalah false.
isTruncate: Jika disetel ke true, pipeline akan memangkas sebelum memuat data ke BigQuery. Defaultnya adalah false, yang menyebabkan pipeline menambahkan data.
partitionColumn: Jika partitionColumn ditentukan bersama dengan table, JdbcIO akan membaca tabel secara paralel dengan menjalankan beberapa instance kueri pada tabel yang sama (subkueri) menggunakan rentang. Saat ini, mendukung kolom partisi Long dan DateTime. Teruskan jenis kolom melalui partitionColumnType.
partitionColumnType: Jenis partitionColumn, menerima long atau datetime. Default-nya adalah: panjang.
table: Tabel yang akan dibaca saat menggunakan partisi. Parameter ini juga menerima subkueri dalam tanda kurung. Contoh, (select id, name from Person) as subq.
numPartitions: Jumlah partisi. Dengan batas bawah dan atas, nilai ini membentuk langkah partisi untuk ekspresi klausa WHERE yang dihasilkan dan digunakan untuk membagi kolom partisi secara merata. Jika input kurang dari 1, angka akan ditetapkan ke 1.
lowerBound: Batas bawah yang akan digunakan dalam skema partisi. Jika tidak diberikan, nilai ini akan otomatis disimpulkan oleh Apache Beam untuk jenis yang didukung. datetime partitionColumnType menerima batas bawah dalam format yyyy-MM-dd HH:mm:ss.SSSZ. Contohnya, 2024-02-20 07:55:45.000+03:30
upperBound: Batas atas yang akan digunakan dalam skema partisi. Jika tidak diberikan, nilai ini akan otomatis disimpulkan oleh Apache Beam untuk jenis yang didukung. datetime partitionColumnType menerima batas atas dalam format yyyy-MM-dd HH:mm:ss.SSSZ. Contohnya, 2024-02-20 07:55:45.000+03:30
fetchSize: Jumlah baris yang akan diambil dari database dalam satu waktu. Tidak digunakan untuk pembacaan yang dipartisi. Nilai defaultnya adalah: 50000.
createDisposition: CreateDisposition BigQuery yang akan digunakan. Misalnya CREATE_IF_NEEDED atau CREATE_NEVER. Default-nya adalah: CREATE_NEVER.
bigQuerySchemaPath: Jalur Cloud Storage untuk skema JSON BigQuery. Jika createDisposition disetel ke CREATE_IF_NEEDED, parameter ini harus ditentukan. Contohnya, gs://your-bucket/your-schema.json
outputDeadletterTable: Tabel BigQuery yang akan digunakan untuk pesan yang gagal mencapai tabel output, diformat sebagai "PROJECT_ID:DATASET_NAME.TABLE_NAME". Jika tidak ada, tabel akan dibuat saat pipeline berjalan. Jika parameter ini tidak ditentukan, pipeline akan gagal karena error penulisan.Parameter ini hanya dapat ditentukan jika useStorageWriteApi atau useStorageWriteApiAtLeastOnce disetel ke benar (true).
disabledAlgorithms: Algoritma yang dipisahkan koma untuk dinonaktifkan. Jika nilai ini disetel ke none, tidak ada algoritma yang dinonaktifkan. Gunakan parameter ini dengan hati-hati, karena algoritma yang dinonaktifkan secara default mungkin memiliki kerentanan atau masalah performa. Misalnya, SSLv3, RC4.
extraFilesToStage: Jalur Cloud Storage atau secret Secret Manager yang dipisahkan koma untuk file yang akan di-stage di pekerja. File ini disimpan di direktori /extra_files di setiap pekerja. Contoh, gs://<BUCKET_NAME>/file.txt,projects/<PROJECT_ID>/secrets/<SECRET_ID>/versions/<VERSION_ID>.
useStorageWriteApi: Jika true, pipeline menggunakan BigQuery Storage Write API (https://cloud.google.com/bigquery/docs/write-api). Nilai defaultnya adalah false. Untuk mengetahui informasi selengkapnya, lihat Menggunakan Storage Write API (https://beam.apache.org/documentation/io/built-in/google-bigquery/#storage-write-api).
useStorageWriteApiAtLeastOnce: Saat menggunakan Storage Write API, menentukan semantik penulisan. Untuk menggunakan semantik minimal satu kali (https://beam.apache.org/documentation/io/built-in/google-bigquery/#at-least-once-semantics), tetapkan parameter ini ke true. Untuk menggunakan semantik tepat satu kali, tetapkan parameter ke false. Parameter ini hanya berlaku jika useStorageWriteApi adalah true. Nilai defaultnya adalah false.

Menjalankan template

Konsol

Buka halaman Dataflow Create job from template.

Buka Membuat tugas dari template

Di kolom Nama tugas, masukkan nama tugas yang unik.
Opsional: Untuk Endpoint regional, pilih nilai dari menu drop-down. Region default-nya adalah us-central1.
Untuk mengetahui daftar region tempat Anda dapat menjalankan tugas Dataflow, lihat Lokasi Dataflow.
Dari menu drop-down Template Dataflow, pilih the JDBC to BigQuery with BigQuery Storage API support template.
Di kolom parameter yang disediakan, masukkan nilai parameter Anda.
Klik Run job.

gcloud

Di shell atau terminal Anda, jalankan template:

gcloud dataflow flex-template run JOB_NAME \
    --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/Jdbc_to_BigQuery_Flex \
    --project=PROJECT_ID \
    --region=REGION_NAME \
    --parameters \
       driverJars=DRIVER_JARS,\
       driverClassName=DRIVER_CLASS_NAME,\
       connectionURL=CONNECTION_URL,\
       outputTable=OUTPUT_TABLE,\
       bigQueryLoadingTemporaryDirectory=BIG_QUERY_LOADING_TEMPORARY_DIRECTORY,\

Ganti kode berikut:

JOB_NAME: nama tugas unik pilihan Anda
VERSION: versi template yang ingin Anda gunakan
Anda dapat menggunakan nilai berikut:
- latest untuk menggunakan versi template terbaru, yang tersedia di folder induk tanpa tanggal di bucket— gs://dataflow-templates-REGION_NAME/latest/
- nama versi, seperti 2023-09-12-00_RC00, untuk menggunakan versi template tertentu, yang dapat ditemukan bertingkat di folder induk yang diberi tanggal di bucket— gs://dataflow-templates-REGION_NAME/
Perhatian: Template versi terbaru dapat diupdate dengan perubahan yang menyebabkan gangguan. Lingkungan produksi Anda harus menggunakan template yang disimpan di folder induk berisi tanggal terbaru untuk mencegah perubahan yang merusak ini memengaruhi alur kerja produksi Anda.
REGION_NAME: region tempat Anda ingin men-deploy tugas Dataflow—misalnya, us-central1
DRIVER_JARS: jalur Cloud Storage driver JDBC yang dipisahkan koma
DRIVER_CLASS_NAME: nama class driver JDBC
CONNECTION_URL: string URL koneksi JDBC.
OUTPUT_TABLE: tabel output BigQuery
BIG_QUERY_LOADING_TEMPORARY_DIRECTORY: Direktori sementara untuk proses pemuatan BigQuery

API

Untuk menjalankan template menggunakan REST API, kirim permintaan HTTP POST. Untuk mengetahui informasi selengkapnya tentang API dan cakupan otorisasinya, lihat projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch
{
   "launchParameter": {
     "jobName": "JOB_NAME",
     "parameters": {
       "driverJars": "DRIVER_JARS",
       "driverClassName": "DRIVER_CLASS_NAME",
       "connectionURL": "CONNECTION_URL",
       "outputTable": "OUTPUT_TABLE",
       "bigQueryLoadingTemporaryDirectory": "BIG_QUERY_LOADING_TEMPORARY_DIRECTORY",
     },
     "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/Jdbc_to_BigQuery_Flex",
     "environment": { "maxWorkers": "10" }
  }
}