複製功能總覽

您可以使用 Cloud Data Fusion 複製功能,從營運資料儲存庫 (例如 SQL Server 和 MySQL) 持續即時建立資料副本,並將這些副本複製到 BigQuery

如要使用複寫功能,請選擇下列其中一種方式:

  • 建立新的 Cloud Data Fusion 執行個體,並新增複製應用程式。
  • 將複製應用程式新增至現有執行個體。

包括以下優點:

  • 在開始複製作業前,找出結構定義不相容性、連線問題和缺少的功能,然後提供修正動作。

  • 使用最新的作業資料,在 BigQuery 中即時進行分析。您可以使用記錄式複製功能,直接將資料從 Microsoft SQL Server (使用 SQL Server CDC) 和 MySQL (使用 MySQL 二進位記錄) 複製到 BigQuery。

  • 變更資料擷取 (CDC) 會提供串流中已變更資料的表示法,讓運算和處理作業專注於最近變更的記錄。這麼做可將敏感的正式環境系統外送資料費用降至最低。

  • 企業可擴充功能,支援大量交易資料庫。BigQuery 可透過零停機時間快照複製功能,將資料初次載入至 BigQuery,讓資料倉儲隨時準備好使用變更。初始快照完成後,系統就會開始以高吞吐量持續複製變更內容。

  • 這些儀表板可協助您即時掌握複製效能。這項指標可用於找出瓶頸,並監控資料傳送服務等級目標。

  • 包括支援資料駐留、客戶自行管理的加密金鑰 (CMEK) 和 VPC Service Controls。在Google Cloud 中整合 Cloud Data Fusion,可確保最高等級的企業安全性和隱私權,同時讓資料倉儲提供最新資料供分析。

複製作業執行時,系統會向您收取 Dataproc 叢集費用,並產生 BigQuery 處理費用。為降低這些費用,我們強烈建議您使用 BigQuery 固定費率價格

詳情請參閱 Cloud Data Fusion 定價頁面。

複製作業實體

實體 說明
複製 複製是 Cloud Data Fusion 的功能,可讓您以低延遲的方式,持續將資料從營運資料儲存庫複製到分析資料倉儲。設定來源和目標,並加上選用轉換,即可建立複製工作。
來源 讀取資料庫、資料表或資料欄變更事件,並將這些事件提供給複製工作進一步處理。複寫工作包含一個來源,該來源會依賴變更擷取解決方案提供變更。資料庫可能有許多來源,每個來源都有不同的變更擷取解決方案。來源是使用 CDAP 外掛程式架構建構的插入式模組。如果沒有符合需求的來源,您可以實作來源介面來自行建構來源,然後將其上傳至 CDAP 或 Cloud Data Fusion。
目標 將從來源接收的變更寫入目標資料庫。一個複製工作包含一個目標。目標是使用 CDAP 外掛程式架構建構的可插入模組。如果沒有符合您需求的目標,您可以實作目標介面,然後將其上傳至 CDAP 或 Cloud Data Fusion,自行建構目標。
來源資源 設定來源,包括連線詳細資料、來源資料庫和資料表名稱、憑證和其他屬性。
目標屬性 設定目標,包括連線詳細資料、目標資料庫和資料表名稱、憑證和其他屬性。
複製工作屬性 設定複製工作,包括失敗門檻、暫存區、通知和驗證設定。
草稿 已儲存的部分完成複製作業。複寫工作定義完成後,即可啟動。
事件 變更來源中的事件,以便複製至目標。事件包括插入、更新、刪除和 DDL (資料定義語言) 變更。
插入 在來源中新增記錄。
更新 更新來源中的現有記錄。
刪除 移除來源中的現有記錄。
DDL 變更 包含結構定義變更的事件,例如資料類型或名稱的變更。
記錄 複製工作作業記錄。
複製作業詳細資料 詳細資料頁面會顯示複製工作資訊,例如目前狀態、作業指標、歷來資料檢視畫面、驗證結果和設定。
資訊主頁 這個頁面會列出所有變更資料擷取活動的狀態,包括處理量、延遲時間、失敗率和驗證結果。

動作

動作 說明
部署 按照網頁介面流程建立新的複製工作,指定來源、目標和相關設定。
儲存 儲存部分建立的複製工作,以便稍後繼續建立。
刪除 刪除現有的複製工作。只能刪除已停止的管道。
開始 開始複製作業。如果有變更需要處理,複製工作就會進入「active」狀態;否則,會進入「waiting」狀態。
停止 停止複製作業。複製工作會停止處理來源的變更。
查看記錄 查看複本工作記錄,以便偵錯或進行其他分析。
搜尋 依複本工作名稱、說明或其他複本工作中繼資料搜尋複本工作。
評估 在開始複製作業前,評估複製作業的影響。評估複製工作會產生評估報告,標示架構不相容和缺少的功能。

監控

複製器狀態 說明
已部署 複製作業已部署,但尚未開始。在這個狀態下,複製工作不會複製事件。
啟動中 複製作業正在初始化,尚未準備好複製變更。
執行中 複製作業已啟動,並正在複製變更。
停止中 複製作業正在停止。
已停止 複製工作已停止。
失敗 因發生致命錯誤,複本工作失敗。

表格狀態

概念 說明
快照建立中 複製工作會在複製變更前,先擷取資料表的目前狀態快照。
複製中 複製工作會將來源資料表的變更複製到目的地資料表。
失敗 複製工作因錯誤而無法複製來源資料表的變更。

指標

概念 說明
插入 在所選時間範圍內,套用至目標的插播廣告數量。
更新 在所選時間範圍內,套用至目標的更新次數。
刪除次數 在所選時間範圍內,套用至目標的刪除作業數量。
DDL 在所選時間範圍內,套用至目標的 DDL 變更數量。
處理量 在所選時間範圍內,複製到目標的事件數和位元組數。
延遲時間 在所選時間範圍內,資料複製至目標的延遲時間。

元件

元件 說明
服務 監督複製工作的端對端自動化調度管理作業,並提供設計、部署、管理及監控複製工作的功能。會在 Cloud Data Fusion 租用戶專案中執行 (租用戶專案會隱藏起來,使用者無法看到)。其狀態會顯示在 Cloud Data Fusion 網頁介面的「System Admin」**頁面。
狀態管理 這項服務會管理客戶專案中 Cloud Storage 值區中每個複製工作狀態。您可以在建立複製工作時設定值區。它會儲存每個複製工作目前的偏移量和複製狀態。
執行 Dataproc 叢集會提供複本工作執行環境,這些工作會在您的專案中執行。複製工作會使用 CDAP 工作站執行。執行環境的大小和特性會透過 Compute Engine 設定檔設定。
來源資料庫 實際工作環境的營運資料庫,會複製到目標資料庫。這個資料庫可以位於內部部署或 Google Cloud上。Cloud Data Fusion 複製功能支援 MySQL、Microsoft SQL Server 和 Oracle 來源資料庫。
變更追蹤解決方案 Cloud Data Fusion 不會在來源資料庫上執行的代理程式上執行,而是會依賴變更追蹤解決方案來讀取來源資料庫中的變更。解決方案可以是來源資料庫的元件,或是授權給第三方的個別解決方案。在後一種情況下,變更追蹤解決方案會在本機上執行,與來源資料庫一併部署,或在 Google Cloud上執行。每個來源都必須與變更追蹤解決方案建立關聯。
  1. SQL Server
    • 支援的解決方案: SQL Server CDC (變更追蹤資料表)
    • 其他軟體:
    • 授權/費用:不適用
    • 註解:適用於 SQL Server 2016 以上版本
  2. MySQL
  3. Oracle
目標資料庫 複製和分析的目標位置。Cloud Data Fusion 支援 BigQuery 目標資料庫。
驗證 驗證機制會因來源資料庫或變更追蹤軟體而異。使用來源資料庫 (例如 SQL Server 和 MySQL) 的內建功能時,系統會使用資料庫登入資訊進行驗證。使用變更追蹤軟體時,會使用軟體的驗證機制。

連線能力

下表說明複製作業所需的網路連線,以及所使用的安全性機制。

寄件者 收件者 選用 通訊協定 網路 驗證程序安全性 目的
服務 (用戶群專案) 來源資料庫 取決於複製來源。用於直接資料庫連線的 JDBC。 對等互連 + 防火牆規則 + VPN/互連網路 + 路由器 DB 登入 設計階段 (而非執行階段) 所需的功能:表格清單、評估 (選用步驟;即使不執行這些步驟,複製作業仍可繼續進行)
服務 (用戶群專案) Cloud Storage Cloud API VPC-SC IAM 狀態管理:偏移量、複製狀態
Dataproc (您的專案) 來源資料庫 取決於來源。用於直接連線至資料庫的 JDBC。 對等互連 + 防火牆規則 + VPN/互連網路 + 路由器 DB 登入 執行時需要,用於從來源資料庫讀取變更,並複製到目標
Dataproc (您的專案) Cloud Storage Cloud API VPC-SC IAM 狀態管理:偏移量、複製狀態
Dataproc (您的專案) BigQuery Cloud API VPC-SC IAM 執行時需要用來將來源資料庫的變更套用至目標

後續步驟