您可以使用 Cloud Data Fusion 複製功能,從營運資料儲存庫 (例如 SQL Server 和 MySQL) 持續即時建立資料副本,並將這些副本複製到 BigQuery。
如要使用複寫功能,請選擇下列其中一種方式:
- 建立新的 Cloud Data Fusion 執行個體,並新增複製應用程式。
- 將複製應用程式新增至現有執行個體。
包括以下優點:
在開始複製作業前,找出結構定義不相容性、連線問題和缺少的功能,然後提供修正動作。
使用最新的作業資料,在 BigQuery 中即時進行分析。您可以使用記錄式複製功能,直接將資料從 Microsoft SQL Server (使用 SQL Server CDC) 和 MySQL (使用 MySQL 二進位記錄) 複製到 BigQuery。
變更資料擷取 (CDC) 會提供串流中已變更資料的表示法,讓運算和處理作業專注於最近變更的記錄。這麼做可將敏感的正式環境系統外送資料費用降至最低。
企業可擴充功能,支援大量交易資料庫。BigQuery 可透過零停機時間快照複製功能,將資料初次載入至 BigQuery,讓資料倉儲隨時準備好使用變更。初始快照完成後,系統就會開始以高吞吐量持續複製變更內容。
這些儀表板可協助您即時掌握複製效能。這項指標可用於找出瓶頸,並監控資料傳送服務等級目標。
包括支援資料駐留、客戶自行管理的加密金鑰 (CMEK) 和 VPC Service Controls。在Google Cloud 中整合 Cloud Data Fusion,可確保最高等級的企業安全性和隱私權,同時讓資料倉儲提供最新資料供分析。
建議價格
複製作業執行時,系統會向您收取 Dataproc 叢集費用,並產生 BigQuery 處理費用。為降低這些費用,我們強烈建議您使用 BigQuery 固定費率價格。
詳情請參閱 Cloud Data Fusion 定價頁面。
複製作業實體
實體 | 說明 |
---|---|
複製 | 複製是 Cloud Data Fusion 的功能,可讓您以低延遲的方式,持續將資料從營運資料儲存庫複製到分析資料倉儲。設定來源和目標,並加上選用轉換,即可建立複製工作。 |
來源 | 讀取資料庫、資料表或資料欄變更事件,並將這些事件提供給複製工作進一步處理。複寫工作包含一個來源,該來源會依賴變更擷取解決方案提供變更。資料庫可能有許多來源,每個來源都有不同的變更擷取解決方案。來源是使用 CDAP 外掛程式架構建構的插入式模組。如果沒有符合需求的來源,您可以實作來源介面來自行建構來源,然後將其上傳至 CDAP 或 Cloud Data Fusion。 |
目標 | 將從來源接收的變更寫入目標資料庫。一個複製工作包含一個目標。目標是使用 CDAP 外掛程式架構建構的可插入模組。如果沒有符合您需求的目標,您可以實作目標介面,然後將其上傳至 CDAP 或 Cloud Data Fusion,自行建構目標。 |
來源資源 | 設定來源,包括連線詳細資料、來源資料庫和資料表名稱、憑證和其他屬性。 |
目標屬性 | 設定目標,包括連線詳細資料、目標資料庫和資料表名稱、憑證和其他屬性。 |
複製工作屬性 | 設定複製工作,包括失敗門檻、暫存區、通知和驗證設定。 |
草稿 | 已儲存的部分完成複製作業。複寫工作定義完成後,即可啟動。 |
事件 | 變更來源中的事件,以便複製至目標。事件包括插入、更新、刪除和 DDL (資料定義語言) 變更。 |
插入 | 在來源中新增記錄。 |
更新 | 更新來源中的現有記錄。 |
刪除 | 移除來源中的現有記錄。 |
DDL 變更 | 包含結構定義變更的事件,例如資料類型或名稱的變更。 |
記錄 | 複製工作作業記錄。 |
複製作業詳細資料 | 詳細資料頁面會顯示複製工作資訊,例如目前狀態、作業指標、歷來資料檢視畫面、驗證結果和設定。 |
資訊主頁 | 這個頁面會列出所有變更資料擷取活動的狀態,包括處理量、延遲時間、失敗率和驗證結果。 |
動作
動作 | 說明 |
---|---|
部署 | 按照網頁介面流程建立新的複製工作,指定來源、目標和相關設定。 |
儲存 | 儲存部分建立的複製工作,以便稍後繼續建立。 |
刪除 | 刪除現有的複製工作。只能刪除已停止的管道。 |
開始 | 開始複製作業。如果有變更需要處理,複製工作就會進入「active」狀態;否則,會進入「waiting」狀態。 |
停止 | 停止複製作業。複製工作會停止處理來源的變更。 |
查看記錄 | 查看複本工作記錄,以便偵錯或進行其他分析。 |
搜尋 | 依複本工作名稱、說明或其他複本工作中繼資料搜尋複本工作。 |
評估 | 在開始複製作業前,評估複製作業的影響。評估複製工作會產生評估報告,標示架構不相容和缺少的功能。 |
監控
複製器狀態 | 說明 |
---|---|
已部署 | 複製作業已部署,但尚未開始。在這個狀態下,複製工作不會複製事件。 |
啟動中 | 複製作業正在初始化,尚未準備好複製變更。 |
執行中 | 複製作業已啟動,並正在複製變更。 |
停止中 | 複製作業正在停止。 |
已停止 | 複製工作已停止。 |
失敗 | 因發生致命錯誤,複本工作失敗。 |
表格狀態
概念 | 說明 |
---|---|
快照建立中 | 複製工作會在複製變更前,先擷取資料表的目前狀態快照。 |
複製中 | 複製工作會將來源資料表的變更複製到目的地資料表。 |
失敗 | 複製工作因錯誤而無法複製來源資料表的變更。 |
指標
概念 | 說明 |
---|---|
插入 | 在所選時間範圍內,套用至目標的插播廣告數量。 |
更新 | 在所選時間範圍內,套用至目標的更新次數。 |
刪除次數 | 在所選時間範圍內,套用至目標的刪除作業數量。 |
DDL | 在所選時間範圍內,套用至目標的 DDL 變更數量。 |
處理量 | 在所選時間範圍內,複製到目標的事件數和位元組數。 |
延遲時間 | 在所選時間範圍內,資料複製至目標的延遲時間。 |
元件
元件 | 說明 |
---|---|
服務 | 監督複製工作的端對端自動化調度管理作業,並提供設計、部署、管理及監控複製工作的功能。會在 Cloud Data Fusion 租用戶專案中執行 (租用戶專案會隱藏起來,使用者無法看到)。其狀態會顯示在 Cloud Data Fusion 網頁介面的「System Admin」**頁面。 |
狀態管理 | 這項服務會管理客戶專案中 Cloud Storage 值區中每個複製工作狀態。您可以在建立複製工作時設定值區。它會儲存每個複製工作目前的偏移量和複製狀態。 |
執行 | Dataproc 叢集會提供複本工作執行環境,這些工作會在您的專案中執行。複製工作會使用 CDAP 工作站執行。執行環境的大小和特性會透過 Compute Engine 設定檔設定。 |
來源資料庫 | 實際工作環境的營運資料庫,會複製到目標資料庫。這個資料庫可以位於內部部署或 Google Cloud上。Cloud Data Fusion 複製功能支援 MySQL、Microsoft SQL Server 和 Oracle 來源資料庫。 |
變更追蹤解決方案 | Cloud Data Fusion 不會在來源資料庫上執行的代理程式上執行,而是會依賴變更追蹤解決方案來讀取來源資料庫中的變更。解決方案可以是來源資料庫的元件,或是授權給第三方的個別解決方案。在後一種情況下,變更追蹤解決方案會在本機上執行,與來源資料庫一併部署,或在 Google Cloud上執行。每個來源都必須與變更追蹤解決方案建立關聯。
|
目標資料庫 | 複製和分析的目標位置。Cloud Data Fusion 支援 BigQuery 目標資料庫。 |
驗證 | 驗證機制會因來源資料庫或變更追蹤軟體而異。使用來源資料庫 (例如 SQL Server 和 MySQL) 的內建功能時,系統會使用資料庫登入資訊進行驗證。使用變更追蹤軟體時,會使用軟體的驗證機制。 |
連線能力
下表說明複製作業所需的網路連線,以及所使用的安全性機制。
寄件者 | 收件者 | 選用 | 通訊協定 | 網路 | 驗證程序安全性 | 目的 |
---|---|---|---|---|---|---|
服務 (用戶群專案) | 來源資料庫 | 是 | 取決於複製來源。用於直接資料庫連線的 JDBC。 | 對等互連 + 防火牆規則 + VPN/互連網路 + 路由器 | DB 登入 | 設計階段 (而非執行階段) 所需的功能:表格清單、評估 (選用步驟;即使不執行這些步驟,複製作業仍可繼續進行) |
服務 (用戶群專案) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 狀態管理:偏移量、複製狀態 |
Dataproc (您的專案) | 來源資料庫 | 否 | 取決於來源。用於直接連線至資料庫的 JDBC。 | 對等互連 + 防火牆規則 + VPN/互連網路 + 路由器 | DB 登入 | 執行時需要,用於從來源資料庫讀取變更,並複製到目標 |
Dataproc (您的專案) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 狀態管理:偏移量、複製狀態 |
Dataproc (您的專案) | BigQuery | 否 | Cloud API | VPC-SC | IAM | 執行時需要用來將來源資料庫的變更套用至目標 |
後續步驟
- 請參閱 Replication API 參考資料。
- 請參閱複寫功能的資料類型對應。