從 Teradata 遷移至 BigQuery 的簡介

本文將概述從 Teradata 遷移至 BigQuery 的原因、比較 Teradata 和 BigQuery 的功能,並概略說明開始 BigQuery 遷移作業的步驟。

為何要從 Teradata 遷移至 BigQuery?

Teradata 是管理及分析大量資料的早期創新者。不過,隨著雲端運算需求的演進,您可能需要更先進的資料分析解決方案。

如果您先前使用 Teradata,請考慮遷移至 BigQuery,原因如下:

  • 克服舊版平台限制
    • Teradata 的傳統架構往往難以滿足現代數據分析的需求,尤其是需要無限並行作業,以及針對各種工作負載維持一致的高效能。BigQuery 的無伺服器架構可讓您輕鬆處理這些需求。
  • 採用雲端原生策略
    • 許多機構都會從地端基礎架構遷移至雲端。為了減少作業負擔,您必須從 Teradata 等傳統硬體限制型解決方案,轉向 BigQuery 等全代管、可調整及隨選的服務。
  • 整合現代資料來源和數據分析工具
    • 企業的重要資料越來越多地儲存在雲端來源中。BigQuery 與 Google Cloud 生態系統原生整合,可讓您順暢存取這些來源,並支援進階數據分析、機器學習和即時資料處理,不受 Teradata 基礎架構的限制。
  • 最佳化成本和可擴充性
    • Teradata 通常需要複雜且成本高昂的擴充程序。BigQuery 可獨立提供儲存空間和運算資源的公開透明自動調度功能,因此您不必手動重新設定,還能享有更可預測的擁有成本,通常還能降低成本。

功能比較

下表比較 Teradata 和 BigQuery 中的功能和概念:

Teradata 概念 BigQuery 等同項目 說明
Teradata (地端部署、雲端、混合式) BigQuery (統一 AI 資料平台)。相較於傳統資料倉儲,BigQuery 提供大量額外功能。 BigQuery 是 Google Cloud上全代管的雲端原生資料倉儲。Teradata 提供地端、雲端和混合式選項。BigQuery 是無伺服器服務,可透過 BQ Omni 在所有雲端服務中使用。
Teradata 工具 (Teradata Studio、BTEQ) Google Cloud 控制台、BigQuery Studio、bq 指令列工具 兩者都提供介面,可用於管理資料倉儲並與其互動。BigQuery Studio 是網頁版工具,已整合 Google Cloud ,可讓您編寫 SQL、Python 和 Apache Spark 程式碼。
資料庫/結構定義 資料集 在 Teradata 中,資料庫和結構定義可用於整理資料表和檢視表,類似於 BigQuery 資料集。不過,管理和使用方式可能有所不同。
資料表 資料表 兩個平台都會使用表格,以列和欄的形式儲存資料。
查看 查看 檢視表在兩個平台上的運作方式類似,可讓您根據查詢建立虛擬資料表。
主鍵 主鍵 (在標準 SQL 中未強制執行) BigQuery 支援標準 SQL 中的未強制執行主鍵。這些設定主要是協助 BigQuery 透過查詢最佳化功能進行最佳化
外鍵 外鍵 (在標準 SQL 中未強制執行) BigQuery 支援標準 SQL 中的未強制執行外鍵。這些設定主要是協助 BigQuery 透過查詢最佳化功能進行最佳化
索引 分群、搜尋索引、向量索引 (自動或管理式) Teradata 允許明確建立索引。

建議您在 BigQuery 中進行分群。雖然叢集不等同於資料庫索引,但叢集可協助在磁碟上以排序方式儲存資料,並在使用叢集資料欄做為述詞時,協助最佳化資料擷取作業。
BigQuery 支援搜尋索引向量索引
分區 分區 兩個平台都支援資料表分區功能,可改善大型資料表的查詢效能。

BigQuery 僅支援按日期和整數分區。如要處理字串,請改用聚合功能。
資源分配 (依硬體和授權而定) 預訂 (以容量為準)、以量計價 (分析定價) BigQuery 提供彈性的計費模式。預留可用度可為使用自動調整資源配置功能的持續性和臨時性工作負載提供可預測的成本,而以量計價的模式則著重於每個查詢的位元組掃描費用。
BTEQ、SQL Assistant 和其他用戶端工具 BigQuery Studio、bq 指令列工具、API BigQuery 提供各種介面,可用於執行查詢,包括網路編輯器、指令列工具,以及用於程式輔助存取的 API。
查詢記錄/記錄 查詢記錄,INFORMATION_SCHEMA.JOBS BigQuery 會保留執行查詢的記錄,方便您查看過去的查詢、分析效能,以及排解問題。INFORMATION_SCHEMA.JOBS 會保留過去 6 個月內提交的所有工作記錄。
安全性功能 (存取權控管、加密) 安全防護功能 (IAM、ACL、加密) 兩者都提供強大的安全防護。BigQuery 會使用 Google Cloud 身分與存取權管理來控管精細的存取權。
網路控制項 (防火牆、VPN) VPC Service Controls、私人 Google 存取權 BigQuery 會與 VPC Service Controls 整合,限制特定網路的 BigQuery 資源存取權。私人 Google 存取權可讓您不必使用公開 IP 存取 BigQuery。
使用者和角色管理 身分與存取權管理 (IAM) BigQuery 使用 IAM 實施精細的存取權控管機制。您可以在專案、資料集和資料表層級為使用者和服務帳戶授予特定權限。
物件的授權和角色 資料集和資料表的存取控制清單 (ACL) BigQuery 可讓您在資料集和資料表上定義 ACL,以便精細控管存取權。
對靜態資料和傳輸中的資料加密 靜態資料和傳輸中資料加密、客戶自行管理的加密金鑰 (CMEK),金鑰可託管於外部 EKM 系統。 根據預設,BigQuery 會對資料進行加密。您也可以自行管理加密金鑰,進一步控管資料。
資料治理和法規遵循功能 資料管理政策、資料遺失防護 (DLP) BigQuery 支援資料治理政策和 DLP,協助您落實資料安全和法規遵循要求。
Teradata 載入公用程式 (例如FastLoad、MultiLoad)、bteq BigQuery 資料移轉服務、bq 指令列工具、API BigQuery 提供多種資料載入方法。Teradata 有專屬的載入公用程式。BigQuery 著重於資料擷取的擴充性和速度。
Teradata 匯出公用程式,bteq bq 指令列工具、API、匯出至 Cloud Storage BigQuery 可將資料匯出至各種目的地。Teradata 有自己的匯出工具。BigQuery 與 Cloud Storage 的整合是其主要優勢。

任何外部運算功能都可以使用 BigQuery Storage Read API 大量讀取資料。
外部資料表 外部資料表 兩者都支援查詢外部儲存空間中的資料。BigQuery 可順利整合 Cloud Storage、Spanner、Bigtable、Cloud SQL、AWS S3、Azure Blob 儲存體和 Google Drive。
具體化檢視表 具體化檢視表 兩者都提供具體化檢視表,以提升查詢效能。

BigQuery 提供智慧調校實體檢視,可一律傳回目前資料,並且在查詢參照基礎資料表時,自動重寫查詢至實體檢視。
使用者定義函式 (UDF) 使用者定義函式 (UDF) (SQL、JavaScript) BigQuery 支援 SQL 和 JavaScript 中的 UDF。
Teradata Scheduler 和其他排程工具 排程查詢、Cloud Composer、Cloud Functions、BigQuery 管道 BigQuery 可整合 Google Cloud 排程服務和其他外部排程工具。
Viewpoint 用於監控、檢查健康狀態、探索工作和管理運算資源的 BigQuery 管理工具。 BigQuery 提供以 UI 為基礎的完整管理工具箱,其中包含多個窗格,可用來監控作業健康狀態和資源使用率。
備份與還原 資料集複製、時間旅行和故障安全、資料表快照和複製、區域和多區域儲存空間、跨區域備份和還原。 BigQuery 提供快照和時間旅行功能,可用於復原資料。時間回溯功能可讓您在特定時間範圍內存取歷來資料。BigQuery 也提供資料集複製、區域和多區域儲存空間,以及跨區域備份和復原選項。
地理空間函式 地理空間函式 這兩個平台都支援地理空間資料和函式。

該從哪裡著手?

請參閱下列章節,進一步瞭解從 Teradata 遷移至 BigQuery 的程序:

執行遷移評估

開始從 Teradata 遷移至 BigQuery,建議您先執行 BigQuery 遷移評估工具,評估將資料倉儲從 Teradata 遷移至 BigQuery 的可行性和潛在效益。這項工具提供有條理的做法,協助您瞭解目前的 Teradata 環境,並評估順利遷移所需的努力程度。

執行 BigQuery 遷移評估工具後,系統會產生評估報告,其中包含以下各節:

  • 現有系統報表:現有 Teradata 系統和用量的快照,包括資料庫、結構定義、資料表的數量,以及 TB 中的總大小。它也會依大小列出結構定義,並指出可能不太理想的資源使用情形,例如沒有寫入或讀取次數很少的表格。
  • BigQuery 穩態轉換建議:顯示系統在遷移後的 BigQuery 外觀。其中包含建議,協助您在 BigQuery 上最佳化工作負載並避免浪費資源。
  • 遷移計畫:提供遷移作業本身的相關資訊。例如,從現有系統取得 BigQuery 穩定狀態。本節包含自動轉譯的查詢數量,以及將每個資料表移至 BigQuery 的預估時間。

如要進一步瞭解遷移評估結果,請參閱「查看 Looker Studio 報表」。

從 Teradata 遷移結構定義與資料

查看遷移評估結果後,您可以開始進行 Teradata 遷移作業,方法是為 BigQuery 準備遷移作業,然後設定資料移轉作業

如要進一步瞭解 Teradata 遷移程序,請參閱「從 Teradata 遷移結構定義和資料」。

驗證遷移作業

將 Teradata 資料遷移至 BigQuery 後,請執行資料驗證工具 (DVT),針對新遷移的 BigQuery 資料執行資料驗證。DVT 會驗證從表格層級到資料列層級的各種函式,以確認遷移的資料是否正常運作。如要進一步瞭解 DVT,請參閱「為 EDW 遷移作業介紹資料驗證工具」。

您可以在 DVT 公開 GitHub 存放區中存取 DVT。

後續步驟