Cloud Data Fusion 網路簡介

本頁面提供背景資訊,說明如何從設計和執行環境,透過公開或私人 Cloud Data Fusion 執行個體連線至資料來源。

事前準備

您必須對下列項目有基本瞭解,才能在 Cloud Data Fusion 中進行網路連線:

用戶群專案

Cloud Data Fusion 會建立用戶群專案,其中包含代替您管理管道所需的資源和服務,例如在客戶專案中的 Dataproc 叢集上執行管道。

系統不會直接向您顯示用戶群專案,不過建立私人執行個體時,您可以使用專案名稱設定虛擬私有雲對等互連。租用戶專案中的每個私人執行個體都有各自的虛擬私有雲網路和子網路。

專案可以有多個 Cloud Data Fusion 執行個體。您可以在 Cloud Data Fusion UI 或 Google Cloud CLI 中存取執行個體時,管理其所控的資源和服務。
如需更多資訊,請參閱服務基礎架構說明文件中的用戶群專案

客戶專案

客戶建立並擁有這個專案。根據預設,Cloud Data Fusion 會在這個專案中建立暫時性 Dataproc 叢集,以便執行管道。

Cloud Data Fusion 執行個體

Cloud Data Fusion 執行個體是 Cloud Data Fusion 的獨特部署,可用於設計及執行管道。您可以在單一專案中建立多個執行個體,並指定要建立 Cloud Data Fusion 執行個體的 Google Cloud 區域。您可以依據需求和成本限制,建立使用 Cloud Data Fusion 開發人員、基本或企業版的執行個體。每個執行個體中有專屬、獨立的 Cloud Data Fusion 部署,其中包含的一組服務會負責管道生命週期管理、自動化調度管理、協調作業及中繼資料管理。這些服務會使用用戶群專案中的長期執行資源來執行。

網路圖表

下圖顯示建構資料管道時的連線,這些管道會從各種內部部署和雲端資料來源擷取、轉換、結合、匯總及載入資料。

請參閱在私人執行個體中控制傳出流量連線至公開來源的圖表。

管道設計和執行

Cloud Data Fusion 提供設計和執行環境分離功能,讓您只需設計一次管道,即可在多個環境中執行。設計環境位於租用戶專案中,執行環境則位於一或多個客戶專案中。

範例:您使用 Cloud Data Fusion 服務 (例如 Wrangler 和 Preview) 設計管道。這些服務會在租戶專案中執行,資料存取權則由 Google 管理的 Cloud Data Fusion 服務代理人角色控管。接著,您可以在客戶專案中執行管道,讓管道使用 Dataproc 叢集。在客戶專案中,預設的 Compute Engine 服務帳戶會控制資料存取權。您可以設定專案使用自訂服務帳戶。

如要進一步瞭解如何設定服務帳戶,請參閱「Cloud Data Fusion 服務帳戶」。

設計環境

在客戶專案中建立 Cloud Data Fusion 執行個體時,Cloud Data Fusion 會自動建立由 Google 管理的獨立用戶群專案,以便執行管理管道和中繼資料生命週期所需的服務、Cloud Data Fusion UI,以及預覽和馴服者等設計階段工具。

Cloud Data Fusion 中的 DNS 解析

如要解決設計階段環境中的網域名稱,以便處理及預覽要傳輸至 Google Cloud的資料,請使用 DNS 配對功能 (Cloud Data Fusion 6.7.0 以上版本提供)。您可以使用網域或主機名稱做為來源和接收端,而不需要像 IP 位址那樣經常重新設定。

在私人 VPC 網路中,如果您要測試連線,以及預覽使用內部部署或其他伺服器 (例如資料庫或 FTP 伺服器) 的網域名稱的管道,建議在 Cloud Data Fusion 的設計階段環境中使用 DNS 解析。

詳情請參閱「DNS 對等互連」和「Cloud DNS 轉送」。

執行環境

在執行個例中驗證及部署管道後,您可以手動執行管道,也可以依時間排程或管道狀態觸發條件執行。

無論執行環境是由 Cloud Data Fusion 還是客戶佈建及管理,該環境都會存在於客戶專案中。

公開例項 (預設)

如要佈建 Cloud Data Fusion 執行個體,最簡單的方法就是建立公開執行個體。這項服務可做為起點,並提供存取公開網際網路上外部端點的權限。

Cloud Data Fusion 中的公開執行個體會使用專案中的預設虛擬私有雲網路。

預設虛擬私有雲網路具有以下內容:

  • 為每個區域自動產生的子網路
  • 路徑資料表
  • 防火牆規則,確保電腦資源之間的通訊

跨區域網路

建立新專案時,預設 VPC 網路的好處是,它會使用預先定義的 IP 位址範圍 (以 CIDR 區塊表示),為每個區域自動填入一個子網路。 Google Cloud 全球區域的 IP 位址範圍會以 10.128.0.0/20 開頭,10.132.0.0/20 結尾。

為確保運算資源可跨區域彼此連線,預設的虛擬私有雲網路會將預設的本機路徑設為各個子網路。設定連往網際網路的預設路徑 (0.0.0.0/0) 後,您就能存取網際網路並擷取任何未經路由的網路流量。

防火牆規則

預設虛擬私有雲網路提供一組防火牆規則:

預設 說明
預設允許 icmp 為來源 0.0.0.0/0 啟用 icmp 通訊協定
預設允許內部 為來源 10.128.0.0/9 啟用 tcp:0-65535udp:0-65535icmp,涵蓋最小 10.128.0.1 到最大 10.255.255.254 IP 位址
預設允許 rdp 為來源 0.0.0.0/0 啟用 tcp:3389
預設允許 ssh 為來源 0.0.0.0/0 啟用 tcp:22

這些預設的 VPC 網路設定可減少設定雲端服務 (包括 Cloud Data Fusion) 的必要條件。基於網路安全考量,機構組織通常不會允許您使用預設的虛擬私有雲網路進行業務作業。沒有預設虛擬私有雲網路,就無法建立 Cloud Data Fusion 公開執行個體。請改為建立私人執行個體

預設的虛擬私有雲網路不會授予資源的開放存取權。而是由身分與存取權管理 (IAM) 控管存取權:

  • 您必須提供已驗證的身分證件,才能登入 Google Cloud。
  • 登入後,您必須具備明確的權限 (例如「檢視者」角色),才能查看 Google Cloud 服務。

私人執行個體

有些機構規定所有實際工作環境系統都必須與公開 IP 位址隔離。Cloud Data Fusion 私人執行個體可在所有類型的虛擬私有雲網路設定中滿足這項需求。

Cloud Data Fusion 中的 Private Service Connect

Cloud Data Fusion 執行個體可能需要連結至地端、 Google Cloud或其他雲端服務供應商的資源。使用內部 IP 位址的 Cloud Data Fusion 時,系統會透過Google Cloud 專案中的 VPC 網路建立外部資源連線。網路上的流量不會經過公開網際網路。當 Cloud Data Fusion 透過 VPC 網路對等互連功能存取 VPC 時,會受到限制,這在使用大型網路時會更加明顯。

透過 Private Service Connect 介面,Cloud Data Fusion 可連線至 VPC,而不需要使用 VPC 網路對等互連功能。Private Service Connect 介面是一種 Private Service Connect,可讓 Cloud Data Fusion 啟動與消費者虛擬私有雲網路的私人及安全連線。這不僅提供彈性和簡易的存取方式 (例如虛擬私有雲網路對等互連),還提供 Private Service Connect 提供的明確授權和消費者端控管機制。詳情請參閱「使用 Private Service Connect 建立私人執行個體」。

存取設計和執行環境中的資料

在公開執行個體中,網路通訊會透過公開網際網路進行,因此不建議用於關鍵環境。為確保安全存取資料來源,請一律在執行環境中的私人執行個體中執行管道。

具備來源的存取權

存取資料來源、公開和私人執行個體時:

  • 使用私人 Google 存取權向 API 發出呼叫 Google Cloud
  • 透過虛擬私有雲對等互連與執行環境 (Dataproc) 通訊

下表比較了在設計和執行不同資料來源時的公開和私人執行個體:

資料來源 公開 Cloud Data Fusion 執行個體
(設計階段)
公開 Cloud Data Fusion Dataproc
(執行)
私人 Cloud Data Fusion 執行個體
(設計階段)
私人 Cloud Data Fusion Dataproc
(執行)
Google Cloud source
(授予權限並設定防火牆規則後)
內部部署來源
(在您設定 VPN/互連、授予權限及設定防火牆規則後)
公開網際網路來源
(授予權限並設定防火牆規則後)

後續步驟