在資料中繼架構中探索及使用資料產品

Last reviewed 2024-09-03 UTC

建議您設計資料網格,支援各種資料使用案例。本文件說明機構中最常見的資料消耗用途。這份文件也討論了資料消費者在判斷適合自己用途的資料產品時,必須考量哪些資訊,以及如何探索和使用資料產品。瞭解這些因素有助於機構確保提供適當的指引和工具,支援資料消費者。

本文是系列文章之一,說明如何在 Google Cloud上實作資料網格。本文假設您已閱讀並熟悉「資料網格中的架構和函式」和「使用 Google Cloud建構現代化分散式資料網格」中說明的概念。

本系列包含以下部分:

資料消耗層的設計 (具體來說,就是以資料網域為基礎的消費者如何使用資料產品) 取決於資料消費者需求。前提是消費者已想好用途。假設他們已找出所需資料,並可搜尋中央資料產品目錄來尋找資料。如果目錄中沒有該資料,或資料不處於偏好的狀態 (例如介面不適當或服務等級協議不足),消費者必須與資料生產者聯絡。

或者,消費者可以聯絡資料網格的卓越中心 (COE),取得建議,瞭解最適合產生該資料產品的網域。資料消費者也可以詢問如何提出要求。如果貴機構規模龐大,應該要有自助式資料產品要求程序。

資料消費者會透過執行的應用程式使用資料產品。所需的洞察類型會決定資料耗用應用程式的設計。開發應用程式設計時,資料消費者也會在應用程式中識別偏好的資料產品使用方式。他們會建立對資料可信度和可靠性的信心。資料消費者隨後就能在應用程式所需的資料產品介面和 SLA 上建立檢視畫面。

資料消耗用途

資料消費者如要建立資料應用程式,來源可能是一或多個資料產品,以及資料消費者自有網域的資料。如「在資料網格中建構資料產品」一文所述,分析資料產品可由以各種實體資料存放區為基礎的資料產品製作而成。

雖然資料耗用可能發生在相同網域內,但最常見的耗用模式是搜尋合適的資料產品 (不論網域為何),做為應用程式的來源。如果其他網域中存在合適的資料產品,您必須設定後續機制,才能跨網域存取及使用資料。如要瞭解如何使用在非使用網域中建立的資料產品,請參閱「資料使用步驟」。

架構

下圖顯示範例情境,消費者透過各種介面使用資料產品,包括授權資料集和 API。

資料用量情境,說明如下。

如上圖所示,資料生產者公開了四個資料產品介面:兩個 BigQuery 授權資料集、由 BigQuery 儲存空間讀取 API 公開的 BigQuery 資料集,以及 Google Kubernetes Engine 上代管的資料存取 API。資料消費者使用資料產品時,會透過各種應用程式查詢或直接存取資料產品中的資料資源。在本情境中,資料消費者會根據具體的資料存取需求,透過兩種不同的方式存取資料資源。第一種方式是 Looker 使用 BigQuery SQL 查詢授權資料集。第二種方式是 Dataproc 直接透過 BigQuery API 存取資料集,然後處理擷取的資料來訓練機器學習 (ML) 模型。

使用資料消耗應用程式不一定會產生商業智慧 (BI) 報表或 BI 資訊主頁。從網域取用資料也可能會產生機器學習模型,進一步豐富分析產品、用於資料分析,或成為作業程序的一部分,例如詐欺偵測。

以下列舉一些常見的資料產品使用案例:

  • 商業智慧報表和資料分析:在這種情況下,資料應用程式會建構為取用多個資料產品的資料。舉例來說,客戶關係管理 (CRM) 團隊的資料消費者需要存取多個網域的資料,例如銷售、顧客和財務。這些資料消費者開發的 CRM 應用程式可能需要查詢一個網域中的 BigQuery 授權檢視區塊,並從另一個網域中的 Cloud Storage Read API 擷取資料。對資料消費者而言,影響偏好使用介面的最佳化因素是運算成本,以及查詢資料產品後所需的任何額外資料處理作業。在 BI 和資料分析用途中,BigQuery 授權檢視畫面最常使用。
  • 資料科學用途和模型訓練:在本例中,資料使用團隊會使用其他網域的資料產品,擴充自己的分析資料產品,例如機器學習模型。使用 Dataproc Serverless for Spark, Google Cloud 可提供資料前處理和特徵工程功能,讓您在執行 ML 工作前豐富資料。主要考量因素包括以合理的成本取得足夠的訓練資料,以及確信訓練資料是適當的資料。為降低費用,建議使用直接讀取 API。資料使用團隊可以將機器學習模型建構為資料產品,而該團隊也會成為新的資料產生團隊。
  • 營運商程序:在資料使用網域中,消耗是營運程序的一部分。舉例來說,處理詐欺問題的團隊中的資料消費者,可能會使用商家網域中營運資料來源的交易資料。使用變更資料擷取等資料整合方法,即可近乎即時地攔截這類交易資料。然後使用 Pub/Sub 定義這項資料的結構定義,並將該資訊公開為事件。在這種情況下,適當的介面會是公開為 Pub/Sub 主題的資料。

資料使用步驟

資料生產者會在中央目錄中記錄資料產品,包括如何使用資料的指引。對於擁有多個網域的機構,這種文件方法會建立與傳統集中式 ELT/ETL 管道不同的架構,其中處理器會建立輸出內容,不受業務網域的限制。資料網格中的資料消費者必須具備設計完善的探索和消費層,才能建立資料消費生命週期。圖層應包含下列項目:

步驟 1:透過宣告式搜尋和探索資料產品規格,找出資料產品:資料消費者可以自由搜尋資料生產者在中央目錄中註冊的任何資料產品。對於所有資料產品,資料產品標記會指定如何提出資料存取要求,以及從必要資料產品介面取用資料的模式。資料產品標記中的欄位可透過搜尋應用程式搜尋。資料產品介面會實作資料 URI,因此資料不需要移至個別的消費區域,即可為消費者提供服務。如果不需要即時資料,消費者可以查詢資料產品,並根據產生的結果建立報表。

步驟 2:透過互動式資料存取和原型設計探索資料:資料消費者使用 BigQuery Studio 和 Jupyter Notebook 等互動式工具解讀及實驗資料,以修正生產用途所需的查詢。資料消費者可以透過互動式查詢探索新的資料維度,並提升在實際工作環境中產生的洞察資料準確度。

步驟 3:透過應用程式使用資料產品,並以程式輔助存取及製作

  • 商業智慧報表:批次和近乎即時的報表與資訊主頁,是資料消費者最常需要的一組分析應用實例。報表可能需要跨資料產品存取權,才能協助您制定決策。舉例來說,顧客資料平台需要以程式輔助方式,定期查詢訂單和顧客關係管理資料產品。這種做法的結果可為使用資料的業務使用者提供全方位的顧客檢視畫面。
  • 用於批次和即時預測的 AI/機器學習模型。數據資料學家會運用常見的 MLOps 原則,建構及提供機器學習模型,並使用資料產品團隊提供的資料產品。機器學習模型可為交易用途 (例如詐欺偵測) 提供即時推論功能。同樣地,資料消費者可以透過探索性資料分析,豐富來源資料。舉例來說,對銷售和行銷廣告活動資料進行探索性資料分析後,可找出預期銷售量最高的客層,進而決定廣告活動的放送對象。

後續步驟