建立串流

本節將說明如何建立串流。Datastream 會使用這個串流,將來源 Oracle、MySQL、SQL Server 或 PostgreSQL 資料庫的資料轉移至 BigQuery 或 Cloud Storage。

建立串流包括:

  • 定義串流的設定。
  • 選取為 OracleMySQLSQL ServerPostgreSQLSalesforce (預先發布版) 或 MongoDB (預先發布版) 來源建立的連線設定檔 (來源連線設定檔),或建立來源連線設定檔 (如果尚未建立)。
  • 設定串流的來源資料庫相關資訊,方法是在來源資料庫中指定 Datastream 要:
    • 可轉移至目的地。
    • 無法轉移至目的地。
  • 判斷 Datastream 是否要補充歷來資料,以及是否要將持續變更串流至目的地,或只串流資料變更。啟用歷史資料補充作業時,您可以選擇指定來源資料庫中的結構定義和資料表,讓 Datastream 不會將這些項目補充到目的地。

  • 選取為 BigQueryCloud Storage 建立的連線設定檔 (目的地連線設定檔),或建立目的地連線設定檔 (如果尚未建立)。

  • 設定串流目的地的相關資訊。這類資訊包括:

    • BigQuery:
      • Datastream 會將來源資料庫中的結構定義、資料表和資料複製到這些資料集。
    • Cloud Storage:
      • 目的地 bucket 的資料夾,Datastream 會將來源資料庫的結構定義、資料表和資料移轉至這個資料夾。
  • 驗證串流,確保串流能順利執行。驗證串流時,系統會檢查下列項目:

    • 來源是否已正確設定,可讓 Datastream 從中串流資料。
    • 串流是否能同時連線至來源和目的地。
    • 串流的端對端設定。

定義串流的設定

  1. 前往 Google Cloud 控制台的「Streams」頁面。

    前往「串流」頁面

  2. 按一下「建立串流」

  3. 請使用下表填入「建立串流」頁面「定義串流詳細資料」區段的欄位:

    欄位說明
    串流名稱輸入串流的顯示名稱。
    串流 IDDatastream 會根據您輸入的資料串流名稱,自動填入這個欄位。你可以保留系統自動產生的 ID,也可以變更 ID。
    區域選取串流的儲存區域。串流儲存於區域,這一點與所有資源相同。區域選擇不會影響串流是否能連線至來源資料庫或目的地,但如果區域發生停機,可能會影響可用性。建議您將串流的所有資源存放在與來源資料相同的區域,以獲得最佳成本效益和效能。
    來源類型

    選取為 OracleMySQLSQL ServerPostgreSQLSalesforce (預覽版) 來源或 MongoDB (預覽版) 來源建立連線設定檔時指定的設定檔類型。或者,如果您尚未為來源資料庫建立連線設定檔,現在可以建立。

    目的地類型選取您為 BigQueryCloud Storage 目的地建立連線設定檔時指定的設定檔類型。或者,如果您尚未建立目的地的連線設定檔,現在可以建立。
    加密

    根據預設,您的資料會以 Google Cloud代管的金鑰加密。如要自行管理加密作業,您可以使用客戶自行管理的加密金鑰 (CMEK):

    1. 選取「Cloud KMS 金鑰」核取方塊。
    2. 從「金鑰類型」下拉式選單中選取「Cloud KMS」,然後選取 CMEK。

    如果找不到金鑰,請按一下「輸入金鑰資源名稱」,提供要使用的金鑰資源名稱。舉例來說,您可以在「金鑰資源名稱」欄位中輸入 projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key,然後按一下「儲存」

  4. 您也可以使用標籤整理 Datastream 資源。

    1. 如要建立標籤,請按一下「新增標籤」,然後輸入標籤的鍵/值組合。
    2. 如要移除標籤,請按一下含有標籤的資料列右側的垃圾桶圖示。
  5. 視需要為串流新增快訊政策。快訊政策會定義接收串流失敗通知的時間和方式。

    1. 如要建立快訊政策,請按一下「新增快訊政策」
    2. Cloud Monitoring 會顯示「建立快訊政策」頁面。在這個頁面中,您可以定義串流失敗時的快訊政策。

    如要進一步瞭解快訊政策,請參閱「管理以指標為基礎的快訊政策」。

  6. 查看自動生成的需求條件,瞭解如何準備串流環境。這些先決條件可能包括如何設定來源資料庫,以及如何將來源資料庫連線至目的地。建議您在這個步驟完成這些必要條件,但您也可以在測試或啟動串流前完成。如要進一步瞭解這些必要條件,請參閱「來源」。

  7. 按一下「繼續」。「建立串流」頁面會顯示來源資料庫類型的「定義連線設定檔」面板。

指定來源連線設定檔的相關資訊

  1. 如果您已為 OracleMySQLSQL ServerPostgreSQLSalesforce (預覽版) 或 MongoDB (預覽版) 建立來源連線設定檔,請從連線設定檔清單中選取。

    如果尚未建立來源連線設定檔,請按一下下拉式清單底部的「建立連線設定檔」,然後按照「建立連線設定檔」一節中的步驟操作。

  2. 點選「執行測試」,確認來源資料庫和 Datastream 可以相互通訊。

    如果測試失敗,系統會顯示與連線設定檔相關聯的問題。如需疑難排解步驟,請參閱「診斷問題」頁面。進行必要變更來修正問題,然後重新測試。

  3. 按一下「繼續」。「建立串流」頁面會顯示「設定串流來源」面板。

設定串流的來源資料庫相關資訊

設定 PostgreSQL 來源資料庫

  1. 為 PostgreSQL 來源資料庫定義複製屬性。在「Replication properties」部分中,指定下列屬性:
    1. 在「Replication slot name」(複製運算單元名稱) 欄位中,輸入專為這個串流建立的運算單元名稱。資料庫伺服器會使用這個運算單元將事件傳送至 Datastream。
    2. 在「發布作業名稱」欄位中,輸入您在資料庫中建立的發布作業名稱。發布作業是指您要使用這個串流複製變更的所有資料表群組。
  2. 在「選取要包含的物件」部分,使用「要包含的物件」下拉式選單,指定 Datastream 可轉移至目的地的來源資料庫中的資料表和結構定義。
    • 如要讓 Datastream 轉移所有資料表和結構定義,請選取「採用任何結構定義的所有資料表」
    • 如要讓 Datastream 只轉移特定資料表和結構定義,請選取「特定結構定義和資料表」,然後勾選要讓 Datastream 擷取的結構定義和資料表核取方塊。
    • 如要提供要讓 Datastream 轉移的資料表和結構定義文字定義,請選取「自訂」,然後在「物件比對條件」欄位中,輸入要讓 Datastream 擷取的結構定義和資料表。 如果資料庫有大量資料表和結構定義,建議使用「自訂」選項,因為部分資料表和結構定義可能不會列在要擷取的物件清單中。
  3. 視需要展開「選取要排除的物件」節點。在「要排除的物件」欄位中,輸入要限制 Datastream 從中提取資料的來源資料庫資料表和結構定義。「要排除的物件」清單的優先順序高於「要納入的物件」清單。如果物件同時符合納入和排除清單中的條件,系統會將該物件從串流中排除。
  4. 視需要展開「選擇歷來資料的補充作業模式」節點,然後選取下列其中一個選項:
    • 選取「自動」選項,即可將來源的所有現有資料和資料變更串流至目的地。在「從自動補充作業中排除的物件」欄位中,輸入來源資料庫中的資料表和結構定義,限制 Datastream 將這些物件補充到目的地。
    • 選取「手動」選項,即可只將資料變更串流至目的地。
  5. 按一下「繼續」。系統會顯示「建立串流」頁面的「定義連線設定檔」面板,供您選擇目的地類型。

設定 MySQL 來源資料庫

  1. 在「選取要包含的物件」部分,使用「要包含的物件」下拉式選單,指定 Datastream 可轉移至目的地的來源資料庫中的資料表和結構定義。
    • 如要讓 Datastream 轉移所有資料表和結構定義,請選取「採用任何結構定義的所有資料表」
    • 如要讓 Datastream 只轉移特定資料表和結構定義,請選取「特定結構定義和資料表」,然後勾選要讓 Datastream 擷取的結構定義和資料表核取方塊。
    • 如要提供要讓 Datastream 轉移的資料表和結構定義文字定義,請選取「自訂」,然後在「物件比對條件」欄位中,輸入要讓 Datastream 擷取的結構定義和資料表。 如果資料庫有大量資料表和結構定義,建議使用「自訂」選項,因為部分資料表和結構定義可能不會列在要擷取的物件清單中。
  2. 視需要展開「選取要排除的物件」節點。在「要排除的物件」欄位中,輸入要限制 Datastream 從中提取資料的來源資料庫資料表和結構定義。「要排除的物件」清單的優先順序高於「要納入的物件」清單。如果物件同時符合納入和排除清單中的條件,系統會將該物件從串流中排除。
  3. 為串流指定 CDC 方法:
    • 以 GTID (全域交易 ID) 為基礎的複製功能:如要讓 Datastream 支援容錯移轉,並在資料庫叢集發生變更時提供順暢的複製功能,請選取這個方法。
    • 以二進位記錄檔為基礎的複製作業:選取這個方法,直接從所選資料庫執行個體的二進位記錄檔讀取及複製變更。使用這項 CDC 方法時,無法將正在執行的串流切換至其他來源執行個體或副本。
  4. 視需要展開「選擇歷來資料的補充作業模式」節點,然後選取下列其中一個選項:
    • 選取「自動」選項,即可將來源的所有現有資料和資料變更串流至目的地。在「從自動補充作業中排除的物件」欄位中,輸入來源資料庫中的資料表和結構定義,限制 Datastream 將這些物件補充到目的地。
    • 選取「手動」選項,即可只將資料變更串流至目的地。
  5. 按一下「繼續」。系統會顯示「建立串流」頁面的「定義連線設定檔」面板,供您選擇目的地類型。

設定 Oracle 來源資料庫

  1. 在「選取要包含的物件」部分,使用「要包含的物件」下拉式選單,指定 Datastream 可轉移至目的地的來源資料庫中的資料表和結構定義。
    • 如要讓 Datastream 轉移所有資料表和結構定義,請選取「採用任何結構定義的所有資料表」
    • 如要讓 Datastream 只轉移特定資料表和結構定義,請選取「特定結構定義和資料表」,然後勾選要讓 Datastream 擷取的結構定義和資料表核取方塊。
    • 如要提供要讓 Datastream 轉移的資料表和結構定義文字定義,請選取「自訂」,然後在「物件比對條件」欄位中,輸入要讓 Datastream 擷取的結構定義和資料表。 如果資料庫有大量資料表和結構定義,建議使用「自訂」選項,因為部分資料表和結構定義可能不會列在要擷取的物件清單中。
  2. 視需要展開「選取要排除的物件」節點。在「要排除的物件」欄位中,輸入要限制 Datastream 從中提取資料的來源資料庫資料表和結構定義。「要排除的物件」清單的優先順序高於「要納入的物件」清單。如果物件同時符合納入和排除清單中的條件,系統會將該物件從串流中排除。
  3. 為串流指定 CDC 方法:
    • LogMiner:選取這個方法,即可使用 LogMiner API 查詢封存的重做記錄。LogMiner 支援 Oracle 的多數選項,例如加密和壓縮選項。
    • 二進位讀取器 (預先發布版):選取這個方法,直接從 Oracle 記錄檔擷取變更。這樣一來,您就能更快速地複製大型 Oracle 資料庫,並縮短延遲時間和減少負擔。選取這個選項後,系統會顯示額外的下拉式選單。選取要存取 Oracle 記錄檔的方式:
      • 儲存空間自動管理 (ASM):如果資料庫使用 ASM,請選取這個選項。請確認您已勾選「Enable ASM access for binary reader」(為二進位讀取器啟用 ASM 存取權) 核取方塊,並在來源連線設定檔中填寫 ASM 執行個體的詳細資料。
      • 資料庫目錄:如果未使用 ASM 儲存日誌檔,請選取這個選項。如果選取資料庫目錄,則必須提供重做日誌檔和封存日誌檔目錄名稱。
  4. 視需要展開「選擇歷來資料的補充作業模式」節點,然後選取下列其中一個選項:
    • 選取「自動」選項,即可將來源的所有現有資料和資料變更串流至目的地。在「從自動補充作業中排除的物件」欄位中,輸入來源資料庫中的資料表和結構定義,限制 Datastream 將這些物件補充到目的地。
    • 選取「手動」選項,即可只將資料變更串流至目的地。
  5. 按一下「繼續」。系統會顯示「建立串流」頁面的「定義連線設定檔」面板,供您選擇目的地類型。

設定 SQL Server 來源資料庫

  1. 在「選取要包含的物件」部分,使用「要包含的物件」下拉式選單,指定 Datastream 可轉移至目的地的來源資料庫中的資料表和結構定義。
    • 如要讓 Datastream 轉移所有資料表和結構定義,請選取「採用任何結構定義的所有資料表」
    • 如要讓 Datastream 只轉移特定資料表和結構定義,請選取「特定結構定義和資料表」,然後勾選要讓 Datastream 擷取的結構定義和資料表核取方塊。
    • 如要提供要讓 Datastream 轉移的資料表和結構定義文字定義,請選取「自訂」,然後在「物件比對條件」欄位中,輸入要讓 Datastream 擷取的結構定義和資料表。 如果資料庫有大量資料表和結構定義,建議使用「自訂」選項,因為部分資料表和結構定義可能不會列在要擷取的物件清單中。
  2. 視需要展開「選取要排除的物件」節點。在「要排除的物件」欄位中,輸入要限制 Datastream 從中提取資料的來源資料庫資料表和結構定義。「要排除的物件」清單的優先順序高於「要納入的物件」清單。如果物件同時符合納入和排除清單中的條件,系統會將該物件從串流中排除。
  3. 為串流指定 CDC 方法:
    • 交易記錄:選取這個方法,直接從資料庫記錄處理變更。這個方法較有效率、成效最佳,不過需要額外進行設定。
    • 變更資料表:選取這個方法,處理專用變更資料表的變更。這個方法的設定程序較為簡單且限制較少,不過相較於交易記錄方法,這個方法支援的處理量較低,且會增加資料庫的負載。
  4. 視需要展開「選擇歷來資料的補充作業模式」節點,然後選取下列其中一個選項:
    • 選取「自動」選項,即可將來源的所有現有資料和資料變更串流至目的地。在「從自動補充作業中排除的物件」欄位中,輸入來源資料庫中的資料表和結構定義,限制 Datastream 將這些物件補充到目的地。
    • 選取「手動」選項,即可只將資料變更串流至目的地。
  5. 按一下「繼續」。系統會顯示「建立串流」頁面的「定義連線設定檔」面板,供您選擇目的地類型。

設定來源 Salesforce 組織 (預先發布版)

  1. 在「選取要包含的物件」部分,使用「要包含的物件」下拉式選單,指定要讓 Datastream 轉移至目的地的機構物件和欄位。
    • 如要讓 Datastream 轉移所有物件,請選取「所有物件」
    • 如要讓 Datastream 只轉移特定物件,請選取「特定物件」,然後勾選要讓 Datastream 擷取的物件。
    • 如要提供要讓 Datastream 轉移的物件文字定義,請選取「自訂」,然後在「物件比對條件」欄位中,輸入要讓 Datastream 擷取的物件。請以逗號分隔的清單形式輸入物件,並使用 [object].[field] 格式。 如果資料庫有大量物件,建議使用「自訂」選項,因為部分資料表和結構可能不會列在要擷取的物件清單中。
  2. 以分鐘為單位定義輪詢時間間隔值。Datastream 會使用這個值檢查 Salesforce 組織的資料變更。值越高,貴機構的費用和負擔就越低。值越低,目的地中的資料就越新。
  3. 視需要展開「選取要排除的物件」節點。在「要排除的物件」欄位中,輸入要限制 Datastream 從來源機構擷取的物件和欄位。「要排除的物件」清單的優先順序高於「要納入的物件」清單。如果物件同時符合納入和排除清單中的條件,系統會將該物件從串流中排除。
  4. 視需要展開「選擇歷來資料的補充作業模式」節點,然後選取下列其中一個選項:
    • 選取「自動」選項,即可將來源中的所有現有資料 (包括資料變更) 複製到目的地。在「從自動補充作業中排除的物件」欄位中,輸入來源機構中要限制 Datastream 補充到目的地的物件。
    • 選取「手動」選項,只將資料變更複製到目的地。
  5. 按一下「繼續」。系統會顯示「建立串流」頁面的「定義連線設定檔」面板,供您選擇目的地類型。

設定來源 MongoDB 資料庫 (預先發布版)

  1. 在「Select objects to include」(選取要包含的物件) 部分,使用「Objects to include」(要包含的物件) 下拉式選單,指定要讓 Datastream 轉移至目的地的資料庫和集合。
    • 如要讓 Datastream 轉移所有集合,請選取「所有資料庫和集合」
    • 如要讓 Datastream 只轉移特定集合,請選取「特定資料庫和集合」,然後勾選要讓 Datastream 擷取的集合核取方塊。
    • 如要以文字定義要讓 Datastream 轉移的集合,請選取「自訂」,然後在「物件比對條件」欄位中,輸入要讓 Datastream 擷取的集合。請以逗號分隔的清單形式輸入物件,並使用 [collection].[field] 格式。 如果資料庫有大量物件,建議使用「自訂」選項,因為部分資料表和結構可能不會列在要擷取的物件清單中。
  2. 視需要展開「選擇歷來資料的補充作業模式」節點,然後選取下列其中一個選項:
    • 選取「自動」選項,即可將來源中的所有現有資料 (包括資料變更) 複製到目的地。在「從自動補充作業中排除的物件」欄位中,輸入來源機構中要限制 Datastream 補充到目的地的物件。
    • 選取「手動」選項,只將資料變更複製到目的地。
  3. 按一下「繼續」。系統會顯示「建立串流」頁面的「定義連線設定檔」面板,供您選擇目的地類型。

選取目的地連線設定檔

  1. 如果您已建立目的地連線設定檔,請從連線設定檔清單中選取。

    如果尚未建立目的地連線設定檔,請按一下下拉式清單底部的「建立連線設定檔」,然後按照「建立連線設定檔」一文中的步驟操作。

  2. 按一下「繼續」。「建立串流」頁面會顯示「設定串流目的地」面板。

設定串流目的地的相關資訊

本節說明設定 BigQuery 或 Cloud Storage 目的地時,需要提供的資訊。

BigQuery 目的地

  1. 在「指定 Datastream 串流至 BigQuery 資料集的方式」部分,從「結構定義分組」下拉式選單中選取下列任一選項:

    • 針對每個結構定義建立資料集:Datastream 會根據結構定義名稱,為每個來源結構定義建立 BigQuery 資料集。

      如果選取這個選項,Datastream 會在含有串流的專案中,針對來源資料庫中的每個結構定義建立資料集。

      此外,如果您選取「針對每個結構定義建立資料集」選項,則必須提供下列資訊:

      1. 在「Location type」(位置類型) 區段中,指定要在 BigQuery 中儲存資料的位置。選取「區域」可指定單一地理位置,選取「多區域」則可指定包含兩個以上區域的較大範圍。如果您的首要目標是盡量降低成本並提升效能,請選取「區域」,並將資料集與您管理的其他 Google Cloud 資源放在一起。如要提高配額限制,請選取「多區域」,讓 BigQuery 使用群組中的多個區域。 選取「區域」時,系統會預設為你為串流選取的區域。
      2. (選用) 在「資料集前置字串」欄位中,為串流建立的資料集定義前置字串。您指定的字串會新增至來源結構定義名稱。舉例來說,如果結構定義名為 <mySchema>,且您將資料集前置字串定義為 <myPrefix>,Datastream 就會建立名為 <myPrefix><mySchema> 的資料集。
      3. 展開「顯示進階加密選項」部分。
      4. 選取 Google 代管或客戶管理的加密金鑰,指定您要在 BigQuery 中加密資料的方式。

    • 針對所有結構定義使用單一資料集:Datastream 會在您指定的現有 BigQuery 資料集中建立所有資料表。 Datastream 建立的每個資料表都會以來源結構定義名稱和資料表名稱的組合命名,並以底線分隔 (例如 <mySchemaName>_<myTableName>)。可用的資料集會依區域分組。您也可以建立新的資料集。

  2. 指定串流寫入模式。選取寫入模式,定義 BigQuery 中資料的寫入和處理方式:

    • 合併:如要將資料與來源同步處理,請選取這個選項。
    • 僅限附加:如要保留變更事件的所有歷來資料,請選取這個選項。
  3. 指定資料過時程度限制。只有在上一個步驟中選取「合併」模式時,才能使用這項功能。設定限制,在 BigQuery 查詢效能/成本與資料更新間隔之間取得平衡。BigQuery 會根據過時程度限制,以持續的方式或在查詢執行時在背景中套用變更。降低過時程度 (資料較新) 可能會導致 BigQuery 處理費用增加。

  4. 按一下「繼續」。「建立串流」頁面隨即顯示「查看串流詳細資料並建立」面板。

BigLake Iceberg 資料表目的地

  1. 在「指定 Datastream 串流至 BigQuery 資料集的方式」部分,從「結構定義分組」下拉式選單中,選取 Datastream 建立新結構定義和資料表的方式:

    • 針對每個結構定義建立資料集:Datastream 會根據結構定義名稱,為每個來源結構定義建立 BigQuery 資料集。

      如果選取這個選項,Datastream 會在含有串流的專案中,針對來源資料庫中的每個結構定義建立資料集。

      此外,如果您選取「針對每個結構定義建立資料集」選項,則必須提供下列資訊:

      1. 在「Location type」(位置類型) 區段中,指定要在 BigQuery 中儲存資料的位置。選取「區域」可指定單一地理位置,選取「多區域」則可指定包含兩個以上區域的較大範圍。如果您的首要目標是盡量降低成本並提升效能,請選取「區域」,並將資料集與您管理的其他 Google Cloud 資源放在一起。如要提高配額限制,請選取「多區域」,讓 BigQuery 使用群組中的多個區域。 選取「區域」時,系統會預設為你為串流選取的區域。
      2. (選用) 在「資料集前置字串」欄位中,為串流建立的資料集定義前置字串。您指定的字串會新增至來源結構定義名稱。舉例來說,如果結構定義名為 <mySchema>,且您將資料集前置字串定義為 <myPrefix>,Datastream 就會建立名為 <myPrefix><mySchema> 的資料集。
      3. 展開「顯示進階加密選項」部分。
      4. 選取 Google 代管或客戶管理的加密金鑰,指定您要在 BigQuery 中加密資料的方式。

    • 針對所有結構定義使用單一資料集:Datastream 會在您指定的現有 BigQuery 資料集中建立所有資料表。 Datastream 建立的每個資料表都會以來源結構定義名稱和資料表名稱的組合命名,並以底線分隔 (例如 <mySchemaName>_<myTableName>)。可用的資料集會依區域分組。您也可以建立新的資料集。

  2. 在「定義 Datastream 與 BigLake Iceberg 資料表之間的連線」部分,提供下列資訊:

    • 從「連線 ID」下拉式選單中,選取您建立的 BigQuery 連線 ID,並用於串流。如要瞭解如何在 BigQuery 中建立 Cloud 資源連線,請參閱「在 BigQuery 中設定 BigLake Iceberg 資料表」。

    • 輸入或選取您在 Cloud Storage 中建立的 bucket 的 URI 位址。如要瞭解如何建立 Cloud Storage bucket,請參閱「建立 bucket」。

  3. 查看「檔案格式」和「表格格式」。Datastream 支援 Parquet 檔案格式和 Iceberg 資料表格式。

  4. 查看「串流寫入模式」。串流至 BigLake Iceberg 資料表時,Datastream 僅支援「僅供附加」寫入模式。

  5. 按一下「繼續」。「建立串流」頁面隨即顯示「查看串流詳細資料並建立」面板。

Cloud Storage 目標位置

  1. (選用) 在「串流路徑前置字串」欄位中,輸入目的地 bucket 的資料夾,Datastream 會將來源資料庫的結構定義、資料表和資料移轉至該資料夾。

    舉例來說,如果想讓 Datastream 將來源資料庫的資料移轉至目的地 bucket 中的 /root/example 資料夾,請在「串流路徑前置字元」欄位中輸入 /root/example

  2. 在「輸出格式」欄位中,選擇寫入 Cloud Storage 的檔案格式。

  3. (選用步驟) 如果選取 JSON 格式,系統會顯示兩個核取方塊:

    1. 在檔案路徑中加入一致類型結構定義檔案:如果選取這個核取方塊,Datastream 會將兩個檔案寫入 Cloud Storage:JSON 資料檔案和 Avro 結構定義檔案。結構定義檔案的名稱與資料檔案相同,但副檔名為「.schema」。如未選取這個核取方塊,Datastream 只會將 JSON 資料檔案寫入 Cloud Storage。根據預設,系統不會勾選這個核取方塊。
    2. 啟用 gzip 壓縮:選取這個核取方塊後,Datastream 會使用 gzip 公用程式,壓縮 Datastream 寫入 Cloud Storage 的檔案。如果未選取這個核取方塊,Datastream 會將檔案寫入 Cloud Storage,但不會壓縮檔案。根據預設,系統會勾選這個核取方塊。
  4. 按一下「繼續」。「建立串流」頁面隨即顯示「查看串流詳細資料並建立」面板。

建立串流

  1. 確認串流的詳細資料,以及串流將用來將資料從來源資料庫轉移至目的地的來源和目的地連線設定檔。
  2. 點選「執行驗證」,驗證串流。驗證串流時,Datastream 會檢查來源設定是否正確、驗證串流是否能連線至來源和目的地,並驗證串流的端對端設定。

    1. 如果來源資料庫是 Oracle,Datastream 會執行下列檢查:

      檢查說明
      物件清單有效性資料串流會驗證排除清單是否未包含在納入清單中。
      轉送安全殼層通道連線Datastream 會驗證是否能透過轉送 SSH 通道連線至防禦主機。
      連至 Oracle 資料庫的連線Datastream 會驗證是否可以連線至來源 Oracle 資料庫。
      Oracle 使用者權限Datastream 會驗證用來連線至來源資料庫的使用者是否具備所有必要權限,可從資料庫擷取結構定義、表格和資料,以便將這些資訊串流至目的地。
      記錄模式設定Datastream 會驗證 Oracle 資料庫的記錄模式是否設為 ARCHIVELOG
      增補記錄設定Datastream 會驗證從來源串流至目的地的資料庫資料表是否已啟用增補記錄功能。
      Oracle 變更資料擷取設定Datastream 會驗證您選取的 CDC 方法是否符合資料庫設定。
      封存記錄檔設定Datastream 會驗證來源是否已設定封存記錄,以及封存記錄檔是否存在。
      Cloud Storage 權限 (適用於 Cloud Storage 目的地)Datastream 會驗證是否具備寫入 Cloud Storage 目的地值區的必要權限。
    2. 如果來源資料庫是 MySQL,Datastream 會執行下列檢查:

      檢查說明
      複製權限Datastream 會驗證本身是否具備複製 MySQL 資料庫的權限。
      資料庫版本Datastream 會驗證是否支援 MySQL 資料庫版本。如要瞭解支援的版本,請參閱「版本」。
      二進位檔記錄格式設定Datastream 會驗證 MySQL 資料庫的二進位記錄檔格式是否設為 ROW
      二進位檔記錄功能已啟用Datastream 會驗證二進位記錄檔是否設定正確,以及是否有記錄檔。
      二進位記錄檔資料列映像檔設定Datastream 會驗證二進位記錄檔資料列映像檔是否設為 FULL
      二進位記錄壓縮功能已停用Datastream 會確認二進位記錄檔壓縮功能已停用。
      已啟用記錄副本或從屬端更新Datastream 會驗證是否已啟用記錄副本或從屬更新。
      GTID 模式設定 (applies only to GTID-based CDC)如果使用以 GTID 為基礎的複製功能,Datastream 會驗證 GTID 模式是否設為 ON
      GtidSet 不包含已加上標記的 GTID (applies only to GTID-based CDC)Datastream 會驗證 GTID 集合是否包含已加上標記的 GTID。
      Cloud Storage 權限 (適用於 Cloud Storage 目的地)Datastream 會驗證是否具備寫入 Cloud Storage 目的地值區的必要權限。
      檢查警告說明
      「expire_logs_days」、「expire_logs_seconds」或「binlog retention hours」設定Datastream 會驗證 expire_logs_daysbinlog_expire_logs_secondsbinlog retention hours 是否分別設定為大於 7604800168 的值。
      允許的封包設定上限Datastream 會驗證 max_allowed_packet 是否設為 1 GB。
      強制執行 GTID 一致性或 GTID 嚴格模式 (applies only to GTID-based CDC)Datastream 會驗證是否已啟用 GTID 一致性或 GTID 嚴格模式。
    3. 如果來源資料庫是 PostgreSQL,Datastream 會執行下列檢查:

      檢查說明
      PostgreSQL 資料庫連線Datastream 會驗證是否能連線至來源 PostgreSQL 資料庫。
      已啟用邏輯解碼Datastream 會驗證 PostgreSQL 資料庫的 wal_level 參數是否設為 logical
      複製運算單元設定Datastream 會驗證 PostgreSQL 複製運算單元是否存在且處於啟用狀態、Datastream 是否具備存取該運算單元的必要權限,以及設定是否正確。
      出版品設定Datastream 會驗證發布作業是否存在,以及要為串流複製的資料表是否包含在發布作業中。
      補充作業權限Datastream 會驗證回填歷史資料所需的資料表是否存在,以及是否具備讀取這些資料表的必要權限。
    4. 如果來源資料庫是 SQL Server,Datastream 會執行下列檢查:

      檢查說明
      SQL Server 版本Datastream 會驗證來源 SQL Server 資料庫版本是否受支援。如要瞭解支援的版本,請參閱「版本」。
      SQL Server 使用者權限Datastream 會驗證使用者是否具備存取來源 SQL Server 資料庫的必要權限。
      SQL Server 已啟用 CDCDatastream 會驗證資料庫和串流中包含的所有資料表是否已啟用 CDC。
      SQL Server 資料庫驗證Datastream 會檢查來源資料庫是否已正確設定、是否符合所有複製作業需求,以及資料欄中是否有不支援的資料類型。
      Cloud Storage 或 BigQuery 權限Datastream 會驗證使用者是否具備寫入目的地的必要權限。
    5. 如果來源資料庫是 Salesforce (預覽版),Datastream 會執行下列檢查:

      檢查說明
      憑證登入Datastream 會使用提供的憑證,驗證是否能成功透過客戶的 Salesforce 機構進行驗證。
      Bulk APIDatastream 會驗證是否具備存取 Salesforce Bulk API 2.0 的必要權限。如要讀取大量資料,必須使用 Bulk API 2.0。
      檢查警告說明
      API 上限Datastream 會根據所選物件數量和輪詢間隔,估算預期的 API 用量。如果預期的每日要求數高於 Salesforce 強制執行的上限,Datastream 會發出警告。即使驗證檢查未通過,您還是可以建立及執行串流。
    6. 如果來源資料庫是 MongoDB (預先發布版),Datastream 會執行下列檢查:

      檢查說明
      使用者權限資料串流會驗證使用者是否已獲派 readAnyDatabase 角色。
      連線設定Datastream 會使用 hello 指令,驗證連線設定是否有效。
      MongoDB 版本Datastream 會驗證 MongoDB 版本是否為 5.0 以上。
      Cloud Storage 或 BigQuery 權限Datastream 會驗證使用者是否具備寫入目的地的必要權限。
  3. 通過所有驗證檢查後,按一下「建立並啟動」即可建立串流並立即啟動,按一下「建立」則可建立串流,但不會立即啟動。

    如果不想立即開始直播,可以前往「直播」頁面,然後按一下「開始」

建立串流後,您可以查看串流的概略和詳細資訊

後續步驟