ステップ 1: ワークロードを確立する
このページでは、Cortex Framework のコアであるデータ基盤を設定する最初の手順について説明します。BigQuery ストレージ上に構築されたデータ基盤は、さまざまなソースから受信したデータを整理します。整理されたデータは、分析や AI 開発に簡単に使用できます。
データ統合を設定する
まず、Cortex Framework 内でデータを効率的に整理して使用するためのブループリントとして機能する、いくつかの主要なパラメータを定義します。これらのパラメータは、特定のワークロード、選択したデータフロー、統合メカニズムによって異なる場合があります。次の図は、Cortex Framework Data Foundation 内のデータ統合の概要を示しています。
Cortex Framework 内でデータを効率的に使用するには、デプロイ前に次のパラメータを定義します。
プロジェクト
- ソース プロジェクト: 元データが存在するプロジェクト。データの保存とデプロイ プロセスの実行には、少なくとも 1 つの Google Cloud プロジェクトが必要です。
- ターゲット プロジェクト(省略可): Cortex Framework Data Foundation が処理済みのデータモデルを保存するプロジェクト。これは、ソース プロジェクトと同じにすることも、ニーズに応じて別のプロジェクトにすることもできます。
ワークロードごとにプロジェクトとデータセットの個別のセットが必要な場合(たとえば、SAP のソース プロジェクトとターゲット プロジェクトの 1 つのセットと、Salesforce のソース プロジェクトとターゲット プロジェクトの別のセットなど)は、ワークロードごとに個別のデプロイを実行します。詳細については、オプションの手順セクションの異なるプロジェクトを使用してアクセスを分離するをご覧ください。
データモデル
- モデルをデプロイする: すべてのワークロードにモデルをデプロイするか、1 つのモデルセット(SAP、Salesforce、Meta など)のみをデプロイするかを選択します。詳細については、使用可能なデータソースとワークロードをご覧ください。
BigQuery データセット
- ソースデータセット(元データ): ソースデータが複製される BigQuery データセット、またはテストデータが作成される BigQuery データセット。データソースごとに個別のデータセットを用意することをおすすめします。たとえば、SAP 用に 1 つの元データセットと Google 広告用に 1 つの元データセットを作成します。このデータセットは移行元プロジェクトに属しています。
- CDC データセット: CDC で処理されたデータが利用可能な最新のレコードが配置される BigQuery データセット。一部のワークロードでは、フィールド名のマッピングが可能です。ソースごとに個別の CDC データセットを用意することをおすすめします。たとえば、SAP 用に 1 つの CDC データセットと Salesforce 用に 1 つの CDC データセットを作成します。このデータセットは移行元プロジェクトに属しています。
- ターゲット レポート データセット: Data Foundation の事前定義されたデータモデルがデプロイされる BigQuery データセット。ソースごとに個別のレポート データセットを用意することをおすすめします。たとえば、SAP 用に 1 つのレポート データセットと Salesforce 用に 1 つのレポート データセットを作成します。このデータセットが存在しない場合は、デプロイ時に自動的に作成されます。このデータセットはターゲット プロジェクトに属しています。
- 前処理 K9 データセット:
time
ディメンションなどのワークロード間再利用可能な DAG コンポーネントをデプロイできる BigQuery データセット。ワークロードは、変更しない限り、このデータセットに依存します。このデータセットが存在しない場合は、デプロイ時に自動的に作成されます。このデータセットは移行元プロジェクトに属しています。 - ポスト処理 K9 データセット: クロスワークロード レポートと追加の外部ソース DAG(Google トレンドの取り込みなど)をデプロイできる BigQuery データセット。このデータセットが存在しない場合は、デプロイ時に自動的に作成されます。このデータセットはターゲット プロジェクトに属しています。
省略可: サンプルデータを生成する
独自のデータやデータを設定するレプリケーション ツールにアクセスできない場合や、Cortex Framework の動作を確認したい場合でも、Cortex Framework でサンプルデータとテーブルを生成できます。ただし、CDC データセットと Raw データセットは事前に作成して識別する必要があります。
次の手順に沿って、データソースごとに元のデータと CDC の BigQuery データセットを作成します。
Console
Google Cloud コンソールで [BigQuery] ページを開きます。
[エクスプローラ] パネルで、データセットを作成するプロジェクトを選択します。
[アクション] オプションを開いて、[データセットを作成] をクリックします。
[データセットを作成] ページで次の操作を行います。
- [データセット ID] に、一意のデータセットの名前を入力します。
[ロケーション タイプ] で、データセットの地理的なロケーションを選択します。データセットの作成後はロケーションを変更できません。
(省略可)データセットのカスタマイズの詳細については、データセットを作成する: コンソールをご覧ください。
[データセットを作成] をクリックします。
bq
次のコマンドをコピーして、元のデータの新しいデータセットを作成します。
bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
次のように置き換えます。
LOCATION
は、データセットのロケーションに置き換えます。SOURCE_PROJECT
は、ソース プロジェクト ID に置き換えます。DATASET_RAW
は、元データのデータセットの名前に置き換えます。例:CORTEX_SFDC_RAW
次のコマンドをコピーして、CDC データ用の新しいデータセットを作成します。
bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
次のように置き換えます。
LOCATION
は、データセットのロケーションに置き換えます。SOURCE_PROJECT
は、ソース プロジェクト ID に置き換えます。DATASET_CDC
は、CDC データのデータセットの名前に置き換えます。例:CORTEX_SFDC_CDC
次のコマンドを使用して、データセットが作成されたことを確認します。
bq ls
(省略可)データセットの作成の詳細については、データセットの作成をご覧ください。
次のステップ
この手順が完了したら、次のデプロイ手順に進みます。
- ワークロードを確立する(このページ)。
- リポジトリのクローンを作成する。
- 統合メカニズムを決定する。
- コンポーネントを設定する。
- デプロイを構成する。
- デプロイを実行する。