此页面由 Cloud Translation API 翻译。

第 1 步：确定工作负载

本页将引导您完成设置数据基础（Cortex Framework 的核心）的初始步骤。数据基础架构基于 BigQuery 存储构建，可整理来自各种来源的传入数据。这种有条理的数据可简化分析及其在 AI 开发中的应用。

设置数据集成

首先，定义一些关键参数，以便在 Cortex Framework 中高效整理和使用数据，从而为数据奠定基础。请注意，这些参数可能会因具体的工作负载、您选择的数据流和集成机制而异。下图概述了 Cortex Framework 数据基础中的数据集成：

参数的结构

图 1。Cortex Framework Data Foundation：数据集成概览。

在部署之前定义以下参数，以便在 Cortex Framework 中高效有效地利用数据。

项目

源项目：原始数据所在的项目。您需要至少一个 Google Cloud 项目来存储数据并运行部署流程。
目标项目（可选）：Cortex Framework Data Foundation 存储其处理后的数据模型的项目。此项目可以与源项目相同，也可以不同，具体取决于您的需求。

如果您希望为每个工作负载分别设置项目和数据集（例如，为 SAP 设置一组源项目和目标项目，为 Salesforce 设置另一组目标项目和源项目），请为每个工作负载分别运行部署。如需了解详情，请参阅可选步骤部分中的使用不同的项目来隔离访问权限。

数据模型

部署模型：选择是否需要为所有工作负载部署模型，或者仅部署一组模型（例如 SAP、Salesforce 和 Meta）。如需了解详情，请参阅可用的数据源和工作负载。

BigQuery 数据集

源数据集（原始）：源数据复制到的 BigQuery 数据集，或测试数据创建到的 BigQuery 数据集。建议为每个数据源分别创建一个数据集。例如，一个原始数据集用于 SAP，一个原始数据集用于 Google Ads。此数据集属于源项目。
CDC 数据集：BigQuery 数据集，其中包含 CDC 处理的数据以及最新的可用记录。部分工作负载支持字段名称映射。建议为每个来源设置单独的 CDC 数据集。例如，一个用于 SAP 的 CDC 数据集和一个用于 Salesforce 的 CDC 数据集。此数据集属于源项目。
目标报告数据集：部署了 Data Foundation 预定义数据模型的 BigQuery 数据集。建议为每个来源分别设置一个报告数据集。例如，一个用于 SAP 的报告数据集和一个用于 Salesforce 的报告数据集。如果该数据集不存在，则系统会在部署期间自动创建。此数据集属于目标项目。
预处理 K9 数据集：可部署跨工作负载的可重用 DAG 组件（例如 time 维度）的 BigQuery 数据集。除非经过修改，否则工作负载会依赖于此数据集。如果该数据集不存在，系统会在部署期间自动创建。此数据集属于源项目。
后处理 K9 数据集：可部署跨工作负载报告和其他外部来源 DAG（例如 Google 趋势提取）的 BigQuery 数据集。如果该数据集不存在，系统会在部署期间自动创建。此数据集属于目标项目。

可选：生成示例数据

如果您无法访问自己的数据、没有用于设置数据的复制工具，或者只是想了解 Cortex Framework 的运作方式，Cortex Framework 可以为您生成示例数据和表格。不过，您仍需提前创建并确定 CDC 数据集和原始数据集。

按照以下说明，为原始数据和 CDC 创建 BigQuery 数据集（每个数据源一个）。

控制台

在 Google Cloud 控制台中打开 BigQuery 页面。

转到 BigQuery 页面
在探索器面板中，选择您要在其中创建数据集的项目。
展开操作选项，然后点击创建数据集：
在创建数据集页面中执行以下操作：
- 在数据集 ID 字段中，输入唯一的数据集名称。
- 对于位置类型，为数据集选择一个地理位置。创建数据集后，就无法再更改此位置。
  
  注意：如果您选择 EU 或欧盟的区域作为数据集位置，则核心 Cortex Framework 客户数据会驻留在欧盟。核心 Cortex Framework 客户数据在服务专用条款中进行了定义。
- 可选。如需详细了解如何自定义数据集，请参阅创建数据集：控制台。
点击创建数据集。

BigQuery

复制以下命令，为原始数据创建新数据集：
```
   bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
```
替换以下内容：
- LOCATION 替换为数据集的位置。
- 将 SOURCE_PROJECT 替换为您的源项目 ID。
- DATASET_RAW 替换为原始数据的数据集名称。例如 CORTEX_SFDC_RAW。
复制以下命令，为 CDC 数据创建一个新数据集：
```
  bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
```
替换以下内容：
- LOCATION 替换为数据集的位置。
- 将 SOURCE_PROJECT 替换为您的源项目 ID。
- DATASET_CDC 替换为 CDC 数据的相应数据集名称。例如 CORTEX_SFDC_CDC。
使用以下命令确认数据集已创建：
```
    bq ls
```
可选。如需详细了解如何创建数据集，请参阅创建数据集。

后续步骤

完成此步骤后，请继续执行以下部署步骤：