Schritt 1: Arbeitslasten festlegen
Auf dieser Seite erfahren Sie, wie Sie die Datengrundlage einrichten, die den Kern von Cortex Framework bildet. Die Datengrundlage basiert auf dem BigQuery-Speicher und organisiert Ihre eingehenden Daten aus verschiedenen Quellen. Diese organisierten Daten können leichter analysiert und für die KI-Entwicklung verwendet werden.
Datenintegration einrichten
Definieren Sie als Erstes einige wichtige Parameter, die als Blaupause für die effiziente Organisation und Nutzung Ihrer Daten in Cortex Framework dienen. Diese Parameter können je nach Arbeitslast, gewähltem Datenfluss und Integrationsmechanismus variieren. Das folgende Diagramm bietet einen Überblick über die Datenintegration in der Cortex Framework Data Foundation:
Definieren Sie vor der Bereitstellung die folgenden Parameter für eine effiziente und effektive Datennutzung im Cortex Framework.
Projekte
- Quellprojekt:Projekt, in dem sich Ihre Rohdaten befinden. Sie benötigen mindestens ein Google Cloud Projekt, um Daten zu speichern und den Bereitstellungsprozess auszuführen.
- Zielprojekt (optional): Projekt, in dem die Cortex Framework Data Foundation ihre verarbeiteten Datenmodelle speichert. Das kann mit dem Quellprojekt übereinstimmen oder sich davon unterscheiden.
Wenn Sie für jede Arbeitslast separate Projekte und Datensätze haben möchten (z. B. einen Satz von Quell- und Zielprojekten für SAP und einen anderen Satz von Ziel- und Quellprojekten für Salesforce), führen Sie für jede Arbeitslast separate Bereitstellungen aus. Weitere Informationen finden Sie im Abschnitt mit den optionalen Schritten unter Unterschiedliche Projekte verwenden, um den Zugriff zu trennen.
Datenmodell
- Modelle bereitstellen:Wählen Sie aus, ob Sie Modelle für alle Arbeitslasten oder nur für einen Satz von Modellen (z. B. SAP, Salesforce und Meta) bereitstellen möchten. Weitere Informationen finden Sie unter Verfügbare Datenquellen und Arbeitslasten.
BigQuery-Datasets
- Quell-Dataset (Rohdaten): BigQuery-Dataset, in das die Quelldaten repliziert oder in dem die Testdaten erstellt werden. Wir empfehlen, separate Datensätze zu verwenden, einen für jede Datenquelle. Beispiel: ein Rohdatensatz für SAP und ein Rohdatensatz für Google Ads. Dieses Dataset gehört zum Quellprojekt.
- CDC-Dataset: BigQuery-Dataset, in dem die vom CDC verarbeiteten Daten die neuesten verfügbaren Datensätze enthalten. Bei einigen Arbeitslasten ist die Zuordnung von Feldnamen möglich. Wir empfehlen, für jede Quelle einen separaten CDC-Datensatz zu verwenden. Beispiel: ein CDC-Dataset für SAP und ein CDC-Dataset für Salesforce. Dieses Dataset gehört zum Quellprojekt.
- Ziel-Datensatz für Berichte:BigQuery-Dataset, in dem die vordefinierten Datenmodelle der Data Foundation bereitgestellt werden. Wir empfehlen, für jede Quelle einen separaten Berichtsdatensatz zu verwenden. Beispiel: ein Berichtsdatensatz für SAP und ein Berichtsdatensatz für Salesforce. Dieser Datensatz wird während der Bereitstellung automatisch erstellt, falls er noch nicht vorhanden ist. Dieses Dataset gehört zum Zielprojekt.
- K9-Dataset für die Vorverarbeitung:BigQuery-Dataset, in dem wiederverwendbare DAG-Komponenten für unterschiedliche Arbeitslasten wie
time
-Dimensionen bereitgestellt werden können. Arbeitslasten sind von diesem Datensatz abhängig, sofern sie nicht geändert werden. Dieser Datensatz wird während der Bereitstellung automatisch erstellt, falls er nicht vorhanden ist. Dieses Dataset gehört zum Quellprojekt. - K9-Dataset für die Nachbearbeitung:BigQuery-Dataset, in dem aufgabenübergreifende Berichte und zusätzliche DAGs für externe Quellen (z. B. Google Trends-Aufnahme) bereitgestellt werden können. Dieser Datensatz wird während der Bereitstellung automatisch erstellt, falls er nicht vorhanden ist. Dieses Dataset gehört zum Zielprojekt.
Optional: Beispieldaten generieren
Cortex Framework kann Beispieldaten und ‑tabellen für Sie generieren, wenn Sie keinen Zugriff auf Ihre eigenen Daten oder keine Replikationstools zum Einrichten von Daten haben oder wenn Sie nur sehen möchten, wie Cortex Framework funktioniert. Sie müssen jedoch die CDC- und Rohdatensätze im Voraus erstellen und identifizieren.
Erstellen Sie anhand der folgenden Anleitung BigQuery-Datasets für Rohdaten und CDCs pro Datenquelle.
Console
Öffnen Sie in der Google Cloud Console die Seite "BigQuery".
Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.
Maximieren Sie die Option
Aktionen und klicken Sie auf Dataset erstellen.Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:
- Geben Sie für Dataset-ID einen eindeutigen Dataset-Namen ein.
Wählen Sie unter Standorttyp einen geografischen Standort für das Dataset aus. Nach der Erstellung des Datasets kann der Standort nicht mehr geändert werden.
Optional: Weitere Informationen zur Anpassung Ihres Datasets finden Sie unter Datasets erstellen: Console.
Klicken Sie auf Dataset erstellen.
bq
Erstellen Sie ein neues Dataset für Rohdaten. Kopieren Sie dazu den folgenden Befehl:
bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
Ersetzen Sie Folgendes:
LOCATION
durch den Speicherort des Datensatzes.SOURCE_PROJECT
durch die ID Ihres Quellprojekts.DATASET_RAW
durch den Namen Ihres Datasets für Rohdaten. Beispiel:CORTEX_SFDC_RAW
.
Erstellen Sie ein neues Dataset für CDC-Daten. Kopieren Sie dazu den folgenden Befehl:
bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
Ersetzen Sie Folgendes:
LOCATION
durch den Speicherort des Datensatzes.SOURCE_PROJECT
durch die ID Ihres Quellprojekts.DATASET_CDC
durch den Namen Ihres Datasets für CDC-Daten. Beispiel:CORTEX_SFDC_CDC
.
Prüfen Sie mit dem folgenden Befehl, ob die Datensätze erstellt wurden:
bq ls
Optional: Weitere Informationen zum Erstellen von Datasets finden Sie unter Datasets erstellen.
Nächste Schritte
Fahren Sie nach Abschluss dieses Schritts mit den folgenden Bereitstellungsschritten fort:
- Arbeitslasten einrichten (diese Seite)
- Repository klonen
- Integrationsmechanismus festlegen
- Komponenten einrichten
- Bereitstellung konfigurieren
- Bereitstellung ausführen