Datenaufbereitung verwalten

In diesem Dokument wird beschrieben, wie Sie die Datenvorbereitung in BigQuery verwalten, einschließlich der Zuweisung der erforderlichen IAM-Rollen (Identity and Access Management) und der Verwaltung von Metadaten im Dataplex Universal Catalog.

Datenvorbereitungen sind BigQuery-Ressourcen, die auf Dataform basieren.

Hinweise

  1. Achten Sie darauf, dass Sie die Gemini for Google Cloud API aktiviert haben.
  2. Wenn Sie Metadaten zur Datenvorbereitung in Dataplex Universal Catalog verwalten möchten, muss die Dataplex API in Ihrem Google Cloud Projekt aktiviert sein.

Erforderliche Rollen

Nutzer, die die Daten vorbereiten, und die Dataform-Dienstkonten, mit denen die Jobs ausgeführt werden, benötigen die Berechtigungen, die durch die folgenden IAM-Rollen (Identity and Access Management) gewährt werden.

Nutzerzugriff für die Datenvorbereitung erhalten

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Vorbereiten von Daten in BigQuery benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Weitere Informationen zu IAM für Datasets in BigQuery finden Sie unter Zugriff auf eine Ressource gewähren.

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Zugriff zum Verwalten von Metadaten erhalten

Damit Sie die Berechtigungen erhalten, die Sie zum Verwalten von Metadaten zur Datenaufbereitung in Dataplex Universal Catalog benötigen, müssen Sie die erforderlichen Dataplex Universal Catalog-Rollen und die Berechtigung dataform.repositories.get haben.

Zugriff auf das Dataform-Dienstkonto gewähren

Damit das Dataform-Dienstkonto die erforderlichen Berechtigungen zum Ausführen von Datenaufbereitungen in BigQuery hat, bitten Sie Ihren Administrator, dem Dataform-Dienstkonto die folgenden IAM-Rollen zu gewähren:

  • Auf die Quelltabellen zugreifen: BigQuery Data Viewer (roles/bigquery.dataViewer) für die Tabelle, das Dataset oder das Projekt
  • Auf die Zieltabelle zugreifen: BigQuery Data Editor (roles/bigquery.dataEditor) für die Tabelle, das Dataset oder das Projekt

Das Dataform-Dienstkonto benötigt je nach Datenvorbereitungspipeline möglicherweise zusätzliche Berechtigungen. Weitere Informationen finden Sie unter Erforderlichen Dataform-Zugriff gewähren.

Vorhandene Datenaufbereitungen ansehen

So rufen Sie eine Liste der vorhandenen Datenaufbereitungen auf:

  1. Rufen Sie auf der Seite BigQuery den Bereich Explorer auf.
  2. Projekt erweitern
  3. Maximieren Sie die Liste Datenaufbereitung.

Datenvorbereitung durch inkrementelle Verarbeitung von Daten optimieren

So konfigurieren Sie, wie Ihre vorbereiteten Daten in eine Zieltabelle geschrieben werden:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer die Datenaufbereitung aus.

  3. Wählen Sie in der Symbolleiste der Datenaufbereitung Mehr > Schreibmodus aus.

  4. Wählen Sie eine der Optionen aus. Weitere Informationen finden Sie unter Schreibmodus.

  5. Klicken Sie auf Speichern.

Vorschläge zur Verbesserung der Vorschläge

Sie können zur Verbesserung der Gemini-Vorschläge beitragen, indem Sie die Prompt-Daten, die Sie an Funktionen in der Vorabversion senden, mit Google teilen. So geben Sie Ihre Prompt-Daten frei:

  1. Öffnen Sie den Editor zur Datenvorbereitung in BigQuery.
  2. Klicken Sie in der Symbolleiste für die Datenaufbereitung auf Einstellungen Mehr.
  3. Wählen Sie Daten weitergeben, um Gemini in BigQuery zu verbessern aus.

Datenfreigabeeinstellungen gelten für das gesamte Projekt und können nur von einem Projektadministrator mit den IAM-Berechtigungen serviceusage.services.enable und serviceusage.services.list festgelegt werden. Weitere Informationen zur Datennutzung im Trusted Tester-Programm finden Sie unter Gemini for Google Cloud Trusted Tester Program.

Versionen der Datenvorbereitung

Sie können die Datenaufbereitung entweder innerhalb oder außerhalb eines Repositorys erstellen. Die Versionsverwaltung der Datenaufbereitung wird je nach Speicherort der Datenaufbereitung unterschiedlich gehandhabt.

Versionsverwaltung der Datenvorbereitung in Repositories

Repositories sind Git-Repositories, die sich entweder in BigQuery oder bei einem Drittanbieter befinden. Sie können Arbeitsbereiche in Repositories verwenden, um die Versionsverwaltung für die Datenaufbereitung durchzuführen. Weitere Informationen finden Sie unter Versionsverwaltung für eine Datei verwenden.

Versionsverwaltung für die Datenaufbereitung außerhalb von Repositories

Für BigQuery-Datenaufbereitungen, die sich nicht in Repositories befinden, können keine Versionen der Datenaufbereitung aufgerufen, verglichen oder wiederhergestellt werden.

So rufen Sie eine chronologische Liste der Versionen der Datenaufbereitung auf:

  1. Rufen Sie auf der Seite BigQuery den Bereich Explorer auf.
  2. Wählen Sie die Datenvorbereitung aus.
  3. Klicken Sie auf  Versionsverlauf.

Datenvorbereitung herunterladen

So laden Sie eine Datenaufbereitung in einer YAML-Datei herunter:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Data preparations (Datenaufbereitungen). Klicken Sie auf den Namen der Datenaufbereitung, die Sie herunterladen möchten.

  3. Klicken Sie auf Herunterladen. Die Datenaufbereitung wird im YAML-Dateiformat gespeichert, z. B. NAME data preparation.dp.yaml.

Datenvorbereitung hochladen

So laden Sie eine Datenaufbereitung aus einer YAML-Datei hoch:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt.

  3. Rufen Sie den Ordner Datenvorbereitung auf und klicken Sie auf more_vert > Menü > In die Datenvorbereitung hochladen.

  4. Wählen Sie im Dialogfeld Datenaufbereitung hochladen eine Datei zum Hochladen aus oder geben Sie die URL der Datenaufbereitung ein.

  5. Geben Sie einen Namen für die Datenvorbereitung ein.

  6. Wählen Sie einen Ort für die Datenaufbereitung aus, an dem Ressourcen verwaltet und gespeichert werden.

  7. Klicken Sie auf Hochladen.

Metadaten in Dataplex Universal Catalog verwalten

Mit Dataplex Universal Catalog können Sie Metadaten für die Datenaufbereitung speichern und verwalten. Datenaufbereitungen sind standardmäßig in Dataplex Universal Catalog verfügbar, ohne dass eine zusätzliche Konfiguration erforderlich ist.

Mit Dataplex Universal Catalog können Sie Datenvorbereitungen an allen BigQuery-Standorten verwalten. Die Verwaltung von Datenaufbereitungen in Dataplex Universal Catalog unterliegt den Kontingenten und Limits für Dataplex Universal Catalog und der Preisgestaltung für Dataplex Universal Catalog.

Dataplex Universal Catalog ruft automatisch die folgenden Metadaten aus Datenaufbereitungen ab:

  • Name des Datenassets
  • Übergeordnetes Data Asset
  • Speicherort des Daten-Assets
  • Datentyp-Asset
  • Entsprechendes Google Cloud Projekt

Im Dataplex Universal Catalog werden Datenvorbereitungen als Einträge mit den folgenden Eintragswerten protokolliert:

Systemeintragsgruppe
Die Systemeingabegruppe für die Datenvorbereitung ist @dataform. Wenn Sie Details zu Einträgen zur Datenaufbereitung in Dataplex Universal Catalog aufrufen möchten, müssen Sie die System-Eintragsgruppe dataform aufrufen. Eine Anleitung dazu, wie Sie eine Liste aller Einträge in einer Eintragsgruppe aufrufen, finden Sie in der Dataplex Universal Catalog-Dokumentation unter Details einer Eintragsgruppe ansehen.
Systemeintragstyp
Der Systemeintragstyp für die Datenaufbereitung ist dataform-code-asset. Wenn Sie Details zu Datenaufbereitungen aufrufen möchten, müssen Sie den Systemeingabetyp dataform-code-asset aufrufen, die Ergebnisse mit einem aspektbasierten Filter filtern und das Feld type im Aspekt dataform-code-asset auf DATA_PREPARATION setzen. Wählen Sie dann einen Eintrag der ausgewählten Datenaufbereitung aus. Eine Anleitung dazu, wie Sie Details zu einem ausgewählten Eintragstyp aufrufen, finden Sie in der Dataplex Universal Catalog-Dokumentation unter Details zu einem Eintragstyp aufrufen. Eine Anleitung dazu, wie Sie die Details eines ausgewählten Eintrags aufrufen, finden Sie in der Dataplex Universal Catalog-Dokumentation unter Details eines Eintrags ansehen.
Systemaspekttyp
Der Systemaspekttyp für die Datenaufbereitung ist dataform-code-asset. Wenn Sie Datenaufbereitungseinträgen im Dataplex Universal Catalog durch Anmerkungen mit Aspekten zusätzlichen Kontext hinzufügen möchten, rufen Sie den Aspekttyp dataform-code-asset auf, filtern Sie die Ergebnisse mit einem aspektbasierten Filter und legen Sie das Feld type im Aspekt dataform-code-asset auf DATA_PREPARATION fest. Eine Anleitung zum Annotieren von Einträgen mit Aspekten finden Sie in der Dataplex Universal Catalog-Dokumentation unter Aspekte verwalten und Metadaten anreichern.
Typ
Der Typ für Daten-Canvas ist DATA_PREPARATION. Mit diesem Typ können Sie Datenaufbereitungen im Systemeingabetyp dataform-code-asset und im Aspekttyp dataform-code-asset filtern, indem Sie die Abfrage aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION in einem aspektbasierten Filter verwenden.

Eine Anleitung zum Suchen nach Assets finden Sie in der Dataplex Universal Catalog-Dokumentation unter Nach Daten-Assets in Dataplex Universal Catalog suchen.

Nächste Schritte