Datenvorbereitung verwalten

In diesem Dokument wird beschrieben, wie Sie die Datenvorbereitung in BigQuery verwalten, einschließlich der erforderlichen IAM-Rollen (Identity and Access Management) und der Verwaltung von Metadaten in Dataplex.

Datenvorbereitungen sind BigQuery-Ressourcen, die auf Dataform basieren.

Hinweise

  1. Achten Sie darauf, dass die Gemini for Google Cloud API aktiviert ist.
  2. Damit Sie Metadaten für die Datenvorbereitung in Dataplex verwalten können, muss die Dataplex API in Ihrem Google Cloud Projekt aktiviert sein.

Erforderliche Rollen

Nutzer, die die Daten vorbereiten, und die Dataform-Dienstkonten, in denen die Jobs ausgeführt werden, benötigen die Berechtigungen, die durch die folgenden IAM-Rollen (Identity and Access Management) gewährt werden.

Nutzerzugriff für die Datenvorbereitung erhalten

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Vorbereiten von Daten in BigQuery benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Weitere Informationen zu IAM für Datensätze in BigQuery finden Sie unter Zugriff auf eine Ressource gewähren.

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Zugriff zum Verwalten von Metadaten erhalten

Damit Sie die Berechtigungen zum Verwalten von Metadaten zur Datenvorbereitung im BigQuery Universal Catalog oder in Dataplex erhalten, benötigen Sie die erforderlichen Dataplex-Rollen und die Berechtigung dataform.repositories.get.

Zugriff auf das Dataform-Dienstkonto gewähren

Damit das Dataform-Dienstkonto die erforderlichen Berechtigungen zum Ausführen von Datenvorbereitungen in BigQuery hat, bitten Sie Ihren Administrator, dem Dataform-Dienstkonto die folgenden IAM-Rollen zu gewähren:

  • Auf die Quelltabellen zugreifen: BigQuery-Datenbetrachter (roles/bigquery.dataViewer) für die Tabelle, das Dataset oder das Projekt
  • Auf die Zieltabellen zugreifen: BigQuery Data Editor (roles/bigquery.dataEditor) für die Tabelle, das Dataset oder das Projekt

Je nach Datenvorbereitungspipeline sind für das Dataform-Dienstkonto möglicherweise zusätzliche Berechtigungen erforderlich. Weitere Informationen finden Sie unter Dataform den erforderlichen Zugriff gewähren.

Vorhandene Datenvorbereitungen ansehen

So rufen Sie eine Liste der vorhandenen Datenvorbereitungen auf:

  1. Rufen Sie auf der Seite BigQuery den Bereich Explorer auf.
  2. Erweitern Sie Ihr Projekt.
  3. Maximieren Sie die Liste Datenvorbereitung.

Datenvorbereitung durch inkrementelle Datenverarbeitung optimieren

So konfigurieren Sie, wie die vorbereiteten Daten in eine Zieltabelle geschrieben werden:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer die Datenvorbereitung aus.

  3. Wählen Sie in der Symbolleiste der Datenvorbereitung Dreipunkt-Menü > Schreibmodus aus.

  4. Wählen Sie eine der Optionen aus. Weitere Informationen finden Sie unter Schreibmodus.

  5. Klicken Sie auf Speichern.

Vorschläge zur Verbesserung der Vorschläge

Sie können zur Verbesserung von Gemini-Vorschlägen beitragen, indem Sie die Prompt-Daten, die Sie für Funktionen in der Vorabversion einreichen, mit Google teilen. So geben Sie Ihre Prompt-Daten frei:

  1. Öffnen Sie den Editor für die Datenvorbereitung in BigQuery.
  2. Klicken Sie in der Symbolleiste für die Datenvorbereitung auf Einstellungen Dreipunkt-Menü.
  3. Wählen Sie Daten weitergeben, um Gemini in BigQuery zu verbessern aus.

Datenfreigabeeinstellungen gelten für das gesamte Projekt und können nur von einem Projektadministrator mit den IAM-Berechtigungen serviceusage.services.enable und serviceusage.services.list festgelegt werden. Weitere Informationen zur Datennutzung im Trusted Tester-Programm finden Sie unter Gemini für das Google Cloud -Trusted-Tester-Programm.

Versionen der Datenvorbereitung

Sie können die Datenvorbereitung entweder innerhalb oder außerhalb eines Repositorys erstellen. Die Versionierung der Datenvorbereitung wird je nach Speicherort unterschiedlich behandelt.

Versionierung der Datenvorbereitung in Repositories

Repositories sind Git-Repositories, die sich entweder in BigQuery oder bei einem Drittanbieter befinden. Sie können Arbeitsbereiche in Repositories verwenden, um eine Versionskontrolle für die Datenvorbereitung durchzuführen. Weitere Informationen finden Sie unter Versionskontrolle für eine Datei verwenden.

Versionierung der Datenvorbereitung außerhalb von Repositories

Bei BigQuery-Datenvorbereitungen, die sich nicht in Repositories befinden, können Versionen der Datenvorbereitung nicht angezeigt, verglichen oder wiederhergestellt werden.

So rufen Sie eine Liste der Versionen der Datenvorbereitung in chronologischer Reihenfolge auf:

  1. Rufen Sie auf der Seite BigQuery den Bereich Explorer auf.
  2. Wählen Sie die Datenvorbereitung aus.
  3. Klicken Sie auf Versionsverlauf.

Datenvorbereitung herunterladen

So laden Sie eine Datenvorbereitung in einer YAML-Datei herunter:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Datenvorbereitung. Klicken Sie auf den Namen der Datenvorbereitung, die Sie herunterladen möchten.

  3. Klicken Sie auf Herunterladen. Die Datenvorbereitung wird im YAML-Dateiformat gespeichert, z. B. NAME data preparation.dp.yaml.

Datenvorbereitung hochladen

So laden Sie eine Datenvorbereitung aus einer YAML-Datei hoch:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt.

  3. Rufen Sie den Ordner Datenvorbereitung auf und klicken Sie auf das Dreipunkt-Menü > In die Datenvorbereitung hochladen.

  4. Wählen Sie im Dialogfeld Datenvorbereitung hochladen eine Datei zum Hochladen aus oder geben Sie die URL der Datenvorbereitung ein.

  5. Geben Sie einen Namen für die Datenvorbereitung ein.

  6. Wählen Sie einen Speicherort für die Datenvorbereitung aus, an dem Ressourcen verwaltet und gespeichert werden.

  7. Klicken Sie auf Hochladen.

Metadaten in Dataplex verwalten

Mit Dataplex können Sie Metadaten für die Datenvorbereitung speichern und verwalten. Datenvorbereitungen sind in Dataplex standardmäßig ohne zusätzliche Konfiguration verfügbar.

Mit Dataplex können Sie die Datenvorbereitung an allen BigQuery-Standorten verwalten. Die Verwaltung der Datenvorbereitung in Dataplex unterliegt den Kontingenten und Limits für Dataplex und den Dataplex-Preisen.

Dataplex ruft automatisch die folgenden Metadaten aus der Datenvorbereitung ab:

  • Name des Daten-Assets
  • Übergeordnetes Daten-Asset
  • Speicherort des Daten-Assets
  • Daten-Asset-Typ
  • Entsprechendes Google Cloud -Projekt

In Dataplex werden Datenvorbereitungen als Einträge mit den folgenden Eintragswerten protokolliert:

Systemeintragsgruppe
Die Systemeingabegruppe für die Datenvorbereitung lautet @dataform. Wenn Sie Details zu Einträgen für die Datenvorbereitung in Dataplex aufrufen möchten, müssen Sie die Systemeintragsgruppe dataform aufrufen. Eine Anleitung zum Aufrufen einer Liste aller Einträge in einer Eintragsgruppe finden Sie in der Dataplex-Dokumentation unter Details einer Eintragsgruppe aufrufen.
Systemeintragstyp
Der Systemeintragstyp für die Datenvorbereitung ist dataform-code-asset. Wenn Sie Details zur Datenvorbereitung sehen möchten, müssen Sie den Systemeintragstyp dataform-code-asset aufrufen, die Ergebnisse mit einem aspektbasierten Filter filtern und das Feld type im Aspekt dataform-code-asset auf DATA_PREPARATION festlegen. Wählen Sie dann einen Eintrag der ausgewählten Datenvorbereitung aus. Eine Anleitung zum Aufrufen von Details zu einem ausgewählten Eintragstyp finden Sie in der Dataplex-Dokumentation unter Details zu einem Eintragstyp aufrufen. Eine Anleitung zum Aufrufen der Details eines ausgewählten Eintrags finden Sie in der Dataplex-Dokumentation unter Details eines Eintrags ansehen.
Systemaspekttyp
Der Systemaspekttyp für die Datenvorbereitung ist dataform-code-asset. Wenn Sie Datenvorbereitungen in Dataplex durch Anmerkungen von Datenvorbereitungseinträgen mit Aspekten zusätzlichen Kontext geben möchten, rufen Sie den Aspekttyp dataform-code-asset auf, filtern Sie die Ergebnisse mit einem aspektbasierten Filter und setzen Sie das Feld type im Aspekt dataform-code-asset auf DATA_PREPARATION. Eine Anleitung zum Anhängen von Aspekten an Einträge finden Sie in der Dataplex-Dokumentation unter Aspekte verwalten und Metadaten anreichern.
Typ
Der Typ für Datenkanäle ist DATA_PREPARATION. Mit diesem Typ können Sie Datenvorbereitungen vom Typ dataform-code-asset-Systemeingabe und vom Typ dataform-code-asset-Aspekt mithilfe der Abfrage aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION in einem aspektbasierten Filter filtern.

Eine Anleitung zum Suchen nach Assets in Dataplex finden Sie in der Dataplex-Dokumentation unter Daten-Assets in Dataplex suchen.

Nächste Schritte