Colab Enterprise Data Science Agent mit BigQuery verwenden
Mit dem Data Science Agent (DSA) für Colab Enterprise und BigQuery können Sie die explorative Datenanalyse automatisieren, Machine-Learning-Aufgaben ausführen und Statistiken in einem Colab Enterprise-Notebook bereitstellen.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
- Der Data Science-Agent unterstützt die folgenden Datenquellen:
- CSV-Dateien
- BigQuery-Tabellen
- Der vom Data Science Agent generierte Code wird nur in der Laufzeit Ihres Notebooks ausgeführt.
- Der Data Science Agent wird in Projekten, in denen VPC Service Controls aktiviert ist, nicht unterstützt.
- Wenn Sie den Data Science Agent zum ersten Mal ausführen, kann es zu einer Latenz von etwa fünf bis zehn Minuten kommen. Das passiert nur einmal pro Projekt bei der Ersteinrichtung.
- Plan erstellen: Sie können einen Plan erstellen und ändern, um eine bestimmte Aufgabe zu erledigen.
- Explorative Datenanalyse: Untersuchen Sie ein Dataset, um seine Struktur zu verstehen, potenzielle Probleme wie fehlende Werte und Ausreißer zu erkennen und die Verteilung der wichtigsten Variablen zu analysieren.
- Datenbereinigung: Bereinigen Sie Ihre Daten. Entfernen Sie beispielsweise Datenpunkte, die Ausreißer sind.
- Data Wrangling: Konvertieren Sie kategoriale Merkmale in numerische Darstellungen, indem Sie Techniken wie One-Hot-Codierung oder Label-Codierung verwenden. Neue Funktionen für die Analyse erstellen
- Datenanalyse: Analysieren Sie die Beziehungen zwischen verschiedenen Variablen. Korrelationen zwischen numerischen Features berechnen und Verteilungen kategorialer Features untersuchen Suchen Sie nach Mustern und Trends in den Daten.
- Datenvisualisierung: Erstellen Sie Visualisierungen wie Histogramme, Boxplots, Streudiagramme und Balkendiagramme, die die Verteilungen einzelner Variablen und die Beziehungen zwischen ihnen darstellen.
- Feature Engineering: Neue Features aus einem bereinigten Dataset erstellen.
- Datenaufteilung: Teilen Sie ein aufbereitetes Dataset in Trainings-, Validierungs- und Test-Datasets auf.
- Modelltraining: Trainieren Sie ein Modell mit den Trainingsdaten (
X_train
,y_train
). - Modelloptimierung: Ein Modell mithilfe des Validierungssatzes optimieren.
Sehen Sie sich alternative Modelle wie
DecisionTreeRegressor
undRandomForestRegressor
an und vergleichen Sie ihre Leistung. - Modellbewertung: Das leistungsstärkste Modell mit dem Test-Dataset bewerten (
X_test_imputed
,y_test
). - Erstellen oder öffnen Sie ein Colab Enterprise-Notebook.
- Laden Sie eine CSV-Datei hoch, wählen Sie eine oder mehrere BigQuery-Tabellen in der Tabellenauswahl aus oder verweisen Sie in Ihrem Prompt auf eine BigQuery-Tabelle.
- Geben Sie einen Prompt ein, der die Datenanalyse beschreibt, die Sie durchführen möchten, oder den Prototyp, den Sie erstellen möchten. Beispielaufforderungen
- Sehen Sie sich die Ergebnisse an.
Rufen Sie die Seite BigQuery auf.
Klicken Sie auf der BigQuery Studio-Startseite unter Neu erstellen auf Notebook.
Alternativ können Sie in der Tableiste auf den > Leeres Notebook klicken.
Drop-down-Pfeil neben dem +-Symbol und dann auf NotebookKlicken Sie in der Symbolleiste auf die Schaltfläche spark Gemini ein-/ausblenden, um das Chatdialogfeld zu öffnen.
Laden Sie die CSV-Datei hoch.
Klicken Sie im Chat-Dialogfeld auf
Dateien hinzufügen.Autorisieren Sie gegebenenfalls Ihr Google-Konto.
Klicken Sie im Aktionsbereich auf
Datei hochladen.Suchen Sie den Speicherort der CSV-Datei und klicken Sie auf Öffnen.
Klicken Sie neben dem Dateinamen auf das Symbol
Weitere Aktionen und wählen Sie Zu Gemini hinzufügen aus.
Geben Sie Ihren Prompt in das Chatfenster ein. Beispiel:
Identify trends and anomalies in this file.
Klicken Sie auf
Senden.Die Ergebnisse werden im Chatfenster angezeigt.
Sie können den Agent bitten, den Plan zu ändern, oder ihn ausführen, indem Sie auf Akzeptieren und ausführen klicken. Während der Ausführung des Plans werden generierter Code und Text im Notebook angezeigt. Klicke auf Abbrechen, um den Vorgang zu beenden.
Rufen Sie die Seite BigQuery auf.
Klicken Sie auf der BigQuery Studio-Startseite unter Neu erstellen auf Notebook.
Alternativ können Sie in der Tableiste auf den > Leeres Notebook klicken.
Drop-down-Pfeil neben dem +-Symbol und dann auf NotebookKlicken Sie in der Symbolleiste auf die Schaltfläche spark Gemini ein-/ausblenden, um das Chatdialogfeld zu öffnen.
Geben Sie Ihren Prompt in das Chatfenster ein.
Wählen Sie mit der Tabellenauswahl eine oder mehrere Tabellen aus:
Klicken Sie auf > BigQuery-Tabellen.
Kontext hinzufügenWählen Sie im Fenster BigQuery-Tabellen eine oder mehrere Tabellen in Ihrem Projekt aus. Sie können projektübergreifend nach Tabellen suchen und Tabellen über die Suchleiste filtern.
Sie können auch direkt in Ihrem Prompt auf eine BigQuery-Tabelle verweisen. Beispiel: „Hilf mir bei der explorativen Datenanalyse und gib mir Informationen zu den Daten in dieser Tabelle: project_id:dataset.table.“
Ersetzen Sie Folgendes:
project_id
: Ihre Projekt-ID.dataset
: der Name des Datasets, das die zu analysierende Tabelle enthälttable
: der Name der Tabelle, die Sie analysieren
Klicken Sie auf
Senden.Die Ergebnisse werden im Chatfenster angezeigt.
Sie können den Agent bitten, den Plan zu ändern, oder ihn ausführen, indem Sie auf Akzeptieren und ausführen klicken. Während der Ausführung des Plans werden generierter Code und Text im Notebook angezeigt. Klicke auf Abbrechen, um den Vorgang zu beenden.
- Untersuchen Sie fehlende Werte und füllen Sie sie mithilfe des Machine-Learning-Algorithmus „k-Nearest Neighbors“ (KNN) aus.
- Erstellen Sie ein Diagramm des Gehalts nach Erfahrungsniveau. Verwenden Sie die Spalte
experience_level
, um die Gehälter zu gruppieren, und erstellen Sie für jede Gruppe ein Boxplot mit den Werten aus der Spaltesalary_in_usd
. - Verwenden Sie den XGBoost-Algorithmus, um ein Modell zur Bestimmung der Variablen
class
einer bestimmten Frucht zu erstellen. Teilen Sie die Daten in Trainings- und Test-Datasets auf, um ein Modell zu generieren und die Genauigkeit des Modells zu bestimmen. Erstellen Sie eine Wahrheitsmatrix, um die Vorhersagen für jede Klasse darzustellen, einschließlich aller richtigen und falschen Vorhersagen. - Erstelle einen Pandas-DataFrame für meine Daten. Analysieren Sie die Daten auf Nullwerte und stellen Sie dann die Verteilung der einzelnen Spalten mit dem Diagrammtyp dar. Verwenden Sie Violin-Diagramme für Messwerte und Balkendiagramme für Kategorien.
- Lesen Sie die CSV-Datei für das Dataset ein und erstellen Sie einen DataFrame. Führen Sie eine Analyse für den DataFrame aus, um zu ermitteln, was mit den Werten geschehen muss (fehlende Werte ersetzen oder entfernen, doppelte Zeilen korrigieren), und bestimmen Sie die Verteilung des in USD investierten Geldbetrags pro Stadt. Stelle die Ergebnisse in einem Balkendiagramm in absteigender Reihenfolge dar, wobei die Achsen „Standort“ und „Durchschnittlich investierter Betrag (USD)“ sind. Stelle nur die 20 besten Ergebnisse dar.
- Prognostiziere
target_variable
ausfilename.csv
für die nächsten sechs Monate. - Klassifizierungsmodell für
target_variable
anhand vonfilename.csv
erstellen und bewerten
Wenn Sie Colab Enterprise in BigQuery noch nicht kennen, finden Sie auf der Seite Notebooks erstellen eine Anleitung zur Einrichtung.
Beschränkungen
Wann sollte der Data Science Agent verwendet werden?
Der Data Science-KI-Agent unterstützt Sie bei Aufgaben von der explorativen Datenanalyse bis hin zur Generierung von Machine-Learning-Vorhersagen und ‑Prognosen. Sie können das DSA für Folgendes verwenden:
Data Science Agent in BigQuery verwenden
In den folgenden Schritten wird beschrieben, wie Sie den Data Science Agent in BigQuery verwenden.
CSV-Datei analysieren
So analysieren Sie eine CSV-Datei mit dem Data Science Agent in BigQuery:
BigQuery-Tabellen analysieren
Wenn Sie eine BigQuery-Tabelle analysieren möchten, wählen Sie im Tabellenauswahlfeld eine oder mehrere Tabellen aus oder geben Sie in Ihrem Prompt einen Verweis auf die Tabelle an.
Beispiel-Prompts
Unabhängig von der Komplexität des Prompts, den Sie verwenden, generiert der Data Science Agent einen Plan, den Sie an Ihre Anforderungen anpassen können.
Die folgenden Beispiele zeigen die Arten von Prompts, die Sie mit der DSA verwenden können.
Gemini in BigQuery deaktivieren
Wenn Sie Gemini in BigQuery für ein Google Cloud -Projekt deaktivieren möchten, muss ein Administrator die Gemini for Google Cloud API deaktivieren. Weitere Informationen finden Sie unter Dienste deaktivieren.
Wenn Sie Gemini in BigQuery für einen bestimmten Nutzer deaktivieren möchten, muss der Administrator ihm die Rolle Gemini for Google Cloud User (roles/cloudaicompanion.user
) entziehen. Weitere Informationen finden Sie unter Einzelne IAM-Rolle widerrufen.
Preise
Während der Vorschau werden Ihnen nur die Kosten für die Ausführung von Code in der Laufzeit des Notebooks berechnet. Weitere Informationen finden Sie unter Colab Enterprise-Preise.
Unterstützte Regionen
Eine Liste der unterstützten Regionen für den Data Science Agent von Colab Enterprise finden Sie unter Standorte.