Dataproc Metastore-Dienst bereitstellen
Auf dieser Seite erfahren Sie, wie Sie einen Dataproc Metastore-Dienst erstellen und von einem Dataproc-Cluster aus eine Verbindung zu ihm herstellen. Danach stellen Sie eine SSH-Verbindung zum Cluster her, starten eine Instanz von Apache Hive und führen einige grundlegende Abfragen aus.
Dataproc Metastore bietet einen vollständig kompatiblen Hive Metastore (HMS), der im Open-Source-Big-Data-Ökosystem der etablierte Standard für die Verwaltung technischer Metadaten ist. Mit diesem Dienst können Sie die Metadaten Ihrer Data Lakes verwalten und die Interoperabilität zwischen den verschiedenen Tools zur Datenverarbeitung, die Sie verwenden, sicherstellen.
Eine detaillierte Anleitung dazu finden Sie direkt in der Google Cloud Console. Klicken Sie dazu einfach auf Anleitung:
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc Metastore, Dataproc APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc Metastore, Dataproc APIs.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen eines Dataproc Metastore und eines Dataproc-Clusters benötigen:
-
So gewähren Sie vollständigen Zugriff auf alle Dataproc Metastore-Ressourcen, einschließlich des Festlegens von IAM-Berechtigungen:
(
roles/metastore.admin
) für das Nutzerkonto oder Dienstkonto -
So gewähren Sie die vollständige Kontrolle über Dataproc Metastore-Ressourcen:
Dataproc Metastore-Bearbeiter (
roles/metastore.editor
) für das Nutzerkonto oder Dienstkonto -
So erstellen Sie einen Dataproc-Cluster:
(
roles/dataproc.worker
) für das Dienstkonto
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen eines Dataproc Metastore und eines Dataproc-Clusters erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind zum Erstellen eines Dataproc Metastore und eines Dataproc-Clusters erforderlich:
-
So erstellen Sie einen Dataproc Metastore-Dienst:
metastore.services.create
für das Nutzerkonto oder Dienstkonto -
So erstellen Sie einen Dataproc-Cluster:
Dataproc worker (
für das Dienstkontoroles/dataproc.worker
)
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Weitere Informationen zu bestimmten Dataproc Metastore-Rollen und -Berechtigungen finden Sie unter Dataproc Metastore-IAM – Übersicht.Dataproc Metastore-Dienst erstellen
In der folgenden Anleitung wird gezeigt, wie Sie einen einfachen Dataproc Metastore-Dienst mit den bereitgestellten Standardeinstellungen erstellen.
Console
Rufen Sie in der Google Cloud Console die Seite Dataproc Metastore auf.
Klicken Sie im Navigationsmenü auf + Erstellen.
Das Dialogfeld Metastore-Dienst erstellen wird geöffnet.
Wählen Sie Dataproc Metastore 2 aus.
Geben Sie im Feld Name des Dienstkontos
example-service
ein.Wählen Sie im Feld Speicherort der Daten die Option
us-central1
aus.Übernehmen Sie für die übrigen Optionen der Dienstkonfiguration die angegebenen Standardeinstellungen.
Klicken Sie auf Senden, um den Dienst zu erstellen und zu starten.
Der neue Metastore-Dienst wird auf der Seite Dataproc Metastore angezeigt. Der Status wird als Wird erstellt angezeigt, bis der Dienst einsatzbereit ist. Wenn sie bereit ist, ändert sich der Status zu Aktiv. Die Bereitstellung des Dienstes kann einige Minuten dauern.
Der folgende Screenshot zeigt ein Beispiel für die Seite Dienst erstellen mit einigen der bereitgestellten Standardeinstellungen.
gcloud-CLI
Führen Sie den folgenden gcloud metastore services create
-Befehl aus, um einen Metastore-Dienst mit den bereitgestellten Standardeinstellungen zu erstellen:
gcloud metastore services create example-service \ --location=us-central1 \ --instance-size=MEDIUM
Mit diesem Befehl wird ein Dienst namens example-service
in der Standardregion (us-central1
) und mit der Standardinstanzgröße (MEDIUM
) erstellt.
REST
Folgen Sie der API-Anleitung zum Erstellen eines Dienstes mit dem APIs Explorer.
Dataproc-Cluster erstellen und mit Dataproc Metastore verbinden
Als Nächstes erstellen Sie einen Dataproc-Cluster und stellen eine Verbindung zu Ihrem Metastore über den Cluster her. Danach verwendet der Cluster den Metastore-Dienst als HMS. Der Cluster, den Sie hier erstellen, verwendet die Standardeinstellungen.
Console
Rufen Sie in der Google Cloud -Konsole die Seite Dataproc-Cluster auf.
Wählen Sie in der Navigationsleiste + Cluster erstellen aus.
Das Dialogfeld Cluster erstellen wird geöffnet und bietet mehrere Infrastrukturoptionen, aus denen Sie auswählen können.
Wählen Sie in der Zeile Cluster in Compute Engine die Option Erstellen aus.
Die Seite Dataproc-Cluster in Compute Engine erstellen wird geöffnet.
Geben Sie im Feld Clustername
example-cluster
ein.Wählen Sie in den Menüs Region und Zone die Option
us-central1
aus.Übernehmen Sie für die verbleibenden Optionen unter Cluster einrichten die angegebenen Standardeinstellungen.
Klicken Sie im Navigationsmenü auf den Tab Cluster anpassen (optional).
Wählen Sie im Abschnitt Dataproc Metastore den zuvor erstellten Metastore-Dienst aus.
Wenn Sie dieser Anleitung gefolgt sind, heißt sie
example-service
.Übernehmen Sie für die verbleibenden Optionen der Dienstkonfiguration die angegebenen Standardeinstellungen.
Klicken Sie auf Erstellen, um den Cluster zu erstellen.
Der neue Cluster wird in der Liste Cluster angezeigt. Der Clusterstatus wird als Wird bereitgestellt angezeigt, bis der Cluster einsatzbereit ist. Wenn sie bereit ist, ändert sich der Status zu Aktiv. Die Bereitstellung des Clusters kann einige Minuten dauern.
gcloud-CLI
Führen Sie den folgenden gcloud dataproc clusters create
-Befehl aus, um einen Cluster mit den bereitgestellten Standardeinstellungen zu erstellen:
gcloud dataproc clusters create example-cluster \ --dataproc-metastore=projects/PROJECT_ID/locations/us-central1/services/example-service \ --region=us-central1
Ersetzen Sie PROJECT_ID
durch die Projekt-ID des Projekts, in dem Sie den Dataproc Metastore-Dienst erstellt haben.
REST
Folgen Sie der API-Anleitung zum Erstellen eines Clusters mit dem APIs Explorer.
Mit einem Dataproc-Cluster eine Verbindung zu Apache Hive herstellen
In den folgenden Schritten wird gezeigt, wie Sie einige Beispielbefehle in Apache Hive ausführen, um eine Datenbank und eine Tabelle zu erstellen.
Öffnen Sie als Nächstes eine SSH-Sitzung im Dataproc-Cluster und starten Sie eine Hive-Sitzung.
- Rufen Sie in der Google Cloud Console die Seite VM-Instanzen auf.
- Klicken Sie in der Liste der VM-Instanzen neben
example-cluster
auf SSH.
Im Stammverzeichnis des Knotens wird ein Browserfenster mit einer Ausgabe ähnlich der folgenden geöffnet:
Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$
Führen Sie die folgenden Befehle in der SSH-Sitzung aus, um Hive zu starten und eine Datenbank und Tabelle zu erstellen:
Starten Sie Hive.
hive
Erstellen Sie eine Datenbank namens
myDatabase
.create database myDatabase;
Zeige die von dir erstellte Datenbank an.
show databases;
Verwenden Sie die Datenbank, die Sie erstellt haben.
use myDatabase;
Erstellen Sie eine Tabelle mit dem Namen
myTable
.create table myTable(id int,name string);
Listen Sie die Tabellen unter
myDatabase
auf.show tables;
Beschreiben Sie das Schema der Tabelle, die Sie erstellt haben.
desc MyTable;
Die Ausführung dieser Befehle führt zu einer Ausgabe, die in etwa so aussieht:
$hive
hive> show databases;
OK
default
hive> create database myDatabase;
OK
hive> use myDatabase;
OK
hive> create table myTable(id int,name string);
OK
hive> show tables;
OK
myTable
hive> desc myTable;
OK
id int
name string
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:
- In the Google Cloud console, go to the Manage resources page.
- If the project that you plan to delete is attached to an organization, expand the Organization list in the Name column.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Alternativ können Sie die Ressourcen löschen, die in dieser Anleitung verwendet werden:
Löschen Sie den Dataproc Metastore-Dienst.
Console
Öffnen Sie in der Google Cloud Console die Seite Dataproc Metastore:
Wählen Sie in der Dienstliste
example-service
aus.Klicken Sie in der Navigationsleiste auf Löschen.
Das Dialogfeld Dienst löschen wird geöffnet.
Klicken Sie im Dialogfeld auf Löschen.
Ihr Dienst wird nicht mehr in der Dienstliste angezeigt.
gcloud-CLI
Führen Sie den folgenden
gcloud metastore services delete
-Befehl aus, um den Dienst zu löschen.gcloud metastore services delete example-service \ --location=us-central1
REST
Folgen Sie der API-Anleitung, um einen Dienst mithilfe des APIs Explorers zu löschen.
Alle Löschvorgänge werden sofort ausgeführt.
Löschen Sie den Cloud Storage-Bucket für den Dataproc Metastore-Dienst.
Löschen Sie den Dataproc-Cluster, der den Dataproc Metastore-Dienst verwendet hat.