搭配 Dataproc Metastore 使用 Apache Hive

本頁面將說明如何搭配使用 Apache Hive 和 Dataproc Metastore 服務。在這個範例中,您會在 Dataproc 叢集中啟動 Hive 工作階段,然後執行範例指令來建立資料庫和資料表。

事前準備

連線至 Apache Hive

如要開始使用 Hive,請使用 SSH 連線至與 Dataproc Metastore 服務相關聯的 Dataproc 叢集。連線完成後,您可以在瀏覽器的 SSH 終端機視窗中執行 Hive 指令,以便管理中繼資料。

如何連線至 Hive

  1. 前往 Google Cloud 控制台的「VM Instances」(VM 執行個體) 頁面
  2. 在虛擬機器執行個體清單中,找到您要連線的 Dataproc VM 執行個體,然後在該列中按一下「SSH」SSH

瀏覽器視窗會在節點的主目錄中開啟,並顯示類似以下的輸出內容:

Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$

如要啟動 Hive 並建立資料庫和資料表,請在 SSH 工作階段中執行下列指令:

  1. 啟動 Hive。

    hive
    
  2. 建立名為 myDatabase 的資料庫。

    create database myDatabase;
    
  3. 顯示您建立的資料庫。

    show databases;
    
  4. 使用您建立的資料庫。

    use myDatabase;
    
  5. 建立名為 myTable 的資料表。

    create table myTable(id int,name string);
    
  6. myDatabase 下方列出資料表。

    show tables;
    
  7. 在您建立的表格中顯示表格資料列。

    desc MyTable;
    

執行下列指令會產生類似以下的輸出內容:

$hive

hive> show databases;
OK
default
hive> create database myDatabase;
OK
hive> use myDatabase;
OK
hive> create table myTable(id int,name string);
OK
hive> show tables;
OK
myTable
hive> desc myTable;
OK
id                      int                                         
name                    string 

後續步驟