BigQuery 公開資料集

公開資料集是儲存在 BigQuery 中,透過 Google Cloud 公開資料集計畫提供給一般大眾使用的任何資料集。公共資料集是 BigQuery 託管的資料集,這些資料集皆可供您存取並整合到您的應用程式中。這些資料集的儲存空間費用由 Google 支付,Google 也透過專案將這些資料集提供給大眾存取。您只需要支付資料查詢費用 (每月前 1 TB 免費,相關規定請參閱查詢費率詳情)。

公開資料集可使用舊版 SQL 或 GoogleSQL 查詢進行分析。查詢公開資料集時,請使用完整資料表名稱,例如 bigquery-public-data.bbc_news.fulltext。如果貴機構限制資料存取權 (例如透過安全防護範圍),您可能需要聯絡管理員,取得存取公開資料集的權限。

您可以透過 Google Cloud 控制台bq 指令列工具,或使用各種用戶端程式庫 (例如 Java.NETPython) 呼叫 BigQuery REST API,進而存取 BigQuery 公開資料集。您也可以透過 BigQuery sharing (舊稱 Analytics Hub) 檢視及查詢公開資料集,這個資料交換平台可協助您探索及存取資料庫。

根據預設,您無法從 VPC Service Controls 範圍內存取公開資料集。公開資料集計畫不提供服務水準協議 (SLA)。

前往「共用」(Analytics Hub)

如要進一步瞭解個別資料集,請在 Cloud Marketplace 的「資料集」部分點選資料集名稱。

前往 Cloud Marketplace 中的「Datasets」(資料集) 區段

事前準備

您必須先建立或選取專案,才能開始使用 BigQuery 公開資料集。我們免費為您提供每月 1 TB 的資料處理量,讓您無需啟用計費功能就能開始查詢公開資料集。如果您想要進行的運用會超出免費方案的範圍,則必須啟用計費功能。

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. 新專案會自動啟用 BigQuery。如要在現有的專案中啟用 BigQuery,請

    Enable the BigQuery API.

    Enable the API

  7. 公開資料集位置

    每個公開資料集都儲存在特定位置,例如 USEU。BigQuery 範例資料表目前儲存在 US 這個多地區位置中。查詢範例資料表時,請在指令列中提供 --location=US 旗標、在Google Cloud 控制台中選擇 US 做為處理位置,或在使用 API 時,於工作資源jobReference 區段中指定 location 屬性。由於範例資料表儲存在美國,因此您無法將範例資料表的查詢結果寫入其他地區的資料表,也無法將範例資料表與其他地區的資料表加以彙整。

    在 Google Cloud 控制台中存取公開資料集

    您可以在 Google Cloud 控制台中透過下列方法存取公開資料集:

    如要瞭解資料表上次更新的時間,請按照「取得資料表資訊」一文所述,前往資料表的「詳細資料」部分,然後查看「上次修改時間」欄位。如要進一步瞭解如何選取及移除專案,請參閱「處理專案」。

    其他公開資料集

    有其他許多公開資料集可供您查詢,其中有些也是由 Google 託管,但有更多是由第三方託管,這些資料集包括:

    公開共用資料集

    您可以將資料集的存取權控管設定變更為允許「所有已驗證的使用者」存取,藉此公開共用您的任何資料集。如要進一步瞭解如何設定資料集存取權控管設定,請參閱控管資料集存取權一文。

    公開共用資料集時:

    • 系統會透過公開共用資料集所屬專案連結的帳單帳戶向您收取儲存費用。
    • 查詢費用則是向執行查詢工作的專案所連結的帳單帳戶收取。

    詳情請參閱 BigQuery 定價總覽

    範例資料表

    除了公開資料集外,BigQuery 還提供了有限數量的範例資料表供您查詢。這些資料表位於 bigquery-public-data:samples 資料集中。

    查詢 BigQuery 範例資料表的需求條件與查詢公開資料集的需求條件相同。

    bigquery-public-data:samples 資料集包含下列資料表:

    名稱 說明
    gsod 提供 NOAA 收集的天氣資訊,例如 1929 年末至 2010 年初的降水量與風速。
    github_nested 提供對具有巢狀結構定義的 GitHub 存放區執行之動作 (例如提取要求與評論) 的時間軸。建立時間為 2012 年 9 月。
    github_timeline 提供對具有平面結構定義的 GitHub 存放區執行之動作 (例如提取要求與評論) 的時間軸。建立時間為 2012 年 5 月。
    natality 提供自 1969 年至 2008 年在美國 50 州、哥倫比亞特區及紐約市註冊的所有美國出生人口。
    shakespeare 提供莎士比亞作品的文字索引,能夠指出每個文字在各語料庫中出現的次數。
    trigrams 提供 1520 年至 2008 年發布作品中之樣本的英語三元語法。
    wikipedia 提供至 2010 年 4 月為止維基百科所有文章的完整修訂版本記錄。

    與我們聯絡

    如果您對 BigQuery 公開資料集方案有任何問題,請透過 bq-public-data@google.com 與我們聯絡。

    後續步驟

    如要瞭解如何查詢公開資料集中的資料表,請參閱「快速入門導覽課程:使用 Google Cloud 控制台」。