此页面由 Cloud Translation API 翻译。

GoogleSQL for Bigtable 查询示例

本页中的示例演示了常见和高级 Bigtable 查询的 SQL 查询模式。您可以在 Bigtable Studio 查询编辑器中运行 GoogleSQL 查询。您还可以使用 Java 版 Bigtable 客户端库运行查询。

在阅读本页内容之前，请先阅读 GoogleSQL for Bigtable 概览。

本页面上的示例使用与示例数据中类似的 ID 和值。

常见的 Bigtable SQL 查询模式

以下是针对 Bigtable 数据的常见查询示例。如需查看调用 Bigtable Data API 的类似查询的示例，请参阅读取示例和使用过滤器。如需查看有关结构化行键的查询示例，请参阅结构化行键查询。

检索给定行键的所有列的最新版本。

  SELECT * FROM myTable WHERE _key = 'r1'

检索指定行键的所有列的所有版本。

  SELECT * FROM myTable(with_history => TRUE) WHERE _key = 'r1'

针对给定行键，从特定列族的特定列中检索最新版本。

  SELECT stats_summary['os_build'] AS os
  FROM analytics
  WHERE _key = 'phone#4c410523#20190501'

检索给定行键范围的行键和多个列的最新版本。

  SELECT
    _key,
    stats_summary['os_build'] AS os,
    stats_summary['user_agent'] AS agent
  FROM analytics
  WHERE _key >= 'phone#4c410523#20190501' AND _key < 'phone#4c410523#201906201'

检索多个行键范围（最多 10 行）的所有列的所有版本。

  SELECT *
  FROM analytics(with_history => TRUE)
  WHERE
    (_key >= 'phone#4c410523#20190501' AND _key < 'phone#4c410523#201906201')
    OR (_key >= 'phone#5c10102#20190501' AND _key < 'phone#5c10102#20190601')
  LIMIT 10

检索多个行键的所有列的所有版本。

  SELECT *
  FROM analytics(with_history => TRUE)
  WHERE _key = 'phone#4c410523#20190501' OR _key = 'phone#4c410523#20190502'

使用不同的方法检索多个行键的所有列的所有版本。

  SELECT *
  FROM analytics(with_history => TRUE)
  WHERE _key IS IN ('phone#4c410523#20190501', 'phone#4c410523#20190502')

检索行键前缀对应的列族中所有列的最新版本。

  SELECT stats_summary
  FROM analytics
  WHERE _key LIKE 'phone#%'

检索表中所有行的某个列族中所有列的行键和三个最新版本。此查询需要全表扫描，因此不建议用于低延迟、高吞吐量访问模式。

  SELECT _key, cell_plan FROM analytics(with_history => TRUE, latest_n => 3)

检索行键与指定正则表达式匹配的所有列的最新版本。此查询需要执行全表扫描，因此不建议用于低延迟、高吞吐量的访问模式，除非您还在 WHERE 子句中提供行键前缀或行键范围谓词。

  SELECT *
  FROM myTable(with_history => TRUE)
  WHERE REGEXP_CONTAINS(_key, '.*#20190501$')

检索具有匹配行键前缀且计数器值大于 123 的所有列的最新版本。您无需为此比较进行转换，因为 Bigtable 汇总是数值。

  SELECT *
  FROM myTable
  WHERE _key LIKE 'user12%' AND counterFamily['counter'] > 123

如果引荐来源网址与特定值匹配，则检索行键前缀的所有列的最新版本。

  SELECT *
  FROM analytics
  WHERE _key LIKE 'com.mysite%' AND session['referrer'] = './home'

根据给定列的值对给定行进行分类。此查询类似于在 Bigtable Data API 中使用组合条件过滤条件。

  SELECT
    *,
    CASE cell_plan['data_plan']
      WHEN '10gb' THEN 'passed-filter'
      ELSE 'filtered-out'
      END
      AS label
  FROM analytics

检索指定行键范围内特定列族中的行键和列限定符。在 SQL 中，列族由映射数据类型表示，其中每个列限定符和值都映射为键值对。此 SQL 查询类似于在 Bigtable Data API 中使用剥离值过滤器。

  SELECT _key, MAP_KEYS(cell_plan) AS keys
  FROM analytics
  WHERE _key >= 'phone#4c410523#20190501' AND _key < 'phone#4c410523#201906201'

借助 UNPACK 函数，您可以将 Bigtable 数据转换为表格时序格式，这在执行时序分析时非常有用。假设您在 engagement 列族中有一个 clicks 列。以下查询使用 UNPACK 汇总过去一小时内每分钟的点击次数，以了解特定广告系列的效果。

  SELECT
    FORMAT_TIMESTAMP('%M', _timestamp) AS minute,
    COUNT(clicks) AS total_clicks
  FROM
    UNPACK((
      SELECT engagement['clicks'] as clicks
      FROM metrics(with_history => true, after => TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 HOUR))
      WHERE _key = @campaign_id
    ))
  GROUP BY
    minute;

高级 Bigtable SQL 查询模式

以下示例展示了更高级的模式。

通过以下查询，您可以检索 session 列族中 JSON 属性 abc 的行键和最新值。如需了解详情，请参阅 JSON 函数。

  SELECT _key, JSON_VALUE(session['payload'], '$.abc') AS abc FROM analytics

通过以下查询，您可以检索行键，并使用表中每个行的两个最新 Bigtable 汇总单元格（数值）的值来计算平均会话时长。

  SELECT
    _key AS userid,
    session['total_minutes'] / session['count'] AS avg_session_length
  FROM analytics

借助以下查询，您可以检索给定行键前缀的所有列的最新版本（如果 session 列族包含 referrer、origin 或 server 作为列限定符）。或者，此查询也可以写成一系列单独的比较，例如 session['referrer'] IS NOT NULL OR session['origin'] IS NOT NULL。不过，对于涉及大量比较的查询，建议采用以下方法。

  SELECT *
  FROM analytics
  WHERE
    _key LIKE 'com.abc%'
    AND ARRAY_INCLUDES_ANY(MAP_KEYS(session), ['referrer', 'origin', 'server'])

如果 session 列族包含 referrer、origin 和 server 作为列限定符，您可以使用以下查询检索给定行键前缀的所有列的最新版本。或者，此查询可以写成一系列单独的比较，例如 session['referrer'] IS NOT NULL AND session ['origin'] IS NOT NULL。

  SELECT *
  FROM analytics
  WHERE
    _key LIKE 'com.abc%'
    AND ARRAY_INCLUDES_ALL(MAP_KEYS(session), ['referrer', 'origin', 'server'])

通过以下查询，您可以检索给定行键前缀的所有列的最新版本（如果 session 列族包含 com.google.search、com.google.maps 或 com.google.shopping 作为值）。

  SELECT *
  FROM analytics
  WHERE
    _key LIKE 'com.abc%'
    AND ARRAY_INCLUDES_ANY(
      MAP_VALUES(session),
      ['com.google.search', 'com.google.maps', 'com.google.shopping'])

借助以下查询，如果 cell_plan 列族中的键值对同时包含 data_plan:unlimited 和 roaming:North America，您可以检索所有列的最新版本。

  SELECT *
  FROM analytics
  WHERE
    ARRAY_INCLUDES_ALL(
      CAST(
        MAP_ENTRIES(cell_plan)
        AS ARRAY<STRUCT<key STRING, value STRING>>),
      [('data_plan', 'unlimited'), ('roaming', 'North America')])

通过以下查询，您可以检索天气传感器在过去 7 次测量中温度超过 70 度的情形下的 row key 和 temperature 读数。

  SELECT
    _key AS sensorid,
    ARRAY_FILTER(
      CAST(
        sensor['temperature']
        AS ARRAY<STRUCT<timestamp TIMESTAMP, value STRING>>),
      e -> CAST(e.value AS FLOAT32) > 70) AS high_temperature
  FROM weather(with_history => TRUE, latest_n => 7)

在时间过滤顺序中，latest_n 排在最后，因此 after => X, before => y, latest_n => 3 等查询会返回满足 after 和 before 条件的最新三个值。如果您的使用情形需要优先考虑 latest_n，您可以仅提供 latest_n 作为时间过滤条件，然后使用 SELECT 语句中的查询运算符应用其余的时间过滤条件，如示例所示。如需了解详情，请参阅时间过滤条件。

  SELECT
    ARRAY_FILTER(
      CAST(
        address['street']
        AS ARRAY<STRUCT<timestamp TIMESTAMP, value STRING>>),
      e -> e.timestamp > TIMESTAMP('2021-01-04T23:51:00.000Z'))
      AS street_address
  FROM locations(with_history => TRUE, latest_n => 3)

与上一个示例类似，您可以为查询中的每个列族应用不同的时间过滤条件。例如，以下查询会返回 street 列的三个最新版本和 state 列的两个最旧版本。

  SELECT
    ARRAY_FILTER(
      CAST(
        address['street']
        AS ARRAY<STRUCT<timestamp TIMESTAMP, value STRING>>),
      (e, i) -> i <= 2)
      AS street_address,
    ARRAY_FILTER(
      ARRAY_REVERSE(
        CAST(
          address['state']
          AS ARRAY<STRUCT<timestamp TIMESTAMP, value STRING>>)),
      (e, i) -> i <= 1)
      AS state
  FROM locations(with_history => TRUE)

如果地址列族中的键值对在任何时间点都包含 city:Savannah 或 city:Nashville，您可以使用以下查询检索所有列的所有版本。

  SELECT *
  FROM locations(with_history => TRUE)
  WHERE
    ARRAY_LENGTH(
      ARRAY_FILTER(
        CAST(
          MAP_ENTRIES(address)
          AS ARRAY<
            STRUCT<
              key STRING,
              value ARRAY<STRUCT<timestamp TIMESTAMP, value STRING>>>>),
        e ->
          e.key = 'city'
          AND ARRAY_INCLUDES_ANY(
            ARRAY_TRANSFORM(e.value, k -> k.value), ['Savannah', 'Nashville'])))
    > 0

在此特定示例中，无需进行转换，因此也可以采用以下更简短的形式。

  SELECT *
  FROM locations(with_history => TRUE)
  WHERE
    ARRAY_LENGTH(
      ARRAY_FILTER(
        MAP_ENTRIES(address),
        e ->
          e.key = 'city'
          AND ARRAY_INCLUDES_ANY(
            ARRAY_TRANSFORM(e.value, k -> k.value), ['Savannah', 'Nashville'])))
    > 0

GoogleSQL for Bigtable 查询示例

常见的 Bigtable SQL 查询模式

高级 Bigtable SQL 查询模式

后续步骤