Carregar e consultar dados com a ferramenta bq

Aprenda a criar um conjunto de dados, carregar dados de amostra e consultar tabelas com a ferramenta de linha de comando bq.

Para seguir as instruções passo a passo desta tarefa diretamente no console do Google Cloud, clique em Orientação:

Orientações

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Se você não ativar o faturamento do projeto do Google Cloud usado neste tutorial, será necessário trabalhar com dados no sandbox do BigQuery. O sandbox do BigQuery ensina você a usar o BigQuery com um conjunto limitado de recursos sem custos financeiros.

Verifique se a API BigQuery está ativada.

Ativar a API

Se você criou um novo projeto, a API BigQuery será ativada automaticamente.

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

Fazer o download do arquivo de dados públicos de origem

Fazer o download do arquivo ZIP com nomes de bebês.
Extraia o arquivo ZIP. Ele contém um arquivo chamado NationalReadMe.pdf que descreve o esquema do conjunto de dados. Saiba mais sobre o conjunto de dados com nomes de bebês.
Abra o arquivo yob2010.txt. Trata-se de um arquivo de valores separados por vírgulas (CSV) com três colunas: nome, gênero atribuído ao nascer e número de crianças com esse nome. O arquivo não tem linha de cabeçalho.
Mova o arquivo para o diretório de trabalho.
- Se você estiver trabalhando no Cloud Shell, clique em Mais >Fazer upload, clique emEscolher arquivos, escolha o arquivo yob2010.txt e clique em Fazer upload.
- Se você estiver trabalhando em um shell local, copie ou mova o arquivo yob2010.txt para o diretório em que está executando a ferramenta bq.

crie um conjunto de dados

Crie um conjunto de dados chamado babynames:
```
bq mk babynames
```
O resultado será assim:
```
Dataset 'myproject:babynames' successfully created.
```
O nome do conjunto de dados pode ter até 1.024 caracteres e ser composto de A-Z, a-z, 0-9 e sublinhado. O nome não pode começar com um número ou sublinhado e não pode ter espaços.
Verifique se o conjunto de dados babynames agora aparece no seu projeto:
```
bq ls
```
O resultado será assim:
```
  datasetId
-------------
  babynames
```

Carregar dados em uma tabela

No conjunto de dados babynames, carregue o arquivo de origem yob2010.txt em uma nova tabela chamada names2010:
```
bq load babynames.names2010 yob2010.txt name:string,assigned_sex_at_birth:string,count:integer
```
O resultado será assim:
```
Upload complete.
Waiting on bqjob_r3c045d7cbe5ca6d2_0000018292f0815f_1 ... (1s) Current status: DONE
```
Por padrão, quando você carrega dados no BigQuery, espera-se que eles estejam no formato UTF-8. Se você tiver dados na codificação ISO-8859-1 (ou Latin-1) e tiver problemas com eles, instrua o BigQuery a tratar seus dados como Latin-1 usando bq load -E=ISO-8859-1. Para ver mais informações, consulte Codificação.
Confirme se a tabela names2010 agora aparece no conjunto de dados babynames:
```
bq ls babynames
```
A resposta será semelhante a esta: Algumas colunas são omitidas para simplificar a saída.
```
  tableId     Type
----------- ---------
 names2010    TABLE
```

Confirme se o esquema da nova tabela names2010 é name: string, assigned_sex_at_birth: string e count: integer:

bq show babynames.names2010

A resposta será semelhante a esta: Algumas colunas são omitidas para simplificar a saída.

  Last modified        Schema                      Total Rows   Total Bytes
----------------- ------------------------------- ------------ ------------
14 Mar 17:16:45   |- name: string                    34089       654791
                  |- assigned_sex_at_birth: string
                  |- count: integer

Consultar os dados da tabela

Determine os nomes mais comuns de meninas nos dados:

bq query --use_legacy_sql=false \
    'SELECT
      name,
      count
    FROM
      `babynames.names2010`
    WHERE
      assigned_sex_at_birth = "F"
    ORDER BY
      count DESC
    LIMIT 5;'

O resultado será assim:

+----------+-------+
|   name   | count |
+----------+-------+
| Isabella | 22925 |
| Sophia   | 20648 |
| Emma     | 17354 |
| Olivia   | 17030 |
| Ava      | 15436 |
+----------+-------+

Determine os nomes de meninos menos comuns nos dados:

bq query --use_legacy_sql=false \
    'SELECT
      name,
      count
    FROM
      `babynames.names2010`
    WHERE
      assigned_sex_at_birth = "M"
    ORDER BY
      count ASC
    LIMIT 5;'

O resultado será assim:

+----------+-------+
|   name   | count |
+----------+-------+
| Aamarion |     5 |
| Aarian   |     5 |
| Aaqib    |     5 |
| Aaidan   |     5 |
| Aadhavan |     5 |
+----------+-------+

A contagem mínima é 5, porque os nomes com menos de 5 ocorrências não são exibidos nos dados de origem.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, exclua o projeto do Google Cloud com esses recursos.

Excluir o projeto

Se você usou o sandbox do BigQuery para consultar o conjunto de dados público, o faturamento não está ativado para seu projeto.

O jeito mais fácil de evitar o faturamentos é excluindo o projeto criado para este tutorial.

Para excluir o projeto, faça o seguinte:

Cuidado: excluir um projeto tem os seguintes efeitos:

Tudo no projeto é excluído. Se você tiver usado um projeto existente para as tarefas neste documento, a exclusão dele incluirá a exclusão de quaisquer outros trabalhos feitos no projeto.
Os IDs do projeto personalizados são perdidos. Ao criar o projeto, você pode ter criado um código do projeto personalizado para ser usado no futuro. Para preservar os URLs que usam o ID do projeto, como um URL appspot.com, exclua recursos específicos do projeto, em vez de excluir o projeto inteiro.

Se você planeja passar por várias arquiteturas, tutoriais ou guias de início rápido, a reutilização de projetos pode evitar que você exceda os limites da cota do projeto.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Excluir os recursos

Se você usou um projeto atual, exclua os recursos criados:

Excluir o conjunto de dados babynames:
```
bq rm --recursive=true babynames
```
A sinalização --recursive exclui todas as tabelas do conjunto de dados, incluindo a tabela names2010.

O resultado será assim:
```
rm: remove dataset 'myproject:babynames'? (y/N)
```
Para confirmar o comando de exclusão, insira y.

A seguir

Saiba mais sobre como usar a ferramenta bq.
Saiba mais sobre o sandbox do BigQuery.
Saiba como carregar dados no BigQuery.
Saiba como consultar dados no BigQuery.
Receba atualizações sobre o BigQuery.
Saiba mais sobre o preço do BigQuery.
Saiba mais sobre cotas e limites do BigQuery.