Preparar dados com o Gemini
Neste documento, descrevemos como gerar e gerenciar sugestões de código SQL para suas preparações de dados no BigQuery.
Para mais informações, consulte Introdução à preparação de dados do BigQuery.
Antes de começar
Abrir o editor de preparação de dados no BigQuery
Para abrir o editor de preparação de dados no BigQuery, crie uma preparação de dados, crie uma com base em uma tabela ou arquivo do Cloud Storage ou abra uma preparação de dados. Para mais informações sobre o que acontece ao criar uma preparação de dados, consulte Pontos de entrada da preparação de dados.
Na página do BigQuery, é possível acessar o editor de preparação de dados das seguintes maneiras:
Criar novo
Para criar uma nova preparação de dados no BigQuery, siga estas etapas:
- No console Google Cloud , acesse a página BigQuery.
Acessar o BigQuery - Acesse a lista Criar novo e clique em Preparação de dados. O editor de preparação de dados vai aparecer em uma nova guia sem título.
- Na barra de pesquisa do editor, insira o nome da tabela ou palavras-chave e selecione uma tabela. O editor de preparação de dados da tabela é aberto, mostrando uma prévia dos seus dados na guia Dados e um conjunto inicial de sugestões de preparação de dados do Gemini.
- Opcional: para simplificar a visualização, ative o modo de tela cheia clicando em tela cheia Tela cheia.
- Opcional: para ver detalhes da preparação de dados, o histórico de versões, adicionar novos comentários ou responder aos comentários atuais, use a barra de ferramentas (Visualizar).

Criar de uma tabela
Para criar uma nova preparação de dados com base em uma tabela, siga estas etapas:
- No console Google Cloud , acesse a página BigQuery.
Acessar o BigQuery - No painel Explorer, mantenha o ponteiro sobre uma tabela.
- Clique em more_vert Menu > Consultar em > Preparação de dados. O editor de preparação de dados da tabela é aberto, mostrando uma prévia dos seus dados na guia Dados e um conjunto inicial de sugestões de preparação de dados do Gemini.
- Opcional: para simplificar a visualização, ative o modo de tela cheia clicando em tela cheia Tela cheia.
- Opcional: para ver detalhes da preparação de dados, o histórico de versões, adicionar novos comentários ou responder aos comentários atuais, use a barra de ferramentas (Visualizar).

Criar de um arquivo do Cloud Storage
Para criar uma nova preparação de dados com base em um arquivo no Cloud Storage, siga estas etapas:
Carregar o arquivo
- No console Google Cloud , acesse a página BigQuery.
Acessar o BigQuery - Na lista Criar novo, clique em Preparação de dados. O editor de preparação de dados é exibido em uma nova guia sem título.
- Na lista de fontes de dados, clique em Google Cloud Storage. A caixa de diálogo Preparar dados é aberta.
- Na seção Origem, selecione o arquivo de um
bucket do Cloud Storage ou insira o caminho da origem. Por exemplo, insira um caminho para o arquivo CSV:
STORAGE_BUCKET_NAME/FILE_NAME.csv
. As pesquisas com caracteres curinga, como*.csv
, são aceitas.
O formato do arquivo é detectado automaticamente. Os formatos compatíveis são Avro, CSV, JSONL, ORC e Parquet. Outros tipos de arquivos compatíveis, como DAT, TSV e TXT, são lidos como formato CSV. - Defina a tabela de transição externa em que você vai fazer upload dos arquivos. Na seção Tabela de transição, insira os nomes do projeto, do conjunto de dados e da tabela para a nova tabela.
- Na seção Esquema, revise o esquema.
O Gemini verifica se há nomes de colunas no arquivo. Se não encontrar nenhum, ele vai dar sugestões.
Por padrão, seu arquivo de preparação de dados carrega dados como strings. É possível definir tipos de dados mais específicos ao preparar os dados do arquivo. - Opcional: em Opções avançadas, você pode adicionar mais informações, como o número de erros permitidos antes da falha do job. O Gemini oferece mais opções com base no conteúdo do arquivo.
- Clique em Criar. O editor de preparação de dados do arquivo é aberto, mostrando uma prévia dos seus dados na guia Dados e um conjunto inicial de sugestões de preparação de dados do Gemini.
- Opcional: para simplificar a visualização, ative o modo de tela cheia clicando em tela cheia Tela cheia.
- Opcional: para ver detalhes da preparação de dados, histórico de versões, adicionar novos comentários ou responder aos comentários atuais, use a barra de ferramentas (Visualizar).

Preparar o arquivo
Na visualização de dados, prepare os dados temporários do Cloud Storage que você carregou seguindo estas etapas:
- Opcional: defina tipos de dados mais fortes para as colunas relevantes navegando pela lista de sugestões de transformação ou selecionando uma coluna e gerando sugestões para ela.
- Opcional: defina regras de validação. Para mais informações, consulte Configurar a tabela de erros e adicionar uma regra de validação.
- Adicione uma tabela de destino.
- Para carregar os dados do Cloud Storage na tabela de destino, execute a preparação de dados.
- Opcional: programe a execução da preparação de dados.
- Opcional: otimize a preparação de dados processando-os de forma incremental.
Abrir mapa atual
Para abrir o editor de uma preparação de dados, siga estas etapas:
- No console Google Cloud , acesse a página BigQuery.
Acessar o BigQuery - No painel Explorer, clique no nome do projeto e em Preparação de dados.
- Selecione o preparo de dados atual. A visualização em gráfico do pipeline de preparação de dados é mostrada.
- Selecione um dos nós no gráfico. O editor de preparação de dados da tabela é aberto, mostrando uma prévia dos seus dados na guia Dados e um conjunto inicial de sugestões de preparação de dados do Gemini.
- Opcional: para simplificar a visualização, ative o modo de tela cheia clicando em tela cheia Tela cheia.
- Opcional: para ver detalhes da preparação de dados, o histórico de versões, adicionar novos comentários ou responder aos comentários atuais, use a barra de ferramentas (Visualizar).

Adicionar etapas de preparação de dados
Você prepara os dados em etapas. É possível visualizar ou aplicar as etapas sugeridas pelo Gemini. Você também pode melhorar as sugestões ou aplicar suas próprias etapas.
Aplicar e melhorar as sugestões do Gemini
Quando você abre o editor de preparação de dados da sua tabela, o Gemini inspeciona os dados e o esquema da tabela carregada e gera sugestões de filtro e transformação. As sugestões aparecem em cards na lista Etapas.
A imagem a seguir mostra onde você pode aplicar e melhorar as etapas sugeridas pelo Gemini:
Para aplicar uma sugestão do Gemini como uma etapa de preparação de dados, faça o seguinte:
- Na visualização de dados, clique no nome de uma coluna ou em uma célula específica. O Gemini gera sugestões para filtrar e transformar os dados.
Opcional: para melhorar as sugestões, edite os valores de uma a três células na tabela para demonstrar como os valores em uma coluna devem aparecer. Por exemplo, insira uma data da maneira como você quer formatar todas as datas. O Gemini gera novas sugestões com base nas suas mudanças.
A imagem a seguir mostra como editar valores para melhorar as etapas sugeridas pelo Gemini:
Selecione um cartão de sugestão.
- Opcional: para visualizar o resultado do card de sugestão, clique em Visualizar.
- Opcional: para modificar o cartão de sugestão usando linguagem natural, clique em Editar.
Clique em Aplicar.
Adicionar etapas com linguagem natural ou expressões SQL
Se as sugestões não atenderem às suas necessidades, adicione uma etapa. Escolha colunas ou um tipo de etapa e descreva o que você quer usando linguagem natural.
Adicionar uma transformação
- Na visualização de dados ou de esquema, escolha a opção Transformar. Você também pode escolher colunas ou adicionar exemplos para ajudar o Gemini a entender sua transformação de dados.
- No campo Descrição, insira um comando, como
Convert the state column to uppercase
. Clique em enviar Enviar.
O Gemini gera uma expressão SQL e uma nova descrição com base no seu comando.
Na lista Coluna de destino, selecione ou insira um nome de coluna.
Opcional: para atualizar a expressão SQL, revise o comando e clique em send Enviar ou insira uma expressão SQL manualmente.
Opcional: clique em Visualizar e revise a etapa.
Clique em Aplicar.
Nivelar colunas JSON
Para facilitar o acesso e a análise de pares de chave-valor, simplifique as colunas JSON. Por exemplo, se você tiver uma coluna JSON chamada user_properties
que contém as chaves country
e device_type
, o achatamento dessa coluna extrai country
e device_type
para colunas próprias de nível superior. Assim, você pode usá-las diretamente na sua análise.
O Gemini para BigQuery sugere operações que extraem campos apenas do nível superior do JSON. Se esses campos extraídos contiverem mais objetos JSON, você poderá simplificá-los em etapas adicionais para acessar o conteúdo.
- Na visualização de dados de uma tabela de origem JSON, escolha uma coluna ou células.
- Clique em Reduzir para gerar sugestões.
- Opcional: para atualizar a expressão SQL, insira uma expressão SQL manualmente.
- Opcional: clique em Visualizar e revise a etapa.
- Clique em Aplicar.
O achatamento tem os seguintes comportamentos:
- A opção Simplificar aparece na visualização de dados depois que você seleciona células ou colunas que contêm JSON. Ele não aparece por padrão quando você clica em Adicionar etapa.
- Se uma chave JSON não estiver presente nas linhas selecionadas, a sugestão gerada não vai conter essa chave. Esse problema pode fazer com que algumas colunas sejam omitidas quando os dados são simplificados.
- Se os nomes de coluna entrarem em conflito durante o nivelamento, os nomes repetidos vão terminar neste formato:
_<i>
. Por exemplo, se já houver uma coluna chamadaaddress
, o novo nome da coluna simplificada seráaddress_1
. - Os nomes de colunas simplificados seguem as convenções de nomenclatura de colunas do BigQuery.
- Se você deixar o campo da chave JSON vazio, o formato padrão do nome da coluna será
f<i>_
.
Aplanar colunas RECORD
ou STRUCT
Para facilitar o acesso e a análise de campos aninhados, simplifique as colunas com o tipo de dados RECORD
ou STRUCT
. Por exemplo, se você tiver um registro event_log
que contém os campos timestamp
e action
, o nivelamento desse registro
extrai timestamp
e action
para colunas próprias de nível superior para que você possa
transformá-las diretamente.
Esse processo extrai todas as colunas aninhadas do registro, até 10 níveis de profundidade, e cria uma nova coluna para cada uma delas. Os novos nomes de coluna são criados combinando o nome da coluna principal com o nome do campo aninhado, separados por um sublinhado (por exemplo, PARENT-COLUMN-NAME_FIELD-NAME
). A coluna original é descartada. Para manter a coluna original, exclua a etapa Remover coluna da lista Etapas aplicadas.
Para simplificar registros, siga estas etapas:
- Na visualização de dados de uma tabela de origem, escolha uma coluna de registro.
- Clique em Reduzir para gerar sugestões.
- Opcional: para atualizar a expressão SQL, insira uma expressão SQL manualmente.
- Opcional: clique em Visualizar e revise a etapa.
- Clique em Aplicar.
Filtrar linhas
Para adicionar um filtro que remove linhas, siga estas etapas:
- Na visualização de dados ou de esquema, escolha a opção Filtrar. Você também pode escolher colunas para ajudar o Gemini a entender seu filtro de dados.
- No campo Descrição, insira um comando, como
Column ID should not be NULL
. - Clique em Gerar. O Gemini gera uma expressão SQL e uma nova descrição com base no seu comando.
- Opcional: para atualizar a expressão SQL, revise o comando e clique em send Enviar ou insira uma expressão SQL manualmente.
- Opcional: clique em Visualizar e revise a etapa.
- Clique em Aplicar.
Formato da expressão de filtro
As expressões SQL para filtros retêm as linhas que correspondem à condição especificada. Isso
é equivalente a uma instrução SELECT … WHERE SQL_EXPRESSION
.
Por exemplo, para reter registros em que a coluna year
é maior ou igual a 2000
, a condição é year >= 2000
.
As expressões precisam seguir a sintaxe SQL do BigQuery para a cláusula WHERE
.
Eliminar duplicação de dados
Para remover linhas duplicadas dos seus dados, siga estas etapas:
- Na visualização de dados ou de esquema, escolha a opção Remover duplicadas. O Gemini oferece uma sugestão inicial de remoção de duplicidade.
- Opcional: para refinar a sugestão, insira uma nova descrição e clique em enviar Enviar.
- Opcional: para configurar manualmente a etapa de remoção de duplicação, use as seguintes
opções:
- Na lista Escolha de registros, selecione uma das seguintes estratégias:
- Primeiro: para cada grupo de linhas com os mesmos valores de chave de remoção de duplicação, essa estratégia escolhe a primeira linha com base na expressão
ORDER BY
e remove o restante. - Último: para cada grupo de linhas com os mesmos valores de chave de duplicação, essa estratégia escolhe a última linha com base na expressão
ORDER BY
e remove o restante. - Qualquer: para cada grupo de linhas com os mesmos valores de chave de remoção de duplicação, essa estratégia escolhe qualquer linha do grupo e remove o restante.
- Distinct: remove todas as linhas duplicadas em todas as colunas da tabela.
- Primeiro: para cada grupo de linhas com os mesmos valores de chave de remoção de duplicação, essa estratégia escolhe a primeira linha com base na expressão
- No campo Chaves de remoção de duplicação, escolha uma ou mais colunas ou expressões para identificar linhas duplicadas. Esse campo é aplicável quando a estratégia de escolha de registros é Primeiro, Último ou Qualquer.
- No campo Expressão de ordenação, insira uma expressão que defina a ordem das linhas. Por exemplo, para escolher a linha mais recente, insira
datetime DESC
. Para escolher a primeira linha em ordem alfabética por nome, insira um nome de coluna comolast_name
. A expressão segue as mesmas regras da cláusulaORDER BY
padrão no BigQuery. Esse campo só é aplicável quando a estratégia de escolha de registros é Primeiro ou Último.
- Na lista Escolha de registros, selecione uma das seguintes estratégias:
- Opcional: clique em Visualizar e revise a etapa.
- Clique em Aplicar.
Excluir uma coluna
Para excluir uma ou mais colunas de uma preparação de dados, siga estas etapas:
- Na visualização de dados ou esquema, selecione as colunas que você quer descartar.
- Clique em Abandonar. Uma nova etapa aplicada é adicionada para as colunas excluídas.
Adicionar uma operação de junção com o Gemini
Para adicionar uma etapa de operação de junção entre duas fontes na preparação de dados, siga estas etapas:
- Na visualização de dados de um nó na preparação de dados, acesse a lista Sugestões e clique na opção Junção.
- Na caixa de diálogo Adicionar junção, clique em Procurar e selecione a outra tabela envolvida na operação de junção (referida como o lado direito da junção).
- Opcional: selecione o tipo de operação de junção que você quer realizar, como Junção interna.
Revise as informações da chave de junção geradas pelo Gemini nos seguintes campos:
- Descrição da junção: a descrição em linguagem natural da expressão SQL para a operação de junção. Quando você edita essa descrição e clica em enviar Enviar, o Gemini sugere novas condições de junção SQL.
Condições de junção: as expressões SQL na cláusula
ON
para a operação de junção. Você pode usar os qualificadoresL
eR
para se referir às tabelas de origem à esquerda e à direita, respectivamente. Por exemplo, para mesclar a colunacustomer_id
da tabela à esquerda com a colunacustomer_id
da tabela à direita, insiraL.customerId = R.customerId
. Esses qualificadores não diferenciam maiúsculas de minúsculas.
Opcional: para refinar as sugestões do Gemini, edite o campo Descrição da participação e clique em send Enviar.
Opcional: para visualizar as configurações da operação de junção do preparo de dados, clique em Visualizar.
Clique em Aplicar.
A etapa de operação de junção é criada. A tabela de origem selecionada (o lado direito da junção) e a operação de junção são refletidas na lista de etapas aplicadas e nos nós na visualização de gráfico do preparo de dados.
Dados agregados
- Na visualização de dados ou de esquema, escolha a opção Agregar.
- No campo Descrição, insira um comando, como
Find the total revenue for a region
. Clique em Enviar.
O Gemini gera chaves de agrupamento e expressões de agregação com base no seu comando.
Opcional: edite as chaves de agrupamento ou expressões de agregação geradas, se necessário.
Opcional: você pode adicionar manualmente chaves de agrupamento e expressões de agregação.
- No campo Chaves de agrupamento, insira um nome de coluna ou uma expressão. Se você deixar em branco, a tabela resultante terá uma linha. Se você inserir uma expressão, ela precisará ter um alias (uma cláusula
AS
), por exemplo,EXTRACT(YEAR FROM order_date) AS order_year
. Não são permitidas duplicatas. - No campo Expressões de agregação, insira uma expressão de agregação que tenha um alias (uma cláusula
AS
), por exemplo,SUM(quantity) AS total_quantity
. É possível inserir várias expressões separadas por vírgulas. Não são permitidas duplicatas. Para conferir uma lista das expressões de agregação compatíveis, consulte Funções de agregação.
- No campo Chaves de agrupamento, insira um nome de coluna ou uma expressão. Se você deixar em branco, a tabela resultante terá uma linha. Se você inserir uma expressão, ela precisará ter um alias (uma cláusula
Opcional: clique em Visualizar e revise a etapa.
Clique em Aplicar.
Configurar a tabela de erros e adicionar uma regra de validação
É possível adicionar um filtro que cria uma regra de validação, que envia erros para uma tabela de erros ou falha na execução da preparação de dados.
Configurar a tabela de erros
Para configurar sua tabela de erros, siga estas etapas:
- No editor de preparação de dados, acesse a barra de ferramentas e clique em Mais > Tabela de erros.
- Clique em Ativar tabela de erros.
- Defina o local da tabela.
- Opcional: defina uma duração máxima para manter os erros.
- Clique em Salvar.
Adicionar uma regra de validação
Para adicionar uma regra de validação, siga estas etapas:
- Na visualização de dados ou de esquema, clique na opção Filtrar. Você também pode escolher colunas para ajudar o Gemini a entender seu filtro de dados.
- Insira uma descrição para a etapa.
- Insira uma expressão SQL na forma de uma cláusula
WHERE
. - Opcional: se você quiser que a expressão SQL funcione como uma regra de validação, marque a caixa de seleção As linhas de validação com falhas vão para a tabela de erros. Você também pode mudar um filtro para uma validação na barra de ferramentas de preparação de dados clicando em Mais > Tabela de erros.
- Opcional: clique em Visualizar e revise a etapa.
- Clique em Aplicar.
Adicionar ou mudar uma tabela de destino
Para adicionar ou mudar uma tabela de destino para a saída da preparação de dados, siga estas etapas:
- Na visualização de dados ou de esquema, escolha a opção Destino.
- Selecione o projeto em que a tabela de destino está armazenada.
- Selecione um dos conjuntos de dados ou carregue um novo.
- Insira uma tabela de destino. Se a tabela não existir, a preparação de dados vai criar uma nova na primeira execução. Para mais informações, consulte Modo de gravação.
- Selecione seu conjunto de dados como o conjunto de dados de destino.
- Clique em Salvar.
Conferir a amostra de dados e o esquema de uma etapa aplicada
Para conferir detalhes de amostra e esquema em uma etapa específica da preparação de dados, faça o seguinte:
- No editor de preparação de dados, acesse a lista Etapas e clique em Etapas aplicadas.
- Selecione uma etapa. As guias Dados e Esquema aparecem, mostrando a amostra de dados e o esquema desta etapa específica.
Editar uma etapa aplicada
Para editar uma etapa aplicada, faça o seguinte:
- No editor de preparação de dados, acesse a lista Etapas e clique em Etapas aplicadas.
- Selecione uma etapa.
- Ao lado da etapa, clique em more_vert Menu > Editar.
- Na caixa de diálogo Editar etapa aplicada, você pode fazer o seguinte:
- Edite a descrição da etapa.
- Para receber sugestões do Gemini, edite a descrição e clique em enviar Enviar.
- Edite a expressão SQL.
- No campo Coluna de destino, selecione uma coluna.
- Opcional: clique em Visualizar e revise a etapa.
- Clique em Aplicar.
Excluir uma etapa aplicada
Para excluir uma etapa aplicada, faça o seguinte:
- No editor de preparação de dados, acesse a lista Etapas e clique em Etapas aplicadas.
- Selecione uma etapa.
- Clique em more_vert Menu > Excluir.
Executar a preparação de dados
Depois de adicionar as etapas de preparação de dados, configurar o destino e corrigir os erros de validação, é possível fazer testes em uma amostra dos dados ou implantar as etapas e programar execuções de preparação de dados. Para mais informações, consulte Programar preparações de dados.
Atualizar exemplos de preparação de dados
Os dados na amostra não são atualizados automaticamente. Se os dados nas tabelas de origem para o preparo de dados tiverem mudado, mas as mudanças não forem refletidas na amostra de dados do preparo, clique em Mais > Atualizar amostra.
A seguir
- Saiba como programar preparações de dados.
- Saiba mais sobre como gerenciar preparações de dados.
- Saiba mais sobre as cotas e os limites do Gemini no BigQuery.
- Confira os preços do Gemini no BigQuery.