Transformar dados com a linguagem de manipulação de dados (DML)

A linguagem de manipulação de dados (DML) do BigQuery permite atualizar, inserir e excluir dados das tabelas do BigQuery.

É possível executar instruções DML como se fossem uma instrução SELECT, com as seguintes condições:

  • É necessário usar o GoogleSQL. Para ativar o GoogleSQL, consulte Como alternar dialetos SQL.
  • Não é possível especificar uma tabela de destino para a consulta.

Para mais informações sobre como calcular o número de bytes processados por uma instrução DML, consulte Cálculo do tamanho da consulta sob demanda.

Limitações

  • Uma instrução DML inicia uma transação implícita. Isso significa que as alterações feitas por ela são confirmadas automaticamente no final de cada instrução bem-sucedida.

  • As linhas gravadas recentemente usando o método de streaming tabledata.insertall não podem ser modificadas com a linguagem de manipulação de dados (DML), como UPDATE, DELETE, MERGE ou TRUNCATE. As gravações recentes são aquelas que ocorreram nos últimos 30 minutos. Todas as outras linhas da tabela podem ser alteradas usando instruções UPDATE, DELETE, MERGE ou TRUNCATE. Os dados transmitidos podem levar até 90 minutos para ficarem disponíveis para operações de cópia.

    Como alternativa, as linhas gravadas recentemente com a API Storage Write podem ser modificadas com as instruções UPDATE, DELETE ou MERGE. Para mais informações, consulte Usar linguagem de manipulação de dados (DML) com dados de streaming recentemente.

  • Subconsultas correlatas em when_clause, search_condition, merge_update_clause ou merge_insert_clause não são compatíveis com instruções MERGE.

  • Consultas que contêm instruções DML não podem usar uma tabela curinga como destino da consulta. Por exemplo, uma tabela curinga pode ser usada na cláusula FROM de uma consulta UPDATE, mas não pode ser usada como destino da operação UPDATE.

Instruções DML

As seções a seguir descrevem os diferentes tipos de instruções DML e como usá-las.

Instrução INSERT

Use a instrução INSERT para adicionar novas linhas a uma tabela. O exemplo a seguir insere novas linhas na tabela dataset.Inventory com valores especificados explicitamente.

INSERT dataset.Inventory (product, quantity)
VALUES('whole milk', 10),
      ('almond milk', 20),
      ('coffee beans', 30),
      ('sugar', 0),
      ('matcha', 20),
      ('oat milk', 30),
      ('chai', 5)

/+-------------------+----------+
 |      product      | quantity |
 +-------------------+----------+
 | almond milk       |       20 |
 | chai              |        5 |
 | coffee beans      |       30 |
 | matcha            |       20 |
 | oat milk          |       30 |
 | sugar             |        0 |
 | whole milk        |       10 |
 +-------------------+----------+/

Para mais informações sobre instruções INSERT, consulte a instrução INSERT.

Instrução DELETE

Use a instrução DELETE para excluir linhas de uma tabela. O exemplo a seguir exclui todas as linhas da tabela dataset.Inventory que têm o valor quantity 0.

DELETE dataset.Inventory
WHERE quantity = 0

/+-------------------+----------+
 |      product      | quantity |
 +-------------------+----------+
 | almond milk       |       20 |
 | chai              |        5 |
 | coffee beans      |       30 |
 | matcha            |       20 |
 | oat milk          |       30 |
 | whole milk        |       10 |
 +-------------------+----------+/

Para excluir todas as linhas de uma tabela, use a instrução TRUNCATE TABLE. Para mais informações sobre instruções DELETE, consulte Instrução DELETE.

Instrução TRUNCATE

Use a instrução TRUNCATE para remover todas as linhas de uma tabela, mas deixando os metadados dela intactos, incluindo esquema, descrição e rótulos. O exemplo a seguir remove todas as linhas da tabela dataset.Inventory.

TRUNCATE dataset.Inventory

Para excluir linhas específicas em uma tabela. Use a instrução DELETE. Para mais informações sobre a instrução TRUNCATE, consulte a instrução TRUNCATE.

Instrução UPDATE

Use a instrução UPDATE para atualizar linhas existentes em uma tabela. A instrução UPDATE também precisa incluir a palavra-chave WHERE para especificar uma condição. O exemplo a seguir reduz o valor quantity das linhas em 10 para produtos que contêm a string milk.

UPDATE dataset.Inventory
SET quantity = quantity - 10,
WHERE product LIKE '%milk%'

/+-------------------+----------+
 |      product      | quantity |
 +-------------------+----------+
 | almond milk       |       10 |
 | chai              |        5 |
 | coffee beans      |       30 |
 | matcha            |       20 |
 | oat milk          |       20 |
 | whole milk        |        0 |
 +-------------------+----------+/

As instruções UPDATE também podem incluir cláusulas FROM para incluir tabelas mescladas. Para mais informações sobre instruções UPDATE, consulte a instrução UPDATE.

Instrução MERGE

A instrução MERGE combina as operações INSERT, UPDATE e DELETE em uma única instrução e realiza as operações de maneira atômica para mesclar dados de uma tabela para outra. Para mais informações e exemplos sobre a instrução MERGE, consulte instrução MERGE.

Jobs simultâneos

O BigQuery gerencia a simultaneidade de instruções DML que adicionam, modificam ou excluem linhas em uma tabela.

Simultaneidade de DML INSERT

Durante qualquer período de 24 horas, as primeiras 1.500 instruções INSERT são executadas imediatamente após o envio. Depois que esse limite é atingido, a simultaneidade de instruções INSERT que gravam em uma tabela é limitada a 10. Outras instruções INSERT são adicionadas a uma fila PENDING. Até 100 instruções INSERT podem ser colocadas em fila em uma tabela a qualquer momento. Quando uma instrução INSERT é concluída, a próxima instrução INSERT é removida da fila e executada.

Se você precisar executar instruções INSERT DML com mais frequência, considere fazer streaming de dados para sua tabela usando a API Storage Write.

Simultaneidade de DML UPDATE, DELETE, MERGE

As instruções DML UPDATE, DELETE e MERGE são chamadas de instruções DML mutantes. Se você enviar uma ou mais instruções DML mutantes em uma tabela enquanto outros jobs DML mutantes nela ainda estiverem em execução (ou pendentes), o BigQuery executará até dois deles simultaneamente. Depois desses, 20 ficarão na fila como PENDING. Quando um job que estava em execução é concluído, o próximo job pendente é retirado da fila e executado. As instruções DML mutantes compartilham uma fila por tabela com comprimento máximo de 20. Outras instruções além do tamanho máximo da fila para cada tabela falham com a mensagem de erro: Resources exceeded during query execution: Too many DML statements outstanding against table PROJECT_ID:DATASET.TABLE, limit is 20.

Os jobs DML de prioridade interativa que são enfileirados por mais de sete horas falham com a seguinte mensagem de erro:

DML statement has been queued for too long

Conflitos de instrução DML

A mutação de instruções DML executadas simultaneamente em uma tabela causa conflitos de instrução DML quando as instruções tentam fazer mutações na mesma partição. As instruções são bem-sucedidas desde que não modifiquem a mesma partição. O BigQuery tenta executar novamente as instruções com falha até três vezes.

  • Uma instrução DML INSERT que insere linhas em uma tabela não entra em conflito com nenhuma outra instrução DML em execução simultânea.

  • Uma instrução DML MERGE não entra em conflito com outras instruções DML em execução simultânea, desde que ela insira apenas linhas e não exclua ou atualize nenhuma linha existente. Isso pode incluir instruções MERGE com cláusulas UPDATE ou DELETE, desde que essas cláusulas não sejam invocadas quando a consulta estiver em execução.

DML refinada

A DML refinada é uma melhoria de performance projetada para otimizar a execução de instruções UPDATE, DELETE e MERGE (também conhecidas como instruções DML mutantes). Sem a DML refinada ativada, as mutações são realizadas no nível do grupo de arquivos, o que pode levar a reescritas de dados ineficientes. A DML refinada apresenta uma abordagem mais granular que visa reduzir a quantidade de dados que precisam ser reescritos e o consumo geral de slots.

Ativar DML refinado

Para ativar o DML refinado, defina a opção de tabela enable_fine_grained_mutations como TRUE ao executar uma instrução DDL CREATE TABLE ou ALTER TABLE.

Para criar uma tabela com DML refinado, use a instrução CREATE TABLE:

CREATE TABLE mydataset.mytable (
  product STRING,
  inventory INT64)
OPTIONS(enable_fine_grained_mutations = TRUE);

Para alterar uma tabela existente com DML refinada, use a instrução ALTER TABLE:

ALTER TABLE mydataset.mytable
SET OPTIONS(enable_fine_grained_mutations = TRUE);

Para alterar todas as tabelas em um conjunto de dados com DML refinada, use a instrução ALTER TABLE:

FOR record IN
 (SELECT CONCAT(table_schema, '.', table_name) AS table_path
 FROM mydataset.INFORMATION_SCHEMA.TABLES)
DO
 EXECUTE IMMEDIATE
   "ALTER TABLE " || record.table_path || " SET OPTIONS(enable_fine_grained_mutations = TRUE)";
END FOR;

Depois que a opção enable_fine_grained_mutations é definida como TRUE, as instruções DML mutantes são executadas com recursos DML refinados ativados e usam a sintaxe de instrução DML existente.

Para desativar a DML refinada em uma tabela, defina enable_fine_grained_mutations como FALSE usando a instrução DDL ALTER TABLE.

Preços

Ativar a DML refinada em uma tabela pode gerar custos de armazenamento do BigQuery adicionais para armazenar os metadados de mutação extras associados às operações de DML refinada. O custo real depende da quantidade de dados modificados, mas, na maioria das situações, ele é insignificante em comparação com o tamanho da tabela.

As operações DML refinadas processam os dados excluídos off-line. Esses jobs de processamento de dados excluídos geram custos de computação do BigQuery adicionais.

É possível usar as reservas do BigQuery para alocar recursos de computação dedicados do BigQuery para esses jobs de processamento de dados excluídos off-line. As reservas permitem que você defina um limite para o custo de executar essas operações. Essa abordagem é útil principalmente para tabelas muito grandes com operações frequentes de DML mutantes refinadas, que de outra forma teriam altos custos sob demanda devido ao grande número de bytes processados ao realizar cada job de processamento de dados excluídos off-line refinado.

Os jobs de tratamento de dados excluídos off-line refinados são considerados jobs em segundo plano e usam o tipo de atribuição BACKGROUND, em vez do tipo de atribuição QUERY. Os projetos que realizam operações de DML refinadas sem um processo de atribuição de BACKGROUND excluíram dados usando preços sob demanda.

Para projetos configurados para usar preços de computação sob demanda, as instruções DML refinadas não reduzem os bytes verificados.

Para encontrar os jobs de processamento de dados excluídos de DML refinada off-line:

SELECT
  *
FROM
  region-us.INFORMATION_SCHEMA.JOBS
WHERE
  job_id LIKE "%fine_grained_mutation_garbage_collection%"

Considerações sobre dados excluídos

Os projetos que realizam operações de DML refinadas usando o preço sob demanda têm regularmente dados excluídos processados usando recursos internos do BigQuery.

Projetos que realizam operações DML refinadas com um processo de atribuição de BACKGROUND excluem dados usando slots e estão sujeitos à disponibilidade de recursos da reserva configurada. Se não houver recursos suficientes disponíveis na reserva configurada, o processamento de dados excluídos poderá levar mais tempo do que o previsto.

Limitações

As tabelas ativadas com DML refinado estão sujeitas às seguintes limitações:

  • Não é possível usar o método tabledata.list para ler conteúdo de uma tabela com DML refinado ativado. Em vez disso, consulte a tabela com uma instrução SELECT para ler os registros dela.
  • Não é possível visualizar uma tabela ativada com DML refinado usando o console do BigQuery.
  • Não é possível copiar uma tabela com o DML refinado ativado depois de executar uma instrução UPDATE, DELETE ou MERGE.
  • Não é possível criar um snapshot de tabela ou um clone de tabela de uma tabela com DML refinado ativado após a execução de uma instrução UPDATE, DELETE ou MERGE.
  • Não é possível ativar a DML refinada em uma tabela em um conjunto de dados replicado, nem replicar um conjunto de dados que contenha uma tabela com a DML refinada ativada.
  • As instruções DML executadas em uma transação de várias instruções não são otimizadas com DML refinado.

Práticas recomendadas

Para ter o melhor desempenho, o Google recomenda os seguintes padrões:

  • Evite enviar um grande número de inserções ou atualizações de linhas individuais. Em vez disso, agrupe as operações DML quando possível. Para mais informações, consulte as instruções DML que atualizam ou inserem linhas individuais.

  • Se atualizações ou exclusões geralmente ocorrerem em dados mais antigos ou em um determinado intervalo de datas, particione suas tabelas. O particionamento garante que as alterações sejam limitadas a partições específicas dentro da tabela.

  • Evite particionar tabelas se a quantidade de dados em cada partição for pequena, e cada atualização modificar uma grande fração das partições.

  • Se você costuma atualizar linhas em que uma ou mais colunas estão em um intervalo de valores restrito, use tabelas em cluster. Isso garante que as alterações sejam limitadas a conjuntos específicos de blocos, reduzindo a quantidade de dados que precisam ser lidos e gravados. Veja a seguir um exemplo de instrução UPDATE que filtra um intervalo de valores de coluna:

    UPDATE mydataset.mytable
    SET string_col = 'some string'
    WHERE id BETWEEN 54 AND 75;

    Veja um exemplo semelhante que filtra uma pequena lista de valores de coluna:

    UPDATE mydataset.mytable
    SET string_col = 'some string'
    WHERE id IN (54, 57, 60);

    Crie um cluster na coluna id nesses casos.

  • Se você precisar da funcionalidade OLTP, use consultas federadas do Cloud SQL, que permitem ao BigQuery consultar dados armazenados no Cloud SQL.

Para ver as práticas recomendadas para otimizar o desempenho da consulta, acesse Introdução à otimização do desempenho da consulta.

A seguir

  • Para informações e amostras de sintaxe do DML, consulte Sintaxe da DML.
  • Para mais informações sobre como usar instruções DML em consultas programadas, acesse Como programar consultas.