Gerenciar preparações de dados

Neste documento, descrevemos como gerenciar o preparo de dados no BigQuery, incluindo a concessão dos papéis necessários do Identity and Access Management (IAM) e o gerenciamento de metadados no Catálogo universal do Dataplex.

As preparações de dados são recursos do BigQuery com tecnologia do Dataform.

Antes de começar

  1. Verifique se você ativou a API Gemini para Google Cloud.
  2. Para gerenciar metadados de preparação de dados no Dataplex Universal Catalog, verifique se a API Dataplex está ativada no projeto Google Cloud .

Funções exigidas

Os usuários que estão preparando os dados e as contas de serviço do Dataform que estão executando os jobs precisam das permissões concedidas pelos seguintes papéis do Identity and Access Management (IAM).

Conceder acesso de usuário para a preparação de dados

Para receber as permissões necessárias para preparar dados no BigQuery, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Para mais informações sobre o IAM para conjuntos de dados no BigQuery, consulte Conceder acesso a um recurso.

Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.

Acessar e gerenciar metadados

Para ter as permissões necessárias para gerenciar metadados de preparação de dados no Dataplex Universal Catalog, verifique se você tem as funções necessárias do Dataplex Universal Catalog e a permissão dataform.repositories.get.

Conceder acesso à conta de serviço do Dataform

Para garantir que a conta de serviço do Dataform tenha as permissões necessárias para executar preparações de dados no BigQuery, peça ao administrador para conceder a ela os seguintes papéis do IAM:

A conta de serviço do Dataform pode exigir outras permissões, dependendo do seu pipeline de preparação de dados. Para mais informações, consulte Conceder o acesso necessário ao Dataform.

Conferir preparações de dados

Para conferir uma lista das preparações de dados atuais, siga estas etapas:

  1. Na página BigQuery, acesse o painel Explorer.
  2. Expanda o projeto.
  3. Abra a lista Preparações de dados.

Otimizar a preparação de dados processando os dados de forma incremental

Para configurar a forma como os dados preparados são gravados em uma tabela de destino, siga estas etapas.

  1. No console Google Cloud , acesse a página BigQuery.

    Acessar o BigQuery

  2. No painel Explorer, selecione sua preparação de dados.

  3. Na barra de ferramentas da preparação de dados, selecione Mais > Modo de gravação.

  4. Selecione uma das opções. Para mais informações, consulte Modo de gravação.

  5. Clique em Salvar.

Ajude a melhorar as sugestões

Compartilhe com o Google os dados de comandos enviados para os recursos no pré-lançamento para melhorar as sugestões do Gemini. Para compartilhar os dados de comandos, siga estas etapas:

  1. Abra o editor de preparação de dados no BigQuery.
  2. Na barra de ferramentas de preparação de dados, clique em Configurações Mais.
  3. Selecione Compartilhe dados para aprimorar o Gemini no BigQuery.

As configurações de compartilhamento de dados pessoais se aplicam a todo o projeto e só podem ser definidas por um administrador com as permissões de IAM serviceusage.services.enable e serviceusage.services.list. Para mais informações sobre o uso de dados no programa Trusted Tester, consulte Gemini para o programa Trusted Tester do Google Cloud .

Versões de preparação de dados

Você pode criar uma preparação de dados dentro ou fora de um repositório. O controle de versões da preparação de dados é processado de maneira diferente dependendo de onde ela está localizada.

Controle de versões da preparação de dados em repositórios

Os repositórios são repositórios Git que residem no BigQuery ou com um provedor terceirizado. É possível usar espaços de trabalho em repositórios para realizar o controle de versão em preparações de dados. Para mais informações, consulte Usar o controle de versões com um arquivo.

Controle de versões da preparação de dados fora dos repositórios

As preparações de dados do BigQuery que não estão em repositórios não oferecem suporte à visualização, comparação ou restauração de versões.

Para conferir uma lista de versões da preparação de dados em ordem cronológica, siga estas etapas:

  1. Na página BigQuery, acesse o painel Explorer.
  2. Selecione a preparação de dados.
  3. Clique em Histórico de versões.

Fazer o download de uma preparação de dados

Para fazer o download de uma preparação de dados em um arquivo YAML, siga estas etapas:

  1. No console Google Cloud , acesse a página BigQuery.

    Acessar o BigQuery

  2. No painel Explorer, expanda seu projeto e a pasta Preparações de dados. Clique no nome da preparação de dados que você quer baixar.

  3. Clique em Fazer download. O preparo de dados é salvo no formato de arquivo YAML. Por exemplo, NAME data preparation.dp.yaml.

Fazer upload de uma preparação de dados

Para fazer upload de uma preparação de dados de um arquivo YAML, siga estas etapas:

  1. No console Google Cloud , acesse a página BigQuery.

    Acessar o BigQuery

  2. No painel Explorer, abra projeto.

  3. Acesse a pasta Preparação de dados e clique em more_vert Menu > Fazer upload para a preparação de dados.

  4. Na caixa de diálogo Fazer upload da preparação de dados, selecione um arquivo para enviar ou insira o URL da preparação de dados.

  5. Insira um nome para a preparação de dados.

  6. Selecione um local de preparação de dados onde os recursos são gerenciados e armazenados.

  7. Clique em Fazer upload.

Gerenciar metadados no Dataplex Universal Catalog

Com o Dataplex Universal Catalog, é possível armazenar e gerenciar metadados para preparações de dados. Por padrão, os preparos de dados estão disponíveis no Dataplex Universal Catalog sem configuração adicional.

Você pode usar o Dataplex Universal Catalog para gerenciar preparações de dados em todos os locais do BigQuery. O gerenciamento de preparações de dados no Dataplex Universal Catalog está sujeito às cotas e limites do Dataplex Universal Catalog e aos preços do Dataplex Universal Catalog.

O Dataplex Universal Catalog recupera automaticamente os seguintes metadados das preparações de dados:

  • Nome do recurso de dados
  • Recurso de dados principal
  • Local do recurso de dados
  • Tipo de recurso de dados
  • Projeto Google Cloud correspondente

O Dataplex Universal Catalog registra as preparações de dados como entradas com os seguintes valores:

Grupo de entradas do sistema
O grupo de entrada do sistema para preparações de dados é @dataform. Para conferir detalhes das entradas de preparação de dados no Dataplex Universal Catalog, é preciso acessar o grupo de entradas do sistema dataform. Para instruções sobre como ver uma lista de todas as entradas em um grupo de entrada, consulte Ver detalhes de um grupo de entrada na documentação do Dataplex Universal Catalog.
Tipo de entrada do sistema
O tipo de entrada do sistema para preparações de dados é dataform-code-asset. Para conferir detalhes das preparações de dados, é necessário acessar o tipo de entrada do sistema dataform-code-asset, filtrar os resultados com um filtro baseado em aspectos e definir o campo type no aspecto dataform-code-asset como DATA_PREPARATION. Em seguida, selecione uma entrada da preparação de dados escolhida. Para instruções sobre como ver detalhes de um tipo de entrada selecionado, consulte Ver detalhes de um tipo de entrada na documentação do Dataplex Universal Catalog. Para instruções sobre como ver os detalhes de uma entrada selecionada, consulte Ver detalhes de uma entrada na documentação do Dataplex Universal Catalog.
Tipo de aspecto do sistema
O tipo de aspecto do sistema para preparações de dados é dataform-code-asset. Para fornecer mais contexto às preparações de dados no Dataplex Universal Catalog anotando entradas de preparação de dados com aspectos, veja o tipo de aspecto dataform-code-asset, filtre os resultados com um filtro baseado em aspecto e defina o campo type no aspecto dataform-code-asset como DATA_PREPARATION. Para instruções sobre como anotar entradas com aspectos, consulte Gerenciar aspectos e enriquecer metadados na documentação do Dataplex Universal Catalog.
Tipo
O tipo de telas de dados é DATA_PREPARATION. Com esse tipo, é possível filtrar preparações de dados no tipo de entrada do sistema dataform-code-asset e no tipo de aspecto dataform-code-asset usando a consulta aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION em um filtro baseado em aspectos.

Para instruções sobre como pesquisar recursos, consulte Pesquisar recursos de dados no Dataplex Universal Catalog na documentação do Dataplex Universal Catalog.

A seguir