Gerenciar preparações de dados
Neste documento, descrevemos como gerenciar o preparo de dados no BigQuery, incluindo a concessão dos papéis de gerenciamento de identidade e acesso (IAM) necessários e o gerenciamento de metadados no Dataplex.
As preparações de dados são recursos do BigQuery com tecnologia do Dataform.
Antes de começar
- Verifique se você ativou a API Gemini para Google Cloud.
- Para gerenciar metadados de preparação de dados no Dataplex, verifique se a API Dataplex está ativada no seu projeto do Google Cloud.
Funções exigidas
Os usuários que estão preparando os dados e as contas de serviço do Dataform que estão executando os jobs precisam das permissões concedidas pelos seguintes papéis do Identity and Access Management (IAM).
Conseguir acesso de usuário para a preparação de dados
Para receber as permissões necessárias para preparar dados no BigQuery, peça ao administrador para conceder a você os seguintes papéis do IAM:
-
Usuário do BigQuery Studio (
roles/bigquery.studioUser
) no projeto -
Usuário do Gemini para Google Cloud (
roles/cloudaicompanion.user
) no projeto -
Acesse as tabelas de origem:
Leitor de dados do BigQuery (
roles/bigquery.dataViewer
) na tabela, no conjunto de dados ou no projeto
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Para mais informações sobre o IAM para conjuntos de dados no BigQuery, consulte Conceder acesso a um recurso.Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.
Ter acesso para gerenciar metadados
Para receber as permissões necessárias para gerenciar metadados de preparação de dados no catálogo universal do BigQuery ou no Dataplex, verifique se você tem as funções do Dataplex necessárias e a permissão dataform.repositories.get
.
Conceder acesso à conta de serviço do Dataform
Para garantir que a conta de serviço do Dataform tenha as permissões necessárias para executar preparações de dados no BigQuery, peça ao administrador para conceder à conta de serviço do Dataform os seguintes papéis do IAM:
-
Acesse as tabelas de origem:
Leitor de dados do BigQuery (
roles/bigquery.dataViewer
) na tabela, no conjunto de dados ou no projeto -
Acesse as tabelas de destino:
Editor de dados do BigQuery (
roles/bigquery.dataEditor
) na tabela, no conjunto de dados ou no projeto
A conta de serviço do Dataform pode exigir permissões adicionais, dependendo do pipeline de preparo de dados. Para mais informações, consulte Conceder acesso obrigatório ao Dataform.
Conferir as preparações de dados atuais
Para conferir uma lista de preparações de dados existentes, siga estas etapas:
- Na página do BigQuery, acesse o painel Explorer.
- Expanda seu projeto.
- Abra a lista Preparações de dados.
Processar dados de forma incremental para otimizar a preparação de dados
Para configurar a forma como os dados preparados são gravados em uma tabela de destino, siga estas etapas.
No Console do Google Cloud, acesse a página BigQuery.
No painel Explorer, selecione a preparação de dados.
Na barra de ferramentas do preparo de dados, selecione Mais > Modo de gravação.
Selecione uma das opções. Para mais informações, consulte Modo de gravação.
Clique em Salvar.
Ajude a melhorar as sugestões
Você pode ajudar a melhorar as sugestões do Gemini compartilhando com o Google os dados de comando enviados para os recursos na visualização. Para compartilhar seus dados de comandos, siga estas etapas:
- Abra o editor de preparação de dados no BigQuery.
- Na barra de ferramentas de preparação de dados, clique em Configurações Mais.
- Selecione Compartilhar dados para aprimorar o Gemini no BigQuery.
As configurações de compartilhamento de dados se aplicam a todo o projeto e só podem ser definidas por um administrador com as permissões de IAM serviceusage.services.enable
e serviceusage.services.list
. Para mais
informações sobre o uso de dados no programa Trusted Tester, consulte
Gemini para o programa Trusted Tester do Google Cloud .
Versões de preparação de dados
Você pode criar uma preparação de dados dentro ou fora de um repositório. O controle de versão da preparação de dados é processado de maneira diferente com base no local onde ele está.
Controle de versões de preparação de dados em repositórios
Os repositórios são repositórios do Git que residem no BigQuery ou com um provedor de terceiros. É possível usar espaços de trabalho em repositórios para realizar o controle de versão na preparação de dados. Para mais informações, consulte Usar o controle de versões com um arquivo.
Controle de versão de preparação de dados fora dos repositórios
As preparações de dados do BigQuery que não estão em repositórios não têm suporte para visualizar, comparar ou restaurar versões de preparação de dados.
Para conferir uma lista de versões de preparação de dados em ordem cronológica, siga estas etapas:
- Na página do BigQuery, acesse o painel Explorer.
- Selecione a preparação dos dados.
- Clique em Histórico de versões.
Fazer o download de uma preparação de dados
Para fazer o download de uma preparação de dados em um arquivo YAML, siga estas etapas:
No Console do Google Cloud, acesse a página BigQuery.
No painel Explorer, abra o projeto e a pasta Preparação de dados. Clique no nome da preparação de dados que você quer fazer o download.
Clique em Fazer download. O preparo de dados é salvo no formato de arquivo YAML, por exemplo,
NAME data preparation.dp.yaml
.
Fazer upload de uma preparação de dados
Para fazer upload de uma preparação de dados de um arquivo YAML, siga estas etapas:
No Console do Google Cloud, acesse a página BigQuery.
No painel Explorer, abra projeto.
Acesse a pasta Preparação de dados e clique em more_vert Menu > Fazer upload para a preparação de dados.
Na caixa de diálogo Upload de preparação de dados, selecione um arquivo para fazer upload ou insira o URL da preparação de dados.
Insira um nome para a preparação de dados.
Selecione um local de preparação de dados onde os recursos são gerenciados e armazenados.
Clique em Fazer upload.
Gerenciar metadados no Dataplex
Com o Dataplex, você pode armazenar e gerenciar metadados para preparações de dados. As preparações de dados estão disponíveis no Dataplex por padrão, sem configuração extra.
Use o Dataplex para gerenciar a preparação de dados em todos os locais do BigQuery. O gerenciamento de preparações de dados no Dataplex está sujeito às cotas e limites do Dataplex e aos preços do Dataplex.
O Dataplex recupera automaticamente os seguintes metadados dos preparativos de dados:
- Nome do recurso de dados
- Pai do recurso de dados
- Local do recurso de dados
- Tipo de recurso de dados
- Projeto correspondente do Google Cloud
O Dataplex registra as preparações de dados como entradas com os seguintes valores de entrada:
- Grupo de entrada do sistema
- O grupo de entrada do sistema
para preparações de dados é
@dataform
. Para conferir detalhes das entradas de preparação de dados no Dataplex, é necessário acessar o grupo de entrada do sistemadataform
. Para conferir instruções sobre como consultar uma lista de todas as entradas em um grupo, consulte Consultar detalhes de um grupo de entrada na documentação do Dataplex. - Tipo de entrada do sistema
- O tipo de entrada do sistema
para preparações de dados é
dataform-code-asset
. Para conferir detalhes das preparações de dados, você precisa acessar o tipo de entrada do sistemadataform-code-asset
, filtrar os resultados com um filtro baseado em aspectos e definir o campotype
dentro do aspectodataform-code-asset
comoDATA_PREPARATION
. Em seguida, selecione uma entrada da preparação de dados escolhida. Para instruções sobre como conferir os detalhes de um tipo de entrada selecionado, consulte Conferir os detalhes de um tipo de entrada na documentação do Dataplex. Para instruções sobre como conferir os detalhes de uma entrada selecionada, consulte Conferir os detalhes de uma entrada na documentação do Dataplex. - Tipo de aspecto do sistema
- O tipo de aspecto do sistema
para preparações de dados é
dataform-code-asset
. Para fornecer mais contexto às preparações de dados no Dataplex anexando anotações às entradas de preparação de dados com aspectos, confira o tipo de aspectodataform-code-asset
, filtre os resultados com um filtro baseado em aspectos e defina o campotype
dentro do aspectodataform-code-asset
comoDATA_PREPARATION
. Para instruções sobre como anotar entradas com aspectos, consulte Gerenciar aspectos e enriquecer metadados na documentação do Dataplex. - Tipo
- O tipo de telas de dados é
DATA_PREPARATION
. Esse tipo permite filtrar preparações de dados no tipo de entrada do sistemadataform-code-asset
e no tipo de aspectodataform-code-asset
usando a consultaaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
em um filtro baseado em aspectos.
Para instruções sobre como pesquisar recursos no Dataplex, consulte Pesquisar recursos de dados no Dataplex na documentação do Dataplex.
A seguir
- Saiba mais sobre como preparar dados no BigQuery.
- Saiba como executar preparações de dados manualmente ou com uma programação.
- Saiba como criar preparações de dados.