Este tópico descreve como criar e recriar dicionários personalizados grandes. Ele também abrange vários cenários de erro.
Quando escolher um dicionário personalizado grande em vez de um regular
Os detectores de dicionários personalizados regulares são suficientes quando você tem dezenas de milhares de palavras ou frases sensíveis que quer verificar no conteúdo. Se você tiver mais ou se sua lista de termos mudar com frequência, crie um dicionário personalizado grande, que pode aceitar dezenas de milhões de termos.
Como os dicionários personalizados grandes são diferentes de outros infoTypes personalizados
Os dicionários personalizados grandes são diferentes de outros infoTypes personalizados porque cada um deles tem dois componentes:
- Uma lista de frases que você cria e define. Essa lista é armazenada como um arquivo de texto no Cloud Storage ou como uma coluna em uma tabela do BigQuery.
- Os arquivos de dicionário, que a Proteção de Dados Sensíveis gera e armazena no Cloud Storage. Os arquivos de dicionário são compostos por uma cópia da sua lista de termos e filtros de Bloom, que ajudam na pesquisa e na correspondência.
Criar um dicionário personalizado grande
Esta seção descreve como criar, editar e recriar um dicionário personalizado grande.
Criar uma lista de termos
Crie uma lista com todas as palavras e frases que você quer que o novo detector de infoType procure. Escolha uma destas opções:
- Insira um arquivo de texto com cada palavra ou frase em sua própria linha em um bucket do Cloud Storage.
- Atribua uma coluna de uma tabela do BigQuery como o contêiner das palavras e frases. Mantenha uma entrada por linha na coluna. É possível usar uma tabela do BigQuery, desde que todas as palavras e frases do dicionário estejam em uma única coluna.
É possível montar uma lista de termos muito grande para a Proteção de Dados Sensíveis processar. Se você receber uma mensagem de erro, consulte Como solucionar erros mais adiante neste tópico.
Criar um infoType armazenado
Depois de criar sua lista de termos, use a Proteção de dados sensíveis para criar um dicionário:
Console
Em um bucket do Cloud Storage, crie uma pasta em que a proteção de dados sensíveis vai armazenar o dicionário gerado.
A Proteção de dados sensíveis cria pastas com os arquivos de dicionário no local especificado.
No console Google Cloud , acesse a página Criar infoType.
Em Tipo, selecione Dicionário personalizado grande.
Em ID do infoType, insira um identificador para o infoType armazenado.
Você vai usar esse identificador ao configurar os jobs de inspeção e desidentificação. É possível usar letras, números, hifens e sublinhados no nome.
Em Nome de exibição do InfoType, insira um nome para o infoType armazenado.
É possível usar espaços e pontuação no nome.
Em Descrição, insira uma descrição do que o infoType armazenado detecta.
Em Tipo de armazenamento, selecione o local da sua lista de termos:
- BigQuery: insira o ID do projeto, do conjunto de dados e da tabela. No campo Nome, insira o identificador da coluna. É possível designar, no máximo, uma coluna da tabela.
- Google Cloud Storage: insira o caminho para o arquivo.
Em Bucket ou pasta de saída, insira o local do Cloud Storage da pasta criada na etapa 1.
Clique em Criar.
Um resumo do infoType armazenado aparece. Quando o dicionário é gerado e o novo infoType armazenado está pronto para uso, o status do infoType mostra Pronto.
C#
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Go
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
PHP
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
REST
- Crie uma nova pasta para o dicionário em um bucket do Cloud Storage. A Proteção de dados sensíveis cria pastas com os arquivos de dicionário no local especificado.
- Crie o dicionário usando o método
storedInfoTypes.create
. O métodocreate
utiliza os seguintes parâmetros:- Um objeto
StoredInfoTypeConfig
, que contém a configuração do infoType armazenado. Ele inclui:description
: uma descrição do dicionário.displayName
: o nome que você quer dar ao dicionário.LargeCustomDictionaryConfig
: contém a configuração do dicionário personalizado grande. Ele inclui:BigQueryField
: especificado se a lista de termos estiver armazenada no BigQuery. Inclui uma referência à tabela em que sua lista está armazenada, além do campo que contém cada frase do dicionário.CloudStorageFileSet
: especificado se a lista de termos estiver armazenada no Cloud Storage. Inclui o URL ao local de origem no Cloud Storage, no seguinte formato:"gs://[PATH_TO_GS]"
. Não há suporte para caracteres curinga.outputPath
: o caminho para o local em um bucket do Cloud Storage para armazenar o dicionário criado.
storedInfoTypeId
: o identificador do infoType armazenado. Você usa esse identificador para se referir ao infoType armazenado ao reconstruí-lo, excluí-lo ou usá-lo em um job de inspeção ou desidentificação. Se deixar esse campo em branco, o sistema gerará um identificador para você.
- Um objeto
Veja a seguir o JSON de exemplo que, quando é enviado para o método storedInfoTypes.create
, cria um novo infoType armazenado, especificamente um detector de dicionário personalizado grande. Este exemplo cria um infoType armazenado com base em uma lista de termos armazenada em um banco de dados público do BigQuery (bigquery-public-data.samples.github_nested
). O banco de dados contém todos os nomes de usuário do GitHub usados em commits. O caminho de saída do dicionário gerado é definido como um bucket do Cloud Storage chamado dlptesting
, e o infoType armazenado é chamado de github-usernames
.
Entrada JSON
POST https://dlp.googleapis.com/v2/projects/PROJECT_ID/storedInfoTypes
{
"config":{
"displayName":"GitHub usernames",
"description":"Dictionary of GitHub usernames used in commits",
"largeCustomDictionary":{
"outputPath":{
"path":"gs://[PATH_TO_GS]"
},
"bigQueryField":{
"table":{
"datasetId":"samples",
"projectId":"bigquery-public-data",
"tableId":"github_nested"
}
}
}
},
"storedInfoTypeId":"github-usernames"
}
Recriar o dicionário
Se quiser atualizar o dicionário, primeiro atualize a lista de termos de origem e instrua a Proteção de dados sensíveis a recriar o infoType armazenado.
Atualize a lista atual de termos de origem no Cloud Storage ou no BigQuery.
Adicione, remova ou altere os termos ou frases conforme necessário.
"Recrie" uma nova versão do infoType armazenado usando o console Google Cloud ou o método
storedInfoTypes.patch
.A recriação cria uma nova versão do dicionário, que substitui a antiga.
Quando você recria um infoType armazenado para uma nova versão, a versão antiga é excluída. Enquanto a Proteção de dados sensíveis atualiza o infoType armazenado, o status dele é "pendente". Durante esse período, a versão antiga do infoType armazenado ainda existe. Todas as verificações que forem executadas enquanto o infoType armazenado estiver pendente serão feitas usando a versão antiga dele.
Para recriar o infoType armazenado:
Console
- Atualize e salve sua lista de termos no Cloud Storage ou no BigQuery.
No console Google Cloud , acesse sua lista de infoTypes armazenados.
Clique no ID do infoType armazenado que você quer atualizar.
Na página Detalhes do infoType, clique em Reconstruir dados.
A proteção de dados sensíveis recria o infoType armazenado com as mudanças feitas na lista de termos de origem. Depois que o status do infoType armazenado estiver "Pronto", você poderá usá-lo. Todos os modelos ou gatilhos de jobs que usam o infoType armazenado vão usar automaticamente a versão reconstruída.
C#
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Go
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
PHP
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
REST
Atualizar a lista de termos
Se você estiver atualizando apenas a lista de termos no grande dicionário personalizado, a solicitação
storedInfoTypes.patch
exigirá apenas o campo name
. Forneça o nome completo do recurso do
infoType armazenado que você quer recriar.
Os seguintes padrões representam entradas válidas para o campo name
:
organizations/ORGANIZATION_ID/storedInfoTypes/STORED_INFOTYPE_ID
projects/PROJECT_ID/storedInfoTypes/STORED_INFOTYPE_ID
Substitua STORED_INFOTYPE_ID pelo identificador do infoType armazenado que você quer recriar.
Se você não souber o identificador do infoType armazenado, chame o método
storedInfoTypes.list
para ver uma lista de todos os infoTypes armazenados no momento.
Exemplo
PATCH https://dlp.googleapis.com/v2/projects/PROJECT_ID/storedInfoTypes/STORED_INFOTYPE_ID
Nesse caso, um corpo de solicitação não é necessário.
Trocar a lista de termos de origem
É possível mudar a lista de termos de origem de um infoType armazenado
de um armazenado no BigQuery para um armazenado no
Cloud Storage. Use o método
storedInfoTypes.patch
, mas inclua um
objeto CloudStorageFileSet
em
LargeCustomDictionaryConfig
onde você usou um
objeto BigQueryField
antes. Em seguida, defina o parâmetro updateMask
como o infoType armazenado que você reconstruiu, no formato FieldMask
. Por exemplo, o JSON a seguir declara no parâmetro updateMask
que o URL do caminho do Cloud Storage foi atualizado
(large_custom_dictionary.cloud_storage_file_set.url
):
Exemplo
PATCH https://dlp.googleapis.com/v2/projects/PROJECT_ID/storedInfoTypes/github-usernames
{
"config":{
"largeCustomDictionary":{
"cloudStorageFileSet":{
"url":"gs://[BUCKET_NAME]/[PATH_TO_FILE]"
}
}
},
"updateMask":"large_custom_dictionary.cloud_storage_file_set.url"
}
Da mesma forma, é possível mudar sua lista de termos de uma tabela do BigQuery para um bucket do Cloud Storage.
Verificar conteúdo usando um detector de dicionário personalizado grande
A verificação de conteúdo com um detector de dicionário personalizado grande é semelhante à verificação usando qualquer outro detector de infoType personalizado.
Este procedimento pressupõe que você já tenha um infoType armazenado. Para mais informações, consulte Criar um infoType armazenado nesta página.
Console
É possível aplicar um detector de dicionário personalizado grande ao fazer o seguinte:
- Como criar um novo job
- Criar ou editar um gatilho de job
- Criar ou editar um modelo
- Configurar a criação de perfil de dados
Na seção Configurar detecção da página, na subseção InfoTypes, é possível especificar o infoType do dicionário personalizado grande.
- Clique em Gerenciar infoTypes.
- No painel InfoTypes, clique na guia Personalizar.
- Clique em Adicionar infoType personalizado.
No painel Adicionar infoType personalizado, faça o seguinte:
- Em Tipo, selecione InfoType armazenado.
- Em InfoType, insira um nome para o infoType personalizado. É possível usar letras, números e sublinhados.
Em Probabilidade, selecione o nível padrão que você quer atribuir a todas as descobertas que correspondem a esse infoType personalizado. É possível ajustar ainda mais o nível de probabilidade de descobertas individuais usando regras de hotword.
Se você não especificar um valor padrão, o nível de probabilidade padrão será definido como
VERY_LIKELY
. Para mais informações, consulte Probabilidade de correspondência.Em Sensibilidade, selecione o nível que você quer atribuir a todas as descobertas que correspondem a esse infoType personalizado. Se você não especificar um valor, os níveis de sensibilidade dessas descobertas serão definidos como
HIGH
.As pontuações de sensibilidade são usadas em perfis de dados. Ao criar perfis dos seus dados, a Proteção de dados sensíveis usa as pontuações de sensibilidade dos infoTypes para calcular o nível de sensibilidade.
Em Nome do infoType armazenado, selecione o infoType armazenado que você quer usar como base para o novo infoType personalizado.
Clique em Concluído para fechar o painel Adicionar infoType personalizado.
Opcional: na guia Integrado, edite sua seleção de infoTypes integrados.
Clique em Concluído para fechar o painel InfoTypes.
O infoType personalizado é adicionado à lista de infoTypes que a Proteção de dados sensíveis verifica. No entanto, essa seleção não é final até que você salve o job, o acionador de jobs, o modelo ou a configuração de verificação.
Quando terminar de criar ou editar a configuração, clique em Salvar.
C#
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Go
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
PHP
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca de cliente da Proteção de dados sensíveis, consulte Bibliotecas de cliente da Proteção de dados sensíveis.
Para autenticar na Proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
REST
Quando enviado ao método
content.inspect
, o exemplo a seguir verifica o texto fornecido usando o detector de
infoType armazenado especificado. O parâmetro infoType
é obrigatório porque todos os infoTypes personalizados precisam ter um nome que não seja conflitante com infoTypes incorporados ou outros infoTypes personalizados. O parâmetro storedType
contém o caminho completo do recurso do infoType armazenado.
Entrada JSON
POST https://dlp.googleapis.com/v2/projects/PROJECT_ID/content:inspect
{
"inspectConfig":{
"customInfoTypes":[
{
"infoType":{
"name":"GITHUB_LOGINS"
},
"storedType":{
"name":"projects/PROJECT_ID/storedInfoTypes/github-logins"
}
}
]
},
"item":{
"value":"The commit was made by githubuser."
}
}
Solucionar erros
Se você receber um erro ao tentar criar um infoType armazenado com base em uma lista de termos armazenada no Cloud Storage, estas são algumas causas possíveis:
- Você atingiu um limite máximo para infoTypes armazenados. Dependendo do problema, há várias soluções alternativas:
- Se você atingir o limite máximo de um único arquivo de entrada no Cloud Storage (200 MB), tente dividir o arquivo em vários. É possível usar vários arquivos para montar um único dicionário personalizado, desde que o tamanho combinado de todos os arquivos não exceda 1 GB.
- O BigQuery não tem os mesmos limites que o Cloud Storage. Pense na possibilidade de mover os termos para uma tabela do BigQuery. O tamanho máximo de uma coluna de dicionário personalizado no BigQuery é de 1 GB, e o número máximo de linhas é de 5 milhões.
- Se o arquivo de lista de termos exceder todos os limites aplicáveis para listas de termos de origem, divida o arquivo em vários e crie um dicionário para cada um. Em seguida, crie um job de verificação separado para cada dicionário.
- Falta pelo menos uma letra ou um número em um ou mais dos termos. A Proteção de Dados Sensíveis não pode procurar termos que sejam compostos exclusivamente por espaços ou símbolos. Eles precisam ter pelo menos uma letra ou um número. Analise sua lista e veja se há alguns desses termos incluídos e, em seguida, corrija-os ou exclua-os.
- A lista de termos contém uma frase com muitos "componentes". Um componente, neste contexto, é uma sequência contínua composta apenas de letras, de números ou de caracteres que não são letras nem números, como espaços ou símbolos. Analise sua lista e veja se há alguns desses termos incluídos e, em seguida, corrija-os ou exclua-os.
- O agente de serviço da Proteção de Dados Sensíveis não tem acesso aos dados de origem do dicionário ou ao bucket do Cloud Storage para armazenar arquivos de dicionário. Para corrigir esse problema, conceda ao agente de serviço da Proteção de dados sensíveis o papel de administrador do Storage (
roles/storage.admin
) ou os papéis de proprietário de dados do BigQuery (roles/bigquery.dataOwner
) e usuário de jobs do BigQuery (roles/bigquery.jobUser
).
Visão geral da API
É necessário criar um infoType armazenado se você estiver criando um detector de dicionário personalizado grande.
Um infoType armazenado é representado na proteção de dados sensíveis pelo objeto StoredInfoType
. Ela consiste nos seguintes objetos relacionados:
StoredInfoTypeVersion
inclui a data e a hora de criação e as últimas cinco mensagens de erro que ocorreram quando a versão atual foi criada.StoredInfoTypeConfig
contém a configuração do infoType armazenado, incluindo nome e descrição. Para um dicionário personalizado grande, otype
precisa ser umLargeCustomDictionaryConfig
.LargeCustomDictionaryConfig
especifica estas opções:- o local no Cloud Storage ou no BigQuery em que sua lista de frases está armazenada;
- o local no Cloud Storage para armazenar os arquivos de dicionários gerados.
StoredInfoTypeState
contém o estado da versão mais atual e quaisquer versões pendentes do infoType armazenado. As informações de estado avisam se o infoType armazenado está sendo recriado, está pronto para uso ou é inválido.
Especificações de correspondência de dicionário
Veja a seguir orientações sobre como a Proteção de dados sensíveis combina palavras e frases do dicionário. As observações abaixo se aplicam a dicionários personalizados tanto grandes quanto regulares:
- As palavras do dicionário são indiferentes a maiúsculas. Se o dicionário incluir
Abby
, ele corresponderá aabby
,ABBY
,Abby
e assim por diante. - Todos os caracteres, tanto nos dicionários quanto no conteúdo que será verificado, diferentes de letras, dígitos e outros caracteres alfabéticos contidos no Plano Multilíngue Básico Unicode são considerados espaços em branco durante a verificação de correspondências. Se o dicionário procurar
por
Abby Abernathy
, ele corresponderá aabby abernathy
,Abby, Abernathy
,Abby (ABERNATHY)
e assim por diante. - Os caracteres ao redor das correspondências precisam ser de um tipo diferente (letras ou dígitos) dos caracteres adjacentes da palavra. Se o dicionário procurar
Abi
, ele corresponderá aos três primeiros caracteres deAbi904
, mas não deAbigail
. - As palavras do dicionário que contêm caracteres no Plano Multilíngue Suplementar do padrão Unicode podem gerar descobertas inesperadas. Exemplos desses caracteres são emojis, símbolos científicos e escritas históricas.
Letras, dígitos e outros caracteres alfabéticos são definidos da seguinte maneira:
- Letras: caracteres com categorias gerais
Lu
,Ll
,Lt
,Lm
ouLo
na especificação Unicode - Dígitos: caracteres com categoria geral
Nd
na especificação Unicode - Outros caracteres alfabéticos: caracteres com categoria geral
Nl
na especificação Unicode ou com propriedade contributivaOther_Alphabetic
, conforme definido pelo padrão Unicode
Use os métodos a seguir para editar ou excluir um infoType armazenado:
storedInfoTypes.create
: cria um novo infoType armazenado, conforme oStoredInfoTypeConfig
especificado.storedInfoTypes.patch
: recria o infoType armazenado com um novoStoredInfoTypeConfig
especificado. Se nenhum for especificado, esse método vai criar uma nova versão do infoType armazenado com oStoredInfoTypeConfig
atual.storedInfoTypes.get
: recupera oStoredInfoTypeConfig
e todas as versões pendentes do infoType armazenado especificado.storedInfoTypes.list
: lista todos os infoTypes armazenados no momento.storedInfoTypes.delete
: exclui o infoType armazenado especificado.