Entender texto com a função ML.UNDERSTAND_TEXT

Neste documento, descrevemos como usar a função ML.UNDERSTAND_TEXT com um modelo remoto para executar uma função de análise de texto de linguagem natural em texto de uma tabela padrão do BigQuery.

Para informações sobre inferência de modelo no BigQuery ML, consulte Visão geral de inferência de modelo.

Para informações sobre os tipos de modelo compatíveis de cada instrução e função do SQL, além de todas as instruções e funções do SQL compatíveis com cada tipo de modelo, leia Jornada do usuário completa para cada modelo.

Permissões necessárias

  • Para criar uma conexão, você precisa da associação no seguinte papel:

    • roles/bigquery.connectionAdmin
  • Para conceder permissões à conta de serviço da conexão, você precisa da seguinte permissão:

    • resourcemanager.projects.setIamPolicy
  • Para criar o modelo usando o BigQuery ML, você precisa das seguintes permissões:

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
    • bigquery.models.updateMetadata
  • Para executar a inferência, você precisa das seguintes permissões:

    • bigquery.tables.getData na tabela
    • bigquery.models.getData no modelo
    • bigquery.jobs.create

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery, BigQuery Connection API, and Cloud Natural Language API APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery, BigQuery Connection API, and Cloud Natural Language API APIs.

    Enable the APIs

  8. crie um conjunto de dados

    Crie um conjunto de dados do BigQuery para conter seus recursos:

    Console

    1. No console Google Cloud , acesse a página BigQuery.

      Acessar a página do BigQuery

    2. No painel Explorer, clique no nome do seu projeto.

    3. Clique em Conferir ações > Criar conjunto de dados.

    4. Na página Criar conjunto de dados, faça o seguinte:

      • Em ID do conjunto de dados, digite um nome para o conjunto de dados.

      • Em Tipo de local, selecione um local para o conjunto de dados.

      • Clique em Criar conjunto de dados.

    bq

    1. Para criar um conjunto de dados, use o comando bq mk com a flag --location:

      bq --location=LOCATION mk -d DATASET_ID

      Substitua:

      • LOCATION: o local do conjunto de dados.
      • DATASET_ID é o ID do conjunto de dados que você está criando.
    2. Confirme se o conjunto de dados foi criado:

      bq ls

    Crie uma conexão

    Pule esta etapa se você tiver uma conexão padrão configurada ou a função de administrador do BigQuery.

    Crie uma Conexão de recursos do Cloud para o modelo remoto usar e tenha acesso à conta de serviço da conexão. Crie a conexão no mesmo local do conjunto de dados criado na etapa anterior.

    Selecione uma das seguintes opções:

    Console

    1. Acessar a página do BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, clique em Adicionar dados:

      O elemento da interface "Adicionar dados".

      A caixa de diálogo Adicionar dados é aberta.

    3. No painel Filtrar por, na seção Tipo de fonte de dados, selecione Aplicativos comerciais.

      Como alternativa, no campo Pesquisar fontes de dados, insira Vertex AI.

    4. Na seção Fontes de dados em destaque, clique em Vertex AI.

    5. Clique no card da solução Modelos da Vertex AI: federação do BigQuery.

    6. Na lista Tipo de conexão, selecione Modelos remotos da Vertex AI, funções remotas e BigLake (recurso do Cloud).

    7. No campo ID da conexão, insira um nome para a conexão.

    8. Clique em Criar conexão.

    9. Clique em Ir para conexão.

    10. No painel Informações da conexão, copie o ID da conta de serviço para uso em uma etapa posterior.

    bq

    1. Em um ambiente de linha de comando, crie uma conexão:

      bq mk --connection --location=REGION --project_id=PROJECT_ID \
          --connection_type=CLOUD_RESOURCE CONNECTION_ID

      O parâmetro --project_id substitui o projeto padrão.

      Substitua:

      • REGION: sua região de conexão
      • PROJECT_ID: o ID do Google Cloud projeto
      • CONNECTION_ID: um ID para sua conexão

      Quando você cria um recurso de conexão, o BigQuery cria uma conta de serviço do sistema exclusiva e a associa à conexão.

      Solução de problemas: se você receber o seguinte erro de conexão, atualize o SDK Google Cloud:

      Flags parsing error: flag --connection_type=CLOUD_RESOURCE: value should be one of...
      
    2. Recupere e copie o ID da conta de serviço para uso em uma etapa posterior:

      bq show --connection PROJECT_ID.REGION.CONNECTION_ID

      O resultado será assim:

      name                          properties
      1234.REGION.CONNECTION_ID     {"serviceAccountId": "connection-1234-9u56h9@gcp-sa-bigquery-condel.iam.gserviceaccount.com"}
      

    Terraform

    Use o recurso google_bigquery_connection.

    Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

    O exemplo a seguir cria uma conexão de recurso do Google Cloud chamada my_cloud_resource_connection na região US:

    
    # This queries the provider for project information.
    data "google_project" "default" {}
    
    # This creates a cloud resource connection in the US region named my_cloud_resource_connection.
    # Note: The cloud resource nested object has only one output field - serviceAccountId.
    resource "google_bigquery_connection" "default" {
      connection_id = "my_cloud_resource_connection"
      project       = data.google_project.default.project_id
      location      = "US"
      cloud_resource {}
    }

    Para aplicar a configuração do Terraform em um projeto Google Cloud , siga as etapas nas seções a seguir.

    Preparar o Cloud Shell

    1. Inicie o Cloud Shell.
    2. Defina o projeto Google Cloud padrão em que você quer aplicar as configurações do Terraform.

      Você só precisa executar esse comando uma vez por projeto, e ele pode ser executado em qualquer diretório.

      export GOOGLE_CLOUD_PROJECT=PROJECT_ID

      As variáveis de ambiente serão substituídas se você definir valores explícitos no arquivo de configuração do Terraform.

    Preparar o diretório

    Cada arquivo de configuração do Terraform precisa ter o próprio diretório, também chamado de módulo raiz.

    1. No Cloud Shell, crie um diretório e um novo arquivo dentro dele. O nome do arquivo precisa ter a extensão .tf, por exemplo, main.tf. Neste tutorial, o arquivo é chamado de main.tf.
      mkdir DIRECTORY && cd DIRECTORY && touch main.tf
    2. Se você estiver seguindo um tutorial, poderá copiar o exemplo de código em cada seção ou etapa.

      Copie o exemplo de código no main.tf recém-criado.

      Se preferir, copie o código do GitHub. Isso é recomendado quando o snippet do Terraform faz parte de uma solução de ponta a ponta.

    3. Revise e modifique os parâmetros de amostra para aplicar ao seu ambiente.
    4. Salve as alterações.
    5. Inicialize o Terraform. Você só precisa fazer isso uma vez por diretório.
      terraform init

      Opcionalmente, para usar a versão mais recente do provedor do Google, inclua a opção -upgrade:

      terraform init -upgrade

    Aplique as alterações

    1. Revise a configuração e verifique se os recursos que o Terraform vai criar ou atualizar correspondem às suas expectativas:
      terraform plan

      Faça as correções necessárias na configuração.

    2. Para aplicar a configuração do Terraform, execute o comando a seguir e digite yes no prompt:
      terraform apply

      Aguarde até que o Terraform exiba a mensagem "Apply complete!".

    3. Abra seu Google Cloud projeto para ver os resultados. No console Google Cloud , navegue até seus recursos na UI para verificar se foram criados ou atualizados pelo Terraform.

    Conceder acesso à conta de serviço

    Selecione uma das seguintes opções:

    Console

    1. Acesse a página IAM e administrador.

      Acessar IAM e administrador

    2. Clique em Adicionar.

      A caixa de diálogo Adicionar principais é aberta.

    3. No campo Novos principais, digite o ID da conta de serviço que você copiou anteriormente.

    4. No campo Selecionar um papel, selecione Service Usage e, em seguida, selecione Consumidor do Service Usage.

    5. Clique em Adicionar outro papel.

    6. No campo Selecionar um papel, selecione BigQuery e, em seguida, selecione Usuário de conexão do BigQuery.

    7. Clique em Salvar.

    gcloud

    Use o comando gcloud projects add-iam-policy-binding (em inglês).

    gcloud projects add-iam-policy-binding 'PROJECT_NUMBER' --member='serviceAccount:MEMBER' --role='roles/serviceusage.serviceUsageConsumer' --condition=None
    gcloud projects add-iam-policy-binding 'PROJECT_NUMBER' --member='serviceAccount:MEMBER' --role='roles/bigquery.connectionUser' --condition=None
    

    Substitua:

    • PROJECT_NUMBER: o número do projeto.
    • MEMBER: o ID da conta de serviço que você copiou anteriormente.

    Deixar de conceder a permissão resulta em erro.

    crie um modelo

    Crie um modelo remoto com um REMOTE_SERVICE_TYPE de CLOUD_AI_NATURAL_LANGUAGE_V1:

    CREATE OR REPLACE MODEL
    `PROJECT_ID.DATASET_ID.MODEL_NAME`
    REMOTE WITH CONNECTION {DEFAULT | `PROJECT_ID.REGION.CONNECTION_ID`}
    OPTIONS (REMOTE_SERVICE_TYPE = 'CLOUD_AI_NATURAL_LANGUAGE_V1');

    Substitua:

    • PROJECT_ID: o ID do projeto.
    • DATASET_ID: o ID do conjunto de dados para conter o modelo. Esse conjunto de dados precisa estar no mesmo local que a conexão que você está usando.
    • MODEL_NAME: o nome do modelo
    • REGION: a região usada pela conexão.
    • CONNECTION_ID: o ID da conexão. Por exemplo, myconnection.

      Quando você visualiza os detalhes da conexão no console do Google Cloud , o ID da conexão é o valor na última seção do ID da conexão totalmente qualificado, mostrado em ID da conexão, por exemplo, projects/myproject/locations/connection_location/connections/myconnection.

    Entender o texto

    Entenda o texto com a função ML.UNDERSTAND_TEXT:

    SELECT *
    FROM ML.UNDERSTAND_TEXT(
      MODEL `PROJECT_ID.DATASET_ID.MODEL_NAME`,
      { TABLE PROJECT_ID.DATASET_ID.TABLE_NAME | (QUERY) },
      STRUCT('FEATURE_NAME' AS nlu_option
      [, 'FLATTEN_JSON_OUTPUT' AS flatten_json_output])
    );

    Substitua:

    • PROJECT_ID: o ID do projeto.
    • DATASET_ID: o ID do conjunto de dados que contém o modelo.
    • MODEL_NAME: o nome do modelo
    • TABLE_NAME: o nome da tabela que contém o texto a ser analisado em uma coluna chamada text_content. Se o texto estiver em uma coluna com um nome diferente, especifique text_content como alias para essa coluna.
    • QUERY: uma consulta que contém o texto a ser descrito em uma coluna chamada text_content. Se o texto estiver em uma coluna com um nome diferente, especifique text_content como alias para essa coluna.
    • FEATURE_NAME: o nome de um recurso da API Natural Language compatível.
    • FLATTEN_JSON_OUTPUT: um valor BOOL que determina se o conteúdo JSON retornado pela função será analisado em colunas separadas.

    Exemplo 1

    O exemplo a seguir inspeciona o texto na coluna text_content da tabela e identifica a opinião emocional predominante no texto:

    SELECT * FROM ML.UNDERSTAND_TEXT(
      MODEL `mydataset.mynlpmodel`,
      TABLE mydataset.mytable,
      STRUCT('analyze_sentiment' AS nlu_option)
    );

    Exemplo 2

    O exemplo a seguir inspeciona o texto na coluna comment da tabela e dá informações sintáticas sobre o texto:

    SELECT * FROM ML.UNDERSTAND_TEXT(
      MODEL `mydataset.mynlpmodel`,
      (SELECT comment AS text_content from mydataset.mytable),
      STRUCT('analyze_syntax' AS nlu_option)
    );

    A seguir

    Teste o notebook de análise de dados não estruturados com o BigQuery ML e os modelos pré-treinados da Vertex AI.