Usar o agente de ciência de dados do Colab Enterprise com o BigQuery

O agente de ciência de dados (DSA, na sigla em inglês) para Colab Enterprise e BigQuery permite automatizar a análise exploratória de dados, realizar tarefas de machine learning e fornecer insights em um notebook do Colab Enterprise.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  8. Se você não conhece o Colab Enterprise no BigQuery, consulte as etapas de configuração na página Criar notebooks.

    Limitações

    • O agente de ciência de dados é compatível com as seguintes fontes de dados:
      • Arquivos CSV
      • Tabelas do BigQuery
    • O código produzido pelo agente de ciência de dados só é executado no tempo de execução do seu notebook.
    • O agente do Data Science não é compatível com projetos que ativaram o VPC Service Controls.
    • Na primeira vez que você executar o agente de ciência de dados, poderá haver uma latência de aproximadamente 5 a 10 minutos. Isso acontece apenas uma vez por projeto durante a configuração inicial.

    Quando usar o agente de ciência de dados

    O agente de ciência de dados ajuda você com tarefas que vão desde a análise exploratória de dados até a geração de previsões e estimativas de machine learning. Você pode usar a DSA para:

    • Gerar um plano: gere e modifique um plano para concluir uma tarefa específica.
    • Análise detalhada de dados: analise um conjunto de dados para entender a estrutura dele, identificar possíveis problemas, como valores ausentes e outliers, e examinar a distribuição das principais variáveis.
    • Limpeza de dados: limpe seus dados. Por exemplo, remova pontos de dados que são outliers.
    • Organização de dados: converta atributos categóricos em representações numéricas usando técnicas como codificação one-hot ou de rótulos. Crie novos recursos para análise.
    • Análise de dados: analise as relações entre diferentes variáveis. Calcular correlações entre atributos numéricos e analisar distribuições de atributos categóricos. Procure padrões e tendências nos dados.
    • Visualização de dados: crie visualizações como histogramas, diagramas de caixa, gráficos de dispersão e gráficos de barras que representam as distribuições de variáveis individuais e as relações entre elas.
    • Engenharia de atributos: crie novos atributos com base em um conjunto de dados limpo.
    • Divisão de dados: divida um conjunto de dados projetado em conjuntos de dados de treinamento, validação e teste.
    • Treinamento do modelo: treine um modelo usando os dados de treinamento (X_train, y_train).
    • Otimização do modelo: otimize um modelo usando o conjunto de validação. Analise modelos alternativos, como DecisionTreeRegressor e RandomForestRegressor, e compare a performance deles.
    • Avaliação do modelo: avalie o modelo de melhor desempenho no conjunto de dados de teste (X_test_imputed, y_test).

    Usar o agente de ciência de dados no BigQuery

    As etapas a seguir mostram como usar o agente de ciência de dados no BigQuery.

    1. Crie ou abra um notebook do Colab Enterprise.
    2. Faça upload de um arquivo CSV, escolha uma ou mais tabelas do BigQuery no seletor de tabelas ou faça referência a uma tabela do BigQuery no seu comando.
    3. Insira um comando que descreva a análise de dados que você quer fazer ou o protótipo que você quer criar. Se precisar de ajuda, consulte os exemplos de comandos.
    4. Confira os resultados.

    Analisar um arquivo CSV

    Para analisar um CSV usando o agente de ciência de dados no BigQuery, siga estas etapas.

    1. Acessar a página do BigQuery.

      Acessar o BigQuery

    2. Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Notebook.

      Como alternativa, na barra de guias, clique na seta suspensa ao lado do ícone + e clique em Notebook > Notebook vazio.

    3. Na barra de ferramentas, clique no botão brilho Alternar o Gemini para abrir a caixa de diálogo de chat.

    4. Faça upload do arquivo CSV.

      1. Na caixa de diálogo do chat, clique em Adicionar arquivos.

      2. Se necessário, autorize sua Conta do Google.

      3. No painel de ações, clique em Fazer upload do arquivo.

      4. Procure o local do arquivo CSV e clique em Abrir.

      5. Ao lado do nome do arquivo, clique no ícone Mais ações e escolha Adicionar ao Gemini.

    5. Digite o comando na janela de chat. Por exemplo: Identify trends and anomalies in this file.

    6. Clique em Enviar.

      Os resultados aparecem na janela de chat.

      O plano de análise de dados gerado pela DSA

    7. Você pode pedir para o agente mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Clique em Cancelar para interromper.

    Analisar tabelas do BigQuery

    Para analisar uma tabela do BigQuery, escolha uma ou mais tabelas no seletor de tabelas ou forneça uma referência a ela no comando.

    1. Acessar a página do BigQuery.

      Acessar o BigQuery

    2. Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Notebook.

      Como alternativa, na barra de guias, clique na seta suspensa ao lado do ícone + e clique em Notebook > Notebook vazio.

    3. Na barra de ferramentas, clique no botão brilho Alternar Gemini para abrir a caixa de diálogo de chat.

    4. Digite o comando na janela de chat.

    5. Escolha uma ou mais tabelas usando o seletor:

      1. Clique em Adicionar contexto > Tabelas do BigQuery.

      2. Na janela Tabelas do BigQuery, selecione uma ou mais tabelas no seu projeto. Você pode pesquisar tabelas em projetos e filtrar usando a barra de pesquisa.

    6. Também é possível referenciar uma tabela do BigQuery diretamente no seu comando. Por exemplo: "Me ajude a fazer uma análise exploratória de dados e receba insights sobre os dados desta tabela: project_id:dataset.table."

      Substitua:

      • project_id: ID do projeto;
      • dataset: o nome do conjunto de dados com a tabela que você está analisando.
      • table: o nome da tabela que você está analisando.
    7. Clique em Enviar.

      Os resultados aparecem na janela de chat.

    8. Você pode pedir para o agente mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Clique em Cancelar para interromper.

    Comandos de amostra

    Não importa a complexidade do comando usado, o agente de ciência de dados gera um plano que pode ser refinado para atender às suas necessidades.

    Os exemplos a seguir mostram os tipos de comandos que você pode usar com a DSA.

    • Investigue e preencha os valores ausentes usando o algoritmo de aprendizado de máquina k-Nearest Neighbors (KNN).
    • Crie um gráfico de salário por nível de experiência. Use a coluna experience_level para agrupar os salários e crie um boxplot para cada grupo mostrando os valores da coluna salary_in_usd.
    • Use o algoritmo XGBoost para criar um modelo que determine a variável class de uma fruta específica. Divida os dados em conjuntos de dados de treinamento e teste para gerar um modelo e determinar a acurácia dele. Crie uma matriz de confusão para mostrar as previsões em cada classe, incluindo todas as previsões corretas e incorretas.
    • Crie um DataFrame do pandas para meus dados. Analise os dados em busca de valores nulos e crie um gráfico da distribuição de cada coluna usando o tipo de gráfico. Use gráficos de violino para valores medidos e gráficos de barras para categorias.
    • Leia o CSV do conjunto de dados e crie um DataFrame. Execute a análise no DataFrame para determinar o que precisa ser feito com os valores (substituir ou remover valores ausentes, corrigir linhas duplicadas) e determine a distribuição do valor investido em USD por cidade. Mostre os resultados em um gráfico de barras em ordem decrescente como "Localização x Valor médio investido (USD)", representando apenas os 20 principais resultados.
    • Previsão de target_variable de filename.csv para os próximos seis meses.
    • Crie e avalie um modelo de classificação em filename.csv para target_variable.

    Desativar o Gemini no BigQuery

    Para desativar o Gemini no BigQuery em um projeto do Google Cloud , um administrador precisa desativar a API Gemini para Google Cloud. Consulte Como desativar serviços.

    Para desativar o Gemini no BigQuery para um usuário específico, um administrador precisa revogar o papel Usuário do Gemini para Google Cloud (roles/cloudaicompanion.user) desse usuário. Consulte Revogar um único papel do IAM.

    Preços

    Durante o pré-lançamento, você paga apenas pela execução do código no tempo de execução do notebook. Para mais informações, consulte os preços do Colab Enterprise.

    Regiões compatíveis

    Para conferir as regiões com suporte do agente de ciência de dados do Colab Enterprise, consulte Locais.