Usar o Agente de Ciência de Dados
Este guia descreve como usar o Data Science Agent no Colab Enterprise para ajudar você a realizar tarefas de ciência de dados nos seus notebooks.
Saiba como e quando o Gemini para Google Cloud usa seus dados.
Este documento é destinado a analistas, cientistas e desenvolvedores de dados que trabalham com o Colab Enterprise. É necessário saber como escrever código em um ambiente de notebook.
Recursos do agente de ciência de dados
O agente de ciência de dados pode ajudar com tarefas que vão desde a análise exploratória de dados até a geração de previsões e estimativas de machine learning. Você pode usar o agente de ciência de dados para:
- Gerar planos: gere e modifique um plano para concluir uma tarefa específica.
- Análise detalhada de dados: analise um conjunto de dados para entender a estrutura dele, identificar possíveis problemas, como valores ausentes e outliers, e examinar a distribuição das principais variáveis.
- Limpeza de dados: limpe seus dados. Por exemplo, remova pontos de dados que são outliers.
- Organização de dados: converta atributos categóricos em representações numéricas usando técnicas como codificação one-hot ou de rótulos. Crie novos recursos para análise.
- Análise de dados: analise as relações entre diferentes variáveis. Calcular correlações entre atributos numéricos e analisar distribuições de atributos categóricos. Procure padrões e tendências nos dados.
- Visualização de dados: crie visualizações como histogramas, diagramas de caixa, gráficos de dispersão e gráficos de barras que representam as distribuições de variáveis individuais e as relações entre elas.
- Engenharia de atributos: crie novos atributos com base em um conjunto de dados limpo.
- Divisão de dados: divida um conjunto de dados projetado em conjuntos de dados de treinamento, validação e teste.
- Treinamento de modelo: treine um modelo usando os dados de treinamento.
- Otimização do modelo: otimize um modelo usando o conjunto de validação.
Analise modelos alternativos, como
DecisionTreeRegressor
eRandomForestRegressor
, e compare a performance deles. - Avaliação do modelo: avalie o modelo com melhor desempenho no conjunto de dados de teste.
Limitações
- O agente de ciência de dados é compatível com as seguintes fontes de dados:
- Arquivos CSV
- tabelas do BigQuery
- O código produzido pelo agente de ciência de dados só é executado no tempo de execução do seu notebook.
- O notebook precisa estar em uma região compatível com o agente de ciência de dados. Consulte Locais.
- O agente do Data Science não é compatível com projetos que ativaram o VPC Service Controls.
- Na primeira vez que você executar o agente de ciência de dados, poderá haver uma latência de aproximadamente 5 a 10 minutos. Isso acontece apenas uma vez por projeto durante a configuração inicial.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
No console Google Cloud , acesse a página Meus notebooks do Colab Enterprise.
-
No menu Região, selecione a região que contém o notebook.
-
Clique no notebook que você quer abrir.
-
Na barra de ferramentas, clique no botão
Gemini para abrir a caixa de diálogo de chat. -
Para fazer upload de um arquivo CSV, siga estas etapas:
- Na caixa de diálogo do chat, clique em Adicionar arquivos.
-
Se necessário, autorize sua Conta do Google.
Aguarde um momento para que o Colab Enterprise inicie um ambiente de execução e ative a navegação de arquivos.
- No painel Arquivos, clique em Fazer upload para o armazenamento da sessão.
- Navegue até o local do arquivo e clique em Abrir.
-
Clique em OK para confirmar que os arquivos deste ambiente de execução serão excluídos quando ele for excluído.
O arquivo é enviado por upload para o painel Arquivos.
-
Ao lado do arquivo que você enviou, clique no menu
Ações e selecione Adicionar ao Gemini.O arquivo é adicionado à caixa de diálogo do chat.
-
Na caixa de diálogo do chat do Gemini, insira um comando e clique em
Enviar. Para ter ideias de comandos, confira os [recursos do agente de ciência de dados](#capabilities) e os [comandos de exemplo](#sample-prompts).Por exemplo, você pode inserir "Faça uma análise dos dados que enviei".
-
O Gemini responde ao seu comando. A resposta pode incluir snippets de código para executar, conselhos gerais para seu projeto, próximas etapas para alcançar suas metas ou informações sobre problemas específicos nos seus dados ou código.
Depois de avaliar a resposta, você pode fazer o seguinte:
- Se o Gemini fornecer código na resposta, clique em:
- Clique em Aceitar para adicionar o código ao notebook.
- Aceitar e executar para adicionar o código ao notebook e executá-lo.
- Cancelar para excluir o código sugerido.
- Faça perguntas complementares e continue a discussão conforme necessário.
- Se o Gemini fornecer código na resposta, clique em:
-
Para fechar a caixa de diálogo Gemini, clique em
Fechar. - Encontre e preencha valores ausentes usando o algoritmo de aprendizado de máquina k-Nearest Neighbors (KNN).
- Crie um gráfico de salários por nível de experiência. Use a coluna
experience_level
para agrupar os salários e crie um boxplot para cada grupo mostrando os valores da colunasalary_in_usd
. - Use o algoritmo XGBoost para criar um modelo que determine a variável
class
de uma fruta específica. Divida os dados em conjuntos de dados de treinamento e teste para gerar um modelo e avaliar a acurácia dele. Crie uma matriz de confusão para mostrar as previsões de cada classe, incluindo todas as previsões corretas e incorretas. - Crie um DataFrame do pandas para meus dados. Analise os dados em busca de valores nulos e visualize a distribuição de cada coluna usando gráficos de violino para valores medidos e gráficos de barras para categorias.
- Leia o arquivo CSV do conjunto de dados e crie um DataFrame. Execute uma análise no DataFrame para determinar o que precisa ser feito com os valores (substituir ou remover valores ausentes, remover linhas duplicadas) e determine a distribuição do valor investido em USD por cidade. Visualize os resultados em um gráfico de barras em ordem decrescente como "Localização x Valor médio investido (USD)", mostrando apenas os 20 principais resultados.
- Previsão de
target_variable
defilename.csv
para os próximos seis meses. - Crie e avalie um modelo de classificação em
filename.csv
paratarget_variable
. Para informações sobre como usar o agente de Ciência de Dados com o BigQuery, consulte Usar o agente de Ciência de Dados do Colab Enterprise com o BigQuery.
Para mais maneiras de escrever e editar código com a assistência do Gemini, consulte o seguinte:
Funções exigidas
Para receber as permissões
necessárias para usar o agente de ciência de dados no Colab Enterprise,
peça ao administrador para conceder a você o papel
Usuário do Colab Enterprise (roles/aiplatform.colabEnterpriseUser
)
do IAM no projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Usar o Agente de Ciência de Dados
Para começar a usar o Data Science Agent do Colab Enterprise, faça o seguinte:
Desativar o Gemini no Colab Enterprise
Para desativar o Gemini no Colab Enterprise em um Google Cloud projeto, um administrador precisa desativar a API Gemini para Google Cloud. Consulte Como desativar serviços.
Para desativar o Gemini no Colab Enterprise para um usuário específico, um
administrador precisa revogar o papel de
Usuário do Gemini para
Google Cloud (roles/cloudaicompanion.user
) desse usuário. Consulte
Revogar
um único papel do IAM.
Comandos de amostra
Os exemplos a seguir mostram os tipos de comandos que você pode usar com o Agente de ciência de dados.
Regiões compatíveis
Para conferir as regiões compatíveis com o agente de ciência de dados do Colab Enterprise, consulte Locais.
Faturamento
Durante o pré-lançamento, você paga apenas pela execução do código no tempo de execução do notebook. Para mais informações, consulte Preços do Colab Enterprise.