Cómo usar el Agente de ciencia de datos
En esta guía, se describe cómo puedes usar el agente de ciencia de datos en Colab Enterprise para ayudarte a realizar tareas de ciencia de datos en tus notebooks.
Descubre cómo y cuándo Gemini para Google Cloud usa tus datos.
Este documento está dirigido a analistas, científicos y desarrolladores de datos que trabajan con Colab Enterprise. Se supone que sabes escribir código en un entorno de notebook.
Capacidades del Agente de ciencia de datos
El agente de ciencia de datos puede ayudarte con tareas que van desde el análisis exploratorio de datos hasta la generación de predicciones y previsiones de aprendizaje automático. Puedes usar Data Science Agent para lo siguiente:
- Generación de planes: Genera y modifica un plan para completar una tarea específica.
- Exploración de datos: Explora un conjunto de datos para comprender su estructura, identificar posibles problemas, como valores faltantes y valores atípicos, y examinar la distribución de las variables clave.
- Limpieza de datos: Limpia tus datos. Por ejemplo, quita los datos que son valores atípicos.
- Manipulación de datos: Convierte los atributos categóricos en representaciones numéricas con técnicas como la codificación one-hot o la codificación de etiquetas. Crea nuevas funciones para el análisis.
- Análisis de datos: Analiza las relaciones entre diferentes variables. Calcula las correlaciones entre los atributos numéricos y explora las distribuciones de los atributos categóricos. Busca patrones y tendencias en los datos.
- Visualización de datos: Crea visualizaciones, como histogramas, diagramas de cajas, diagramas de dispersión y gráficos de barras, que representen las distribuciones de variables individuales y las relaciones entre ellas.
- Ingeniería de atributos: Diseña atributos nuevos a partir de un conjunto de datos limpio.
- División de datos: Divide un conjunto de datos diseñado en conjuntos de datos de entrenamiento, validación y prueba.
- Entrenamiento del modelo: Entrena un modelo con los datos de entrenamiento.
- Optimización del modelo: Optimiza un modelo con el conjunto de validación.
Explora modelos alternativos, como
DecisionTreeRegressor
yRandomForestRegressor
, y compara su rendimiento. - Evaluación del modelo: Evalúa el modelo con el mejor rendimiento en el conjunto de datos de prueba.
Limitaciones
- El agente de ciencia de datos admite las siguientes fuentes de datos:
- Archivos CSV
- Tablas de BigQuery
- El código que genera Data Science Agent solo se ejecuta en el tiempo de ejecución de tu notebook.
- Tu notebook debe estar en una región compatible con el Agente de ciencia de datos. Consulta Ubicaciones.
- El agente de ciencia de datos no es compatible con los proyectos en los que se habilitaron los Controles del servicio de VPC.
- La primera vez que ejecutes el Agente de ciencia de datos, es posible que experimentes una latencia de entre cinco y diez minutos aproximadamente. Esto solo ocurre una vez por proyecto durante la configuración inicial.
- La búsqueda de tablas de BigQuery con la función
@mention
se limita a tu proyecto actual. Usa el selector de tablas para buscar en todos los proyectos. - La función
@mention
solo busca tablas de BigQuery. Para buscar archivos de datos que puedes subir, usa el símbolo+
.
Antes de comenzar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
En la Google Cloud consola, ve a la página Mis notebooks de Colab Enterprise.
-
En el menú Región, selecciona la región que contiene el notebook.
-
Haz clic en el notebook que quieras abrir.
-
En la barra de herramientas, haz clic en el botón
Gemini para abrir el diálogo de chat. - En el diálogo de chat, haz clic en > Subir. Agregar archivos
-
Si es necesario, autoriza tu Cuenta de Google.
Espera un momento a que Colab Enterprise inicie un entorno de ejecución y habilite la navegación de archivos.
- Navega hasta la ubicación del archivo y, luego, haz clic en Abrir.
-
Haz clic en Aceptar para confirmar que se borrarán los archivos de este tiempo de ejecución cuando se borre el tiempo de ejecución.
El archivo se sube al panel Archivos y aparece en la ventana de chat.
-
En la Google Cloud consola, ve a la página Mis notebooks de Colab Enterprise.
-
En el menú Región, selecciona la región que contiene el notebook.
-
Haz clic en el notebook que quieras abrir.
-
En la barra de herramientas, haz clic en el botón
Gemini para abrir el diálogo de chat. -
Para hacer referencia a tus datos, realiza una de las siguientes acciones:
-
Elige una o más tablas con el selector de tablas:
- Haz clic en Agregar a Gemini > Tablas de BigQuery.
- En la ventana Tablas de BigQuery, selecciona una o más tablas de tu proyecto. Puedes buscar tablas en todos los proyectos y filtrarlas con la barra de búsqueda.
-
Incluye el nombre de una tabla de BigQuery directamente en tu instrucción. Por ejemplo: "Ayúdame a realizar un análisis exploratorio de datos y a obtener estadísticas sobre los datos de esta tabla:
PROJECT_ID:DATASET.TABLE
".Reemplaza lo siguiente:
PROJECT_ID
: el ID de tu proyectoDATASET
: Es el nombre del conjunto de datos que contiene la tabla que analizas.TABLE
: Es el nombre de la tabla que analizarás.
-
Escribe
@
para buscar una tabla de BigQuery en tu proyecto actual.
-
-
En el diálogo de chat de Gemini, ingresa una instrucción y haz clic en capacidades del Agente de Data Science y consulta las instrucciones de ejemplo.
Enviar. Para obtener ideas de instrucciones, revisa lasPor ejemplo, puedes ingresar "Proporciona un análisis de los datos que subí".
-
Gemini responde a tu instrucción. La respuesta puede incluir fragmentos de código para ejecutar, sugerencias generales para tu proyecto, próximos pasos para alcanzar tus objetivos o información sobre problemas específicos en tus datos o código.
Después de evaluar la respuesta, puedes hacer lo siguiente:
- Si Gemini proporciona código en su respuesta, puedes hacer clic en lo siguiente:
- Haz clic en Aceptar para agregar el código a tu notebook.
- Haz clic en Aceptar y ejecutar para agregar el código a tu notebook y ejecutarlo.
- Cancelar para borrar el código sugerido
- Haz preguntas adicionales y continúa la conversación según sea necesario.
- Si Gemini proporciona código en su respuesta, puedes hacer clic en lo siguiente:
-
Para cerrar el diálogo de Gemini, haz clic en
Cerrar. - Encuentra y completa los valores faltantes con el algoritmo de aprendizaje automático de k-vecinos más cercanos (KNN).
- Crea un gráfico de los salarios por nivel de experiencia. Usa la columna
experience_level
para agrupar los salarios y crear un diagrama de caja para cada grupo que muestre los valores de la columnasalary_in_usd
. - Usa el algoritmo XGBoost para crear un modelo que determine la variable
class
de una fruta específica. Divide los datos en conjuntos de datos de entrenamiento y prueba para generar un modelo y, luego, evalúa la exactitud del modelo. Crea una matriz de confusión para mostrar las predicciones de cada clase, incluidas todas las predicciones correctas e incorrectas. - Crea un DataFrame de pandas para mis datos. Analiza los datos en busca de valores nulos y, luego, visualiza la distribución de cada columna con diagramas de violín para los valores medidos y diagramas de barras para las categorías.
- Lee el archivo CSV del conjunto de datos y crea un DataFrame, ejecuta un análisis en el DataFrame para determinar qué se debe hacer con los valores (reemplazar o quitar los valores faltantes, quitar las filas duplicadas) y determina la distribución de la cantidad de dinero invertido en USD por ubicación de la ciudad. Visualiza los resultados en un gráfico de barras en orden descendente como ubicación en comparación con la inversión promedio (USD), y muestra solo los 20 resultados principales.
- Previsión de
target_variable
defilename.csv
para los próximos seis meses. - Compila y evalúa un modelo de clasificación en
filename.csv
paratarget_variable
. Para obtener más información sobre cómo usar el Agente de ciencia de datos con BigQuery, consulta Usa el Agente de ciencia de datos de Colab Enterprise con BigQuery.
Para obtener más información sobre cómo escribir y editar código con la asistencia de Gemini, consulta los siguientes recursos:
Roles requeridos
Para obtener los permisos que necesitas para usar el agente de Data Science en Colab Enterprise, pídele a tu administrador que te otorgue el rol de IAM de usuario de Colab Enterprise (roles/aiplatform.colabEnterpriseUser
) en el proyecto.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Haz referencia a tus datos
Para permitir que el agente de ciencia de datos de Colab Enterprise acceda a tus datos y trabaje con ellos, puedes subir un archivo CSV o hacer referencia a una tabla de BigQuery.
Archivo CSV
Tabla de BigQuery
Cómo usar el Agente de ciencia de datos
Para comenzar a usar el agente de ciencia de datos de Colab Enterprise, haz lo siguiente:
Desactiva Gemini en Colab Enterprise
Para desactivar Gemini en Colab Enterprise en un proyecto de Google Cloud , un administrador debe desactivar la API de Gemini for Google Cloud. Consulta Inhabilita servicios.
Para desactivar Gemini en Colab Enterprise para un usuario específico, un administrador
debe revocar el
rol de Usuario de
Gemini para Google Cloud (roles/cloudaicompanion.user
) de ese usuario. Consulta Revoca un solo rol de IAM.
Ejemplos de instrucciones
En los siguientes ejemplos, se muestran los tipos de instrucciones que puedes usar con el Data Science Agent.
Regiones admitidas
Para ver las regiones compatibles con el agente de ciencia de datos de Colab Enterprise, consulta Ubicaciones.
Facturación
Durante la versión preliminar, solo se te cobra por ejecutar código en el tiempo de ejecución del notebook. Para obtener más información, consulta los precios de Colab Enterprise.