Perspectiva de la IA y el AA: Excelencia operativa

Last reviewed 2025-04-28 UTC

En este documento del Well-Architected Framework: perspectiva de IA y AA, se proporciona una descripción general de los principios y las recomendaciones para compilar y operar sistemas sólidos de IA y AA en Google Cloud. Estas recomendaciones te ayudan a configurar elementos fundamentales, como la observabilidad, la automatización y la escalabilidad. Las recomendaciones de este documento se alinean con el pilar de excelencia operativa del Google Cloud Framework de Well-Architected.

La excelencia operativa en el dominio de la IA y el AA es la capacidad de implementar, administrar y controlar sin problemas los sistemas y las canalizaciones de IA y AA que ayudan a impulsar los objetivos estratégicos de tu organización. La excelencia operativa te permite responder de manera eficiente a los cambios, reducir la complejidad operativa y garantizar que tus operaciones sigan alineadas con los objetivos comerciales.

Las recomendaciones de este documento se correlacionan con los siguientes principios fundamentales:

Crea una base sólida para el desarrollo de modelos

Para desarrollar e implementar sistemas de IA confiables y escalables que te ayuden a alcanzar tus objetivos comerciales, es fundamental contar con una base sólida para el desarrollo de modelos. Esta base permite flujos de trabajo coherentes, automatiza pasos críticos para reducir errores y garantiza que los modelos puedan escalar con la demanda. Una base sólida para el desarrollo de modelos garantiza que tus sistemas de AA se puedan actualizar, mejorar y volver a entrenar sin problemas. La base también te ayuda a alinear el rendimiento de tus modelos con las necesidades comerciales, implementar soluciones de IA eficaces rápidamente y adaptarte a los requisitos cambiantes.

Para crear una base sólida que te permita desarrollar tus modelos de IA, ten en cuenta las siguientes recomendaciones.

Definir los problemas y los resultados requeridos

Antes de comenzar cualquier proyecto de IA o AA, debes comprender claramente los problemas comerciales que se deben resolver y los resultados requeridos. Comienza con un esquema de los objetivos comerciales y desglósalos en indicadores clave de rendimiento (KPI) medibles. Para organizar y documentar las definiciones y las hipótesis de tu problema en un entorno de notebook de Jupyter, usa herramientas como Vertex AI Workbench. Para implementar el control de versiones de código y documentos, y para documentar tus proyectos, objetivos y suposiciones, usa herramientas como Git. Para desarrollar y administrar instrucciones para aplicaciones de IA generativa, puedes usar Vertex AI Studio.

Recopila y procesa previamente los datos necesarios

Para implementar el preprocesamiento y la transformación de datos, puedes usar Dataflow (para Apache Beam), Dataproc (para Apache Spark) o BigQuery si un proceso basado en SQL es adecuado. Para validar esquemas y detectar anomalías, usa la Validación de datos de TensorFlow (TFDV) y aprovecha los análisis de calidad de los datos automatizados en BigQuery cuando corresponda.

En el caso de la IA generativa, la calidad de los datos incluye la precisión, la relevancia, la diversidad y la alineación con las características de salida requeridas. En los casos en los que los datos del mundo real son insuficientes o están desequilibrados, puedes generar datos sintéticos para mejorar la solidez y la generalización del modelo. Para crear conjuntos de datos sintéticos basados en patrones existentes o aumentar los datos de entrenamiento para mejorar el rendimiento del modelo, usa BigQuery DataFrames y Gemini. Los datos sintéticos son especialmente valiosos para la IA generativa porque pueden ayudar a mejorar la diversidad de las instrucciones y la solidez general del modelo. Cuando compiles conjuntos de datos para ajustar modelos de IA generativa, considera usar las capacidades de generación de datos sintéticos en Vertex AI.

Para las tareas de IA generativa, como el ajuste o el aprendizaje por refuerzo con retroalimentación humana (RLHF), asegúrate de que las etiquetas reflejen con precisión la calidad, la relevancia y la seguridad de los resultados generados.

Selecciona un enfoque de AA adecuado

Cuando diseñes tu modelo y sus parámetros, ten en cuenta la complejidad del modelo y sus necesidades computacionales. Según la tarea (como clasificación, regresión o generación), considera usar el entrenamiento personalizado de Vertex AI para la creación de modelos personalizados o AutoML para tareas de AA más sencillas. Para aplicaciones comunes, también puedes acceder a modelos previamente entrenados a través de Vertex AI Model Garden. Puedes experimentar con una variedad de modelos de base de vanguardia para diversos casos de uso, como generar texto, imágenes y código.

Es posible que desees ajustar un modelo básico previamente entrenado para lograr un rendimiento óptimo en tu caso de uso específico. Para cumplir con los requisitos de alto rendimiento en el entrenamiento personalizado, configura unidades de procesamiento tensorial (TPU) de Cloud o recursos de GPU para acelerar el entrenamiento y la inferencia de modelos de aprendizaje profundo, como los modelos de lenguaje extenso (LLM) y los modelos de difusión.

Configura el control de versión para el código, los modelos y los datos

Para administrar y, luego, implementar versiones de código de manera eficaz, usa herramientas como GitHub o GitLab. Estas herramientas proporcionan funciones de colaboración sólidas, estrategias de ramificación y la integración con canalizaciones de CI/CD para garantizar un proceso de desarrollo optimizado.

Usa soluciones adecuadas para administrar cada artefacto de tu sistema de AA, como los siguientes ejemplos:

  • Para los artefactos de código, como las imágenes de contenedores y los componentes de canalización, Artifact Registry proporciona una solución de almacenamiento escalable que puede ayudar a mejorar la seguridad. Artifact Registry también incluye el control de versiones y se puede integrar con Cloud Build y Cloud Deploy.
  • Para administrar artefactos de datos, como los conjuntos de datos que se usan para el entrenamiento y la evaluación, usa soluciones como BigQuery o Cloud Storage para el almacenamiento y el control de versiones.
  • Para almacenar metadatos y punteros a ubicaciones de datos, usa tu sistema de control de versión o un catálogo de datos independiente.

Para mantener la coherencia y el control de versiones de tus datos de atributos, usa Vertex AI Feature Store. Para hacer un seguimiento de los artefactos del modelo y administrarlos, incluidos los archivos binarios y los metadatos, usa Vertex AI Model Registry, que te permite almacenar, organizar y, luego, implementar versiones del modelo sin problemas.

Para garantizar la confiabilidad del modelo, implementa Vertex AI Model Monitoring. Detecta la desviación de los datos, realiza un seguimiento del rendimiento y, luego, identifica anomalías en la producción. En el caso de los sistemas de IA generativa, supervisa los cambios en la calidad de los resultados y el cumplimiento de la seguridad.

Automatiza el ciclo de vida del desarrollo de modelos

La automatización te ayuda a optimizar cada etapa del ciclo de vida de la IA y el AA. La automatización reduce el esfuerzo manual y estandariza los procesos, lo que mejora la eficiencia operativa y disminuye el riesgo de errores. Los flujos de trabajo automatizados permiten una iteración más rápida, una implementación coherente en todos los entornos y resultados más confiables, de modo que tus sistemas puedan adaptarse y escalar sin problemas.

Para automatizar el ciclo de vida de desarrollo de tus sistemas de IA y AA, ten en cuenta las siguientes recomendaciones.

Usa un sistema de organización de canalizaciones administrado

Usa Vertex AI Pipelines para automatizar cada paso del ciclo de vida del AA, desde la preparación de los datos hasta el entrenamiento, la evaluación y la implementación del modelo. Para acelerar la implementación y promover la coherencia en todos los proyectos, automatiza las tareas recurrentes con ejecuciones programadas de canalizaciones, supervisa los flujos de trabajo con métricas de ejecución y desarrolla plantillas de canalizaciones reutilizables para flujos de trabajo estandarizados. Estas capacidades se extienden a los modelos de IA generativa, que a menudo requieren pasos especializados, como la ingeniería de instrucciones, el filtrado de respuestas y la evaluación human-in-the-loop. En el caso de la IA generativa, Vertex AI Pipelines puede automatizar estos pasos, incluida la evaluación de los resultados generados en función de las métricas de calidad y los lineamientos de seguridad. Para mejorar la diversidad de las instrucciones y la solidez del modelo, los flujos de trabajo automatizados también pueden incluir técnicas de aumento de datos.

Implementa canalizaciones de CI/CD

Para automatizar la compilación, las pruebas y la implementación de modelos de AA, usa Cloud Build. Este servicio es particularmente eficaz cuando ejecutas paquetes de pruebas para el código de la aplicación, lo que garantiza que la infraestructura, las dependencias y el empaquetado del modelo cumplan con tus requisitos de implementación.

Los sistemas de AA a menudo requieren pasos adicionales más allá de las pruebas de código. Por ejemplo, debes realizar pruebas de estrés en los modelos con diferentes cargas, realizar evaluaciones masivas para evaluar el rendimiento del modelo en diversos conjuntos de datos y validar la integridad de los datos antes de volver a entrenar el modelo. Para simular cargas de trabajo realistas para las pruebas de estrés, puedes usar herramientas como Locust, Grafana k6 o Apache JMeter. Para identificar los cuellos de botella, supervisa las métricas clave, como la latencia, la tasa de errores y el uso de recursos a través de Cloud Monitoring. En el caso de la IA generativa, las pruebas también deben incluir evaluaciones específicas para el tipo de contenido generado, como la calidad del texto, la fidelidad de la imagen o la funcionalidad del código. Estas evaluaciones pueden incluir métricas automatizadas, como la perplejidad para los modelos de lenguaje, o la evaluación con humanos en el circuito para aspectos más matizados, como la creatividad y la seguridad.

Para implementar tareas de prueba y evaluación, puedes integrar Cloud Build con otros Google Cloud servicios. Por ejemplo, puedes usar Vertex AI Pipelines para la evaluación automatizada de modelos, BigQuery para el análisis de datos a gran escala y la validación de canalizaciones de Dataflow para la validación de funciones.

Puedes mejorar aún más tu canalización de CI/CD con Vertex AI para el entrenamiento continuo y habilitar el reentrenamiento automático de modelos con datos nuevos. En el caso específico de la IA generativa, para mantener la relevancia y la diversidad de los resultados generados, el reentrenamiento puede implicar la actualización automática de los modelos con nuevos datos de entrenamiento o instrucciones. Puedes usar Vertex AI Model Garden para seleccionar los modelos básicos más recientes que están disponibles para el ajuste. Esta práctica garantiza que los modelos sigan siendo actuales y estén optimizados para las necesidades cambiantes de tu empresa.

Implementa lanzamientos de modelos seguros y controlados

Para minimizar los riesgos y garantizar implementaciones confiables, implementa un enfoque de lanzamiento de modelos que te permita detectar problemas de forma anticipada, validar el rendimiento y revertir rápidamente los cambios cuando sea necesario.

Para empaquetar tus modelos y aplicaciones de AA en imágenes de contenedor y, luego, implementarlos, usa Cloud Deploy. Puedes implementar tus modelos en extremos de Vertex AI.

Implementa lanzamientos controlados para tus aplicaciones y sistemas de IA con estrategias como los lanzamientos canary. En el caso de las aplicaciones que usan modelos administrados, como Gemini, te recomendamos que lances gradualmente las nuevas versiones de la aplicación a un subconjunto de usuarios antes de la implementación completa. Este enfoque te permite detectar posibles problemas con anticipación, en especial cuando usas modelos de IA generativa en los que los resultados pueden variar.

Para lanzar modelos ajustados, puedes usar Cloud Deploy para administrar la implementación de las versiones del modelo y usar la estrategia de lanzamiento Canary para minimizar el riesgo. Con los modelos administrados y los modelos ajustados, el objetivo de los lanzamientos controlados es probar los cambios con un público limitado antes de lanzar las aplicaciones y los modelos para todos los usuarios.

Para una validación sólida, usa Vertex AI Experiments para comparar modelos nuevos con los existentes y Vertex AI Model Evaluation para evaluar el rendimiento del modelo. En el caso específico de la IA generativa, define métricas de evaluación que se alineen con el caso de uso previsto y los riesgos potenciales. Puedes usar el servicio de evaluación de IA generativa en Vertex AI para evaluar métricas como toxicidad, coherencia, precisión fáctica y cumplimiento de los lineamientos de seguridad.

Para garantizar la confiabilidad de la implementación, necesitas un plan de reversión sólido. En el caso de los sistemas de AA tradicionales, usa Vertex AI Model Monitoring para detectar la desviación de datos y la degradación del rendimiento. En el caso de los modelos de IA generativa, puedes hacer un seguimiento de las métricas pertinentes y configurar alertas para detectar cambios en la calidad del resultado o la aparición de contenido perjudicial con la evaluación de modelos de Vertex AI, junto con Cloud Logging y Cloud Monitoring. Configura alertas basadas en métricas específicas de la IA generativa para activar los procedimientos de reversión cuando sea necesario. Para hacer un seguimiento del linaje del modelo y revertir a la versión estable más reciente, usa las estadísticas de Vertex AI Model Registry.

Implementa la observabilidad

El comportamiento de los sistemas de IA y AA puede cambiar con el tiempo debido a cambios en los datos o el entorno, y a actualizaciones de los modelos. Esta naturaleza dinámica hace que la observabilidad sea fundamental para detectar problemas de rendimiento, sesgos o comportamientos inesperados. Esto es especialmente cierto para los modelos de IA generativa, ya que los resultados pueden ser muy variables y subjetivos. La observabilidad te permite abordar de forma proactiva los comportamientos inesperados y garantizar que tus sistemas de IA y AA sigan siendo confiables, precisos y justos.

Para implementar la observabilidad en tus sistemas de IA y AA, ten en cuenta las siguientes recomendaciones.

Supervisa el rendimiento de forma continua

Usa métricas y criterios de éxito para la evaluación continua de los modelos después de la implementación.

Puedes usar Vertex AI Model Monitoring para hacer un seguimiento proactivo del rendimiento del modelo, identificar el sesgo entre el entrenamiento y la entrega, y la desviación de la predicción, y recibir alertas para activar el reentrenamiento necesario del modelo o realizar otras intervenciones. Para supervisar de manera eficaz el sesgo entre el entrenamiento y la entrega, crea un conjunto de datos de referencia que represente la distribución de datos ideal y usa TFDV para analizar tus datos de entrenamiento y establecer un esquema de referencia.

Configura Model Monitoring para comparar la distribución de los datos de entrada con el conjunto de datos de referencia para la detección automática de sesgos. En el caso de los modelos de AA tradicionales, enfócate en las métricas como la exactitud, la precisión, la recuperación, la puntuación F1, el AUC-ROC y la pérdida de registro. Define umbrales personalizados para las alertas en Model Monitoring. En el caso de la IA generativa, usa el servicio de evaluación de IA generativa para supervisar continuamente el resultado del modelo en producción. También puedes habilitar métricas de evaluación automáticas para la calidad, la seguridad, el cumplimiento de instrucciones, la fundamentación, el estilo de escritura y la verbosidad de las respuestas. Para evaluar la calidad, la relevancia, la seguridad y el cumplimiento de los lineamientos de los resultados generados, puedes incorporar la evaluación human-in-the-loop.

Crea bucles de retroalimentación para volver a entrenar automáticamente los modelos con Vertex AI Pipelines cuando la Supervisión de modelos active una alerta. Usa estas estadísticas para mejorar tus modelos de forma continua.

Evalúa modelos durante el desarrollo

Antes de implementar tus LLM y otros modelos de IA generativa, evalúalos a fondo durante la fase de desarrollo. Usa la evaluación de modelos de Vertex AI para lograr un rendimiento óptimo y mitigar los riesgos. Usa la evaluación rápida de Vertex AI para permitir que Google Cloud ejecute automáticamente evaluaciones basadas en el conjunto de datos y las instrucciones que proporciones.

También puedes definir e integrar métricas personalizadas específicas para tu caso de uso. Para obtener comentarios sobre el contenido generado, integra flujos de trabajo con participación humana usando Vertex AI Model Evaluation.

Usa pruebas adversarias para identificar vulnerabilidades y posibles modos de falla. Para identificar y mitigar posibles sesgos, usa técnicas como el análisis de subgrupos y la generación contrafáctica. Usa las estadísticas recopiladas de las evaluaciones que se completaron durante la fase de desarrollo para definir tu estrategia de supervisión del modelo en producción. Prepara tu solución para la supervisión continua como se describe en la sección Supervisa el rendimiento de forma continua de este documento.

Supervisar la disponibilidad

Para obtener visibilidad del estado y el rendimiento de los extremos y la infraestructura implementados, usa Cloud Monitoring. Para tus extremos de Vertex AI, haz un seguimiento de métricas clave, como la tasa de solicitudes, la tasa de errores, la latencia y el uso de recursos, y configura alertas para detectar anomalías. Para obtener más información, consulta Métricas de Cloud Monitoring para Vertex AI.

Supervisar el estado de la infraestructura subyacente, que puede incluir instancias de Compute Engine, clústeres de Google Kubernetes Engine (GKE), y TPU y GPU Obtén recomendaciones de optimización automatizadas de Active Assist. Si usas el ajuste de escala automático, supervisa su comportamiento para asegurarte de que responda de manera adecuada a los cambios en los patrones de tráfico.

Realiza un seguimiento del estado de las implementaciones de modelos, incluidos los lanzamientos de versiones canary y las reversiones, integrando Cloud Deploy en Cloud Monitoring. Además, supervisa las posibles amenazas y vulnerabilidades de seguridad con Security Command Center.

Configura alertas personalizadas para umbrales específicos de la empresa

Para identificar y rectificar anomalías y problemas de manera oportuna, configura alertas personalizadas basadas en umbrales específicos para tus objetivos comerciales. Estos son algunos ejemplos de productos de Google Cloud que puedes usar para implementar un sistema de alertas personalizado:

  • Cloud Logging: Recopila, almacena y analiza registros de todos los componentes de tu sistema de AA y AA.
  • Cloud Monitoring: Crea paneles personalizados para visualizar las métricas y las tendencias clave, y define métricas personalizadas según tus necesidades. Configura alertas para recibir notificaciones sobre problemas críticos y, luego, integra las alertas con tus herramientas de administración de incidentes, como PagerDuty o Slack.
  • Error Reporting: Captura y analiza automáticamente los errores y las excepciones.
  • Cloud Trace: Analiza el rendimiento de los sistemas distribuidos y detecta cuellos de botella. El registro de seguimiento es particularmente útil para comprender la latencia entre los diferentes componentes de tu canalización de IA y AA.
  • Cloud Profiler: Analiza de forma continua el rendimiento de tu código en producción y detecta los cuellos de botella en el rendimiento en el uso de la CPU o la memoria.

Crea una cultura de excelencia operativa

Cambia el enfoque de solo crear modelos a crear soluciones de IA sostenibles, confiables y eficaces. Permite que los equipos aprendan, innoven y mejoren de forma continua, lo que genera ciclos de desarrollo más rápidos, menos errores y mayor eficiencia. Si priorizas la automatización, la estandarización y las consideraciones éticas, puedes garantizar que tus iniciativas de IA y AA aporten valor de forma constante, mitiguen los riesgos y promuevan el desarrollo de la IA responsable.

Para crear una cultura de excelencia operativa en tus sistemas de IA y AA, ten en cuenta las siguientes recomendaciones.

Promueve la automatización y la estandarización

Para enfatizar la eficiencia y la coherencia, incorpora la automatización y las prácticas estandarizadas en cada etapa del ciclo de vida de la IA y el AA. La automatización reduce los errores manuales y permite que los equipos se enfoquen en la innovación. La estandarización garantiza que los procesos sean repetibles y escalables en todos los equipos y proyectos.

Prioriza el aprendizaje y la mejora continuos

Fomenta un entorno en el que la formación y la experimentación continuas sean principios fundamentales. Alienta a los equipos a mantenerse al día con los avances de la IA y el AA, y brinda oportunidades para aprender de proyectos anteriores. Una cultura de curiosidad y adaptación impulsa la innovación y garantiza que los equipos estén equipados para enfrentar nuevos desafíos.

Cultiva la responsabilidad y la propiedad

Genera confianza y alineación con roles, responsabilidades y métricas de éxito claramente definidos. Capacita a los equipos para que tomen decisiones fundamentadas dentro de estos límites y establece formas transparentes de medir el progreso. El sentido de propiedad motiva a los equipos y garantiza la responsabilidad colectiva por los resultados.

Incorpora consideraciones éticas y de seguridad de la IA

Prioriza las consideraciones éticas en cada etapa del desarrollo. Alentar a los equipos a pensar de forma crítica sobre el impacto de sus soluciones de IA y fomentar debates sobre la equidad, el sesgo y el impacto social Los principios claros y los mecanismos de responsabilidad garantizan que tus sistemas de IA se alineen con los valores de la organización y promuevan la confianza.

Diseña para la escalabilidad

Para adaptarse a los crecientes volúmenes de datos y demandas de los usuarios, y para maximizar el valor de las inversiones en IA, tus sistemas de IA y AA deben ser escalables. Los sistemas deben adaptarse y funcionar de manera óptima para evitar cuellos de botella en el rendimiento que obstaculicen la eficacia. Cuando diseñas para la escalabilidad, te aseguras de que la infraestructura de IA pueda manejar el crecimiento y mantener la capacidad de respuesta. Usa infraestructura escalable, planifica la capacidad y emplea estrategias como el ajuste de escala horizontal y los servicios administrados.

Para diseñar tus sistemas de IA y AA de modo que sean escalables, ten en cuenta las siguientes recomendaciones.

Planifica la capacidad y las cuotas

Evalúa el crecimiento futuro y planifica la capacidad de infraestructura y las cuotas de recursos en consecuencia. Trabaja con las partes interesadas de la empresa para comprender el crecimiento proyectado y, luego, define los requisitos de infraestructura en consecuencia.

Usa Cloud Monitoring para analizar el uso histórico de los recursos, identificar tendencias y proyectar las necesidades futuras. Realiza pruebas de carga periódicas para simular cargas de trabajo y detectar cuellos de botella.

Familiarízate con las cuotas de los servicios que usas, como Compute Engine, Vertex AI y Cloud Storage.Google Cloud Solicita de forma proactiva aumentos de cuota a través de la consola de Google Cloud y justifica los aumentos con datos de las pruebas de previsión y carga. Supervisa el uso de la cuota y configura alertas para recibir notificaciones cuando el uso se acerque a los límites de la cuota.

Para optimizar el uso de recursos según la demanda, redimensiona tus recursos, usa VMs Spot para cargas de trabajo por lotes tolerantes a errores y, luego, implementa el ajuste de escala automático.

Prepárate para los eventos de tráfico máximo

Asegúrate de que tu sistema pueda controlar los aumentos repentinos en el tráfico o la carga de trabajo durante los eventos pico. Documenta tu estrategia para eventos de alta demanda y realiza simulacros periódicos para probar la capacidad de tu sistema de manejar una mayor carga.

Para aumentar de forma agresiva los recursos cuando la demanda se dispara, configura políticas de ajuste de escala automático en Compute Engine y GKE. Para patrones de picos predecibles, considera usar el ajuste de escala automático predictivo. Para activar el ajuste de escala automático en función de indicadores específicos de la aplicación, usa métricas personalizadas en Cloud Monitoring.

Distribuye el tráfico entre varias instancias de la aplicación con Cloud Load Balancing. Elige un tipo de balanceador de cargas adecuado según las necesidades de tu aplicación. Para los usuarios distribuidos geográficamente, puedes usar el balanceo de cargas global para enrutar el tráfico a la instancia disponible más cercana. Para arquitecturas complejas basadas en microservicios, considera usar Cloud Service Mesh.

Almacena contenido estático en caché en el perímetro de la red de Google con Cloud CDN. Para almacenar en caché los datos a los que se accede con frecuencia, puedes usar Memorystore, que ofrece un servicio en memoria completamente administrado para Redis, Valkey o Memcached.

Desacopla los componentes de tu sistema con Pub/Sub para la mensajería en tiempo real y Cloud Tasks para la ejecución de tareas asíncronas.

Cómo escalar aplicaciones para la producción

Para garantizar la publicación escalable en producción, puedes usar servicios administrados como el entrenamiento distribuido de Vertex AI y la inferencia de Vertex AI. Vertex AI Inference te permite configurar los tipos de máquinas para tus nodos de predicción cuando implementas un modelo en un extremo o solicitas predicciones por lotes. En algunas configuraciones, puedes agregar GPUs. Elige el tipo de máquina y los aceleradores adecuados para optimizar la latencia, el rendimiento y el costo.

Para escalar aplicaciones complejas de IA y Python, y cargas de trabajo personalizadas en recursos de procesamiento distribuidos, puedes usar Ray en Vertex AI. Esta función puede ayudar a optimizar el rendimiento y permite una integración perfecta con los servicios deGoogle Cloud . Ray en Vertex AI simplifica la computación distribuida, ya que se encarga de la administración de clústeres, la programación de tareas y la transferencia de datos. Se integra con otros servicios de Vertex AI, como entrenamiento, predicción y canalizaciones. Ray proporciona tolerancia a errores y ajuste de escala automático, y te ayuda a adaptar la infraestructura a las cargas de trabajo cambiantes. Ofrece un marco de trabajo unificado para el entrenamiento distribuido, el ajuste de hiperparámetros, el aprendizaje por refuerzo y la entrega de modelos. Usa Ray para el procesamiento previo de datos distribuidos con Dataflow o Dataproc, el entrenamiento de modelos acelerado, el ajuste de hiperparámetros escalable, el aprendizaje por refuerzo y la predicción por lotes paralelizada.

Colaboradores

Autores:

Otros colaboradores: