Cette page a été traduite par l'API Cloud Translation.

Point de vue de l'IA et du ML: excellence opérationnelle

Last reviewed 2025-04-28 UTC

Ce document du Framework Well-Architected : perspective de l'IA et du ML fournit une présentation des principes et des recommandations pour créer et exploiter des systèmes d'IA et de ML robustes sur Google Cloud. Ces recommandations vous aident à configurer des éléments fondamentaux tels que l'observabilité, l'automatisation et l'évolutivité. Les recommandations de ce document sont conformes au pilier d'excellence opérationnelle du Google Cloud Well-Architected Framework.

L'excellence opérationnelle dans le domaine de l'IA et du ML consiste à déployer, gérer et gouverner de manière fluide les systèmes et les pipelines d'IA et de ML qui contribuent à atteindre les objectifs stratégiques de votre organisation. L'excellence opérationnelle vous permet de répondre efficacement aux changements, de réduire la complexité opérationnelle et de vous assurer que vos opérations restent alignées sur vos objectifs commerciaux.

Les recommandations de ce document sont associées aux principes fondamentaux suivants :

Établir des bases solides pour le développement de modèles
Automatiser le cycle de vie du développement de modèles
Implémenter l'observabilité
Instaurer une culture de l'excellence opérationnelle
Concevoir des solutions évolutives

Établir une base solide pour le développement de modèles

Pour développer et déployer des systèmes d'IA fiables et évolutifs qui vous aident à atteindre vos objectifs commerciaux, il est essentiel de disposer d'une base solide pour le développement de modèles. Cette base permet des workflows cohérents, automatise les étapes critiques afin de réduire les erreurs et garantit que les modèles peuvent évoluer en fonction de la demande. Une base solide pour le développement de modèles garantit que vos systèmes de ML peuvent être mis à jour, améliorés et réentraînés de manière fluide. Elle vous aide également à aligner les performances de vos modèles sur les besoins de l'entreprise, à déployer rapidement des solutions d'IA efficaces et à vous adapter aux exigences changeantes.

Pour établir une base solide pour développer vos modèles d'IA, tenez compte des recommandations suivantes.

Définir les problèmes et les résultats requis

Avant de commencer un projet d'IA ou de ML, vous devez bien comprendre les problèmes commerciaux à résoudre et les résultats requis. Commencez par définir les objectifs commerciaux et à les décomposer en indicateurs clés de performance (KPI) mesurables. Pour organiser et documenter vos définitions de problèmes et vos hypothèses dans un environnement de notebook Jupyter, utilisez des outils tels que Vertex AI Workbench. Pour implémenter le contrôle des versions pour le code et les documents, et pour documenter vos projets, vos objectifs et vos hypothèses, utilisez des outils tels que Git. Pour développer et gérer des requêtes pour les applications d'IA générative, vous pouvez utiliser Vertex AI Studio.

Collecter et prétraiter les données nécessaires

Pour implémenter le prétraitement et la transformation des données, vous pouvez utiliser Dataflow (pour Apache Beam), Dataproc (pour Apache Spark) ou BigQuery si un processus basé sur SQL est approprié. Pour valider les schémas et détecter les anomalies, utilisez TensorFlow Data Validation (TFDV) et profitez des analyses automatisées de la qualité des données dans BigQuery, le cas échéant.

Pour l'IA générative, la qualité des données inclut la précision, la pertinence, la diversité et l'adéquation avec les caractéristiques de sortie requises. Lorsque les données réelles sont insuffisantes ou déséquilibrées, vous pouvez générer des données synthétiques pour améliorer la robustesse et la généralisation du modèle. Pour créer des ensembles de données synthétiques basés sur des modèles existants ou pour augmenter les données d'entraînement afin d'améliorer les performances des modèles, utilisez BigQuery DataFrames et Gemini. Les données synthétiques sont particulièrement utiles pour l'IA générative, car elles peuvent contribuer à améliorer la diversité des requêtes et la robustesse globale des modèles. Lorsque vous créez des ensembles de données pour affiner des modèles d'IA générative, pensez à utiliser les fonctionnalités de génération de données synthétiques dans Vertex AI.

Pour les tâches d'IA générative telles que l'affinage ou l'apprentissage par renforcement utilisant le feedback humain (RLHF), assurez-vous que les libellés reflètent précisément la qualité, la pertinence et la sécurité des résultats générés.

Sélectionner une approche de ML appropriée

Lorsque vous concevez votre modèle et vos paramètres, tenez compte de la complexité et des besoins de calcul du modèle. Selon la tâche (classification, régression ou génération, par exemple), envisagez d'utiliser l'entraînement personnalisé Vertex AI pour la création de modèles personnalisés ou AutoML pour les tâches de ML plus simples. Pour les applications courantes, vous pouvez également accéder à des modèles pré-entraînés via Vertex AI Model Garden. Vous pouvez tester différents modèles de fondation de pointe pour divers cas d'utilisation, comme la génération de texte, d'images et de code.

Vous pouvez affiner un modèle de fondation pré-entraîné pour obtenir des performances optimales pour votre cas d'utilisation spécifique. Pour répondre aux exigences de hautes performances lors de l'entraînement personnalisé, configurez des Cloud Tensor Processing Units (TPU) ou des ressources GPU pour accélérer l'entraînement et l'inférence des modèles de deep learning, comme les grands modèles de langage (LLM) et les modèles de diffusion.

Configurer le contrôle des versions pour le code, les modèles et les données

Pour gérer et déployer efficacement les versions de code, utilisez des outils tels que GitHub ou GitLab. Ces outils offrent des fonctionnalités de collaboration robustes, des stratégies de branching et une intégration aux pipelines CI/CD pour garantir un processus de développement simplifié.

Utilisez des solutions appropriées pour gérer chaque artefact de votre système de ML, comme les exemples suivants :

Pour les artefacts de code tels que les images de conteneurs et les composants de pipeline, Artifact Registry fournit une solution de stockage évolutive qui peut contribuer à améliorer la sécurité. Artifact Registry inclut également la gestion des versions et peut s'intégrer à Cloud Build et Cloud Deploy.
Pour gérer les artefacts de données, comme les ensembles de données utilisés pour l'entraînement et l'évaluation, utilisez des solutions telles que BigQuery ou Cloud Storage pour le stockage et le contrôle des versions.
Pour stocker les métadonnées et les pointeurs vers les emplacements des données, utilisez votre système de gestion des versions ou un catalogue de données distinct.

Pour assurer la cohérence et le contrôle des versions de vos données de caractéristiques, utilisez Vertex AI Feature Store. Pour suivre et gérer les artefacts de modèle, y compris les binaires et les métadonnées, utilisez Vertex AI Model Registry, qui vous permet de stocker, d'organiser et de déployer les versions de modèle de manière fluide.

Pour assurer la fiabilité du modèle, implémentez Vertex AI Model Monitoring. Détectez la dérive des données, suivez les performances et identifiez les anomalies en production. Pour les systèmes d'IA générative, surveillez les changements dans la qualité des résultats et la conformité en termes de sécurité.

Automatiser le cycle de vie du développement de modèles

L'automatisation vous aide à rationaliser chaque étape du cycle de vie de l'IA et du ML. L'automatisation réduit les efforts manuels et standardise les processus, ce qui améliore l'efficacité opérationnelle et réduit le risque d'erreurs. Les workflows automatisés permettent d'accélérer l'itération, de déployer des applications de manière cohérente dans tous les environnements et d'obtenir des résultats plus fiables. Vos systèmes peuvent ainsi évoluer et s'adapter de manière fluide.

Pour automatiser le cycle de vie du développement de vos systèmes d'IA et de ML, tenez compte des recommandations suivantes.

Utiliser un système d'orchestration de pipeline géré

Utilisez Vertex AI Pipelines pour automatiser chaque étape du cycle de vie du ML, de la préparation des données à l'entraînement, l'évaluation et le déploiement des modèles. Pour accélérer le déploiement et favoriser la cohérence entre les projets, automatisez les tâches récurrentes avec les exécutions de pipelines planifiées, surveillez les workflows avec les métriques d'exécution et développez des modèles de pipelines réutilisables pour les workflows standardisés. Ces capacités s'étendent aux modèles d'IA générative, qui nécessitent souvent des étapes spécialisées telles que l'ingénierie des requêtes, le filtrage des réponses et l'évaluation human-in-the-loop. Pour l'IA générative, Vertex AI Pipelines peut automatiser ces étapes, y compris l'évaluation des résultats générés par rapport aux métriques de qualité et aux consignes de sécurité. Pour améliorer la diversité des requêtes et la robustesse des modèles, les workflows automatisés peuvent également inclure des techniques d'augmentation des données.

Implémenter des pipelines CI/CD

Pour automatiser la création, le test et le déploiement de modèles de ML, utilisez Cloud Build. Ce service est particulièrement efficace lorsque vous exécutez des suites de tests pour le code d'application, ce qui garantit que l'infrastructure, les dépendances et le packaging du modèle répondent à vos exigences de déploiement.

Les systèmes de ML nécessitent souvent des étapes supplémentaires au-delà des tests de code. Par exemple, vous devez effectuer des tests de résistance des modèles sous différentes charges, effectuer des évaluations groupées pour évaluer les performances du modèle sur divers ensembles de données et valider l'intégrité des données avant le réentraînement. Pour simuler des charges de travail réalistes pour les tests de contrainte, vous pouvez utiliser des outils tels que Locust, Grafana k6 ou Apache JMeter. Pour identifier les goulots d'étranglement, surveillez les métriques clés telles que la latence, le taux d'erreur et l'utilisation des ressources à l'aide de Cloud Monitoring. Pour l'IA générative, les tests doivent également inclure des évaluations spécifiques au type de contenu généré, comme la qualité du texte, la fidélité des images ou la fonctionnalité du code. Ces évaluations peuvent impliquer des métriques automatisées telles que la perplexité pour les modèles de langage ou une évaluation humaine pour les aspects plus nuancés comme la créativité et la sécurité.

Pour implémenter des tâches de test et d'évaluation, vous pouvez intégrer Cloud Build à d'autres services Google Cloud . Par exemple, vous pouvez utiliser Vertex AI Pipelines pour l'évaluation automatisée des modèles, BigQuery pour l'analyse de données à grande échelle et la validation des pipelines Dataflow pour la validation des caractéristiques.

Vous pouvez améliorer davantage votre pipeline CI/CD en utilisant Vertex AI pour l'entraînement continu afin d'activer le réentraînement automatisé des modèles sur de nouvelles données. Plus précisément pour l'IA générative, afin de maintenir la pertinence et la diversité des résultats générés, le réentraînement peut impliquer la mise à jour automatique des modèles avec de nouvelles données ou requêtes d'entraînement. Vous pouvez utiliser Vertex AI Model Garden pour sélectionner les derniers modèles de base disponibles pour le réglage. Cette pratique permet de s'assurer que les modèles restent à jour et optimisés pour l'évolution des besoins de votre entreprise.

Implémenter des versions de modèles sécurisées et contrôlées

Pour minimiser les risques et assurer des déploiements fiables, implémentez une approche de publication de modèle qui vous permet de détecter les problèmes rapidement, de valider les performances et d'effectuer un rollback rapidement si nécessaire.

Pour empaqueter vos modèles et applications de ML dans des images de conteneur et les déployer, utilisez Cloud Deploy. Vous pouvez déployer vos modèles sur des points de terminaison Vertex AI.

Mettez en œuvre des versions contrôlées pour vos applications et systèmes d'IA en utilisant des stratégies telles que les versions Canary. Pour les applications qui utilisent des modèles gérés comme Gemini, nous vous recommandons de déployer progressivement les nouvelles versions de l'application auprès d'un sous-ensemble d'utilisateurs avant le déploiement complet. Cette approche vous permet de détecter rapidement les problèmes potentiels, en particulier lorsque vous utilisez des modèles d'IA générative dont les résultats peuvent varier.

Pour publier des modèles affinés, vous pouvez utiliser Cloud Deploy pour gérer le déploiement des versions de modèle et la stratégie de version Canary pour minimiser les risques. Avec les modèles gérés et les modèles affinés, l'objectif des versions contrôlées est de tester les modifications auprès d'une audience limitée avant de déployer les applications et les modèles auprès de tous les utilisateurs.

Pour une validation robuste, utilisez Vertex AI Experiments pour comparer les nouveaux modèles à ceux existants, et Vertex AI Model Evaluation pour évaluer les performances des modèles. Pour l'IA générative en particulier, définissez des métriques d'évaluation qui correspondent au cas d'utilisation prévu et aux risques potentiels. Vous pouvez utiliser le service d'évaluation de l'IA générative dans Vertex AI pour évaluer des métriques telles que la toxicité, la cohérence, l'exactitude factuelle et le respect des consignes de sécurité.

Pour garantir la fiabilité du déploiement, vous avez besoin d'un plan de rollback solide. Pour les systèmes de ML traditionnels, utilisez Vertex AI Model Monitoring pour détecter la dérive des données et la dégradation des performances. Pour les modèles d'IA générative, vous pouvez suivre les métriques pertinentes et configurer des alertes en cas de changement de la qualité des résultats ou d'apparition de contenu dangereux. Pour ce faire, utilisez l'évaluation de modèles Vertex AI avec Cloud Logging et Cloud Monitoring. Configurez des alertes basées sur des métriques spécifiques à l'IA générative pour déclencher des procédures de restauration si nécessaire. Pour suivre la lignée des modèles et revenir à la dernière version stable, utilisez les insights de Vertex AI Model Registry.

Implémenter l'observabilité

Le comportement des systèmes d'IA et de ML peut changer au fil du temps en raison de modifications apportées aux données ou à l'environnement, ainsi que de mises à jour des modèles. Cette nature dynamique rend l'observabilité essentielle pour détecter les problèmes de performances, les biais ou les comportements inattendus. C'est particulièrement vrai pour les modèles d'IA générative, car les résultats peuvent être très variables et subjectifs. L'observabilité vous permet de résoudre de manière proactive les comportements inattendus et de vous assurer que vos systèmes d'IA et de ML restent fiables, précis et équitables.

Pour implémenter l'observabilité de vos systèmes d'IA et de ML, tenez compte des recommandations suivantes.

Surveiller les performances en continu

Utilisez des métriques et des critères de réussite pour évaluer en continu les modèles après leur déploiement.

Vous pouvez utiliser Vertex AI Model Monitoring pour suivre de manière proactive les performances du modèle, identifier les écarts entre l'entraînement et le service, ainsi que la dérive des prédictions, et recevoir des alertes pour déclencher le réentraînement du modèle ou d'autres interventions nécessaires. Pour surveiller efficacement le décalage entraînement/diffusion, créez un ensemble de données de référence qui représente la distribution idéale des données, puis utilisez TFDV pour analyser vos données d'entraînement et établir un schéma de référence.

Configurez la surveillance des modèles pour comparer la distribution des données d'entrée à l'ensemble de données de référence afin de détecter automatiquement les écarts. Pour les modèles de ML traditionnels, concentrez-vous sur les métriques telles que la justesse, la précision, le rappel, le score F1, l'AUC-ROC et la perte logarithmique. Définissez des seuils personnalisés pour les alertes dans Model Monitoring. Pour l'IA générative, utilisez le service d'évaluation de l'IA générative pour surveiller en continu les résultats du modèle en production. Vous pouvez également activer les métriques d'évaluation automatique pour la qualité des réponses, la sécurité, le respect des instructions, l'ancrage, le style d'écriture et la verbosité. Pour évaluer la qualité, la pertinence, la sécurité et la conformité des résultats générés, vous pouvez intégrer une évaluation human-in-the-loop.

Créez des boucles de rétroaction pour réentraîner automatiquement les modèles avec Vertex AI Pipelines lorsque Model Monitoring déclenche une alerte. Utilisez ces insights pour améliorer vos modèles en continu.

Évaluer les modèles pendant le développement

Avant de déployer vos LLM et autres modèles d'IA générative, évaluez-les minutieusement pendant la phase de développement. Utilisez Vertex AI Model Evaluation pour obtenir des performances optimales et atténuer les risques. Utilisez l'évaluation rapide Vertex AI pour permettre à Google Cloud d'exécuter automatiquement des évaluations en fonction de l'ensemble de données et des requêtes que vous fournissez.

Vous pouvez également définir et intégrer des métriques personnalisées spécifiques à votre cas d'utilisation. Pour obtenir des commentaires sur le contenu généré, intégrez des workflows avec intervention humaine à l'aide de Vertex AI Model Evaluation.

Utilisez des tests antagonistes pour identifier les failles et les modes de défaillance potentiels. Pour identifier et atténuer les biais potentiels, utilisez des techniques telles que l'analyse des sous-groupes et la génération de données contrefactuelles. Utilisez les insights recueillis lors des évaluations effectuées pendant la phase de développement pour définir votre stratégie de surveillance des modèles en production. Préparez votre solution pour la surveillance continue, comme décrit dans la section Surveiller les performances en continu de ce document.

Surveiller la disponibilité

Pour obtenir de la visibilité sur l'état et les performances de vos points de terminaison et de votre infrastructure déployés, utilisez Cloud Monitoring. Pour vos points de terminaison Vertex AI, suivez les métriques clés telles que le taux de requêtes, le taux d'erreur, la latence et l'utilisation des ressources, et configurez des alertes pour les anomalies. Pour en savoir plus, consultez Métriques Cloud Monitoring pour Vertex AI.

Surveillez l'état de l'infrastructure sous-jacente, qui peut inclure des instances Compute Engine, des clusters Google Kubernetes Engine (GKE), ainsi que des TPU et des GPU. Obtenez des recommandations d'optimisation automatisées d'Active Assist. Si vous utilisez l'autoscaling, surveillez le comportement de scaling pour vous assurer qu'il répond de manière appropriée aux changements dans les schémas de trafic.

Suivez l'état des déploiements de modèles, y compris les versions Canary et les rollbacks, en intégrant Cloud Deploy à Cloud Monitoring. De plus, surveillez les menaces et les failles de sécurité potentielles à l'aide de Security Command Center.

Configurer des alertes personnalisées pour des seuils spécifiques à votre activité

Pour identifier et corriger rapidement les anomalies et les problèmes, configurez des alertes personnalisées basées sur des seuils spécifiques à vos objectifs commerciaux. Voici quelques exemples de produits Google Cloud que vous pouvez utiliser pour implémenter un système d'alerte personnalisé :

Cloud Logging : collectez, stockez et analysez les journaux de tous les composants de votre système d'IA et de ML.
Cloud Monitoring : créez des tableaux de bord personnalisés pour visualiser les métriques et les tendances clés, et définissez des métriques personnalisées en fonction de vos besoins. Configurez des alertes pour recevoir des notifications sur les problèmes critiques, et intégrez-les à vos outils de gestion des incidents tels que PagerDuty ou Slack.
Error Reporting : capturez et analysez automatiquement les erreurs et les exceptions.
Cloud Trace : analysez les performances des systèmes distribués et identifiez les goulots d'étranglement. Le traçage est particulièrement utile pour comprendre la latence entre les différents composants de votre pipeline d'IA et de ML.
Cloud Profiler : analysez en continu les performances de votre code en production et identifiez les goulots d'étranglement en termes d'utilisation du processeur ou de la mémoire.

Développer une culture de l'excellence opérationnelle

Passez de la simple création de modèles à la création de solutions d'IA durables, fiables et efficaces. Permettez aux équipes d'apprendre, d'innover et de s'améliorer en continu, ce qui permet d'accélérer les cycles de développement, de réduire les erreurs et d'accroître l'efficacité. En donnant la priorité à l'automatisation, à la standardisation et aux considérations éthiques, vous pouvez vous assurer que vos initiatives d'IA et de ML offrent constamment de la valeur, atténuent les risques et favorisent le développement d'une IA responsable.

Pour développer une culture d'excellence opérationnelle pour vos systèmes d'IA et de ML, tenez compte des recommandations suivantes.

Promouvoir l'automatisation et la standardisation

Pour mettre l'accent sur l'efficacité et la cohérence, intégrez l'automatisation et les pratiques standardisées à chaque étape du cycle de vie de l'IA et du ML. L'automatisation réduit les erreurs manuelles et permet aux équipes de se concentrer sur l'innovation. La standardisation garantit que les processus sont reproductibles et évolutifs pour les équipes et les projets.

Priorité à l'apprentissage et à l'amélioration continus

Favorisez un environnement où la formation continue et l'expérimentation sont des principes fondamentaux. Encouragez les équipes à se tenir au courant des avancées de l'IA et du ML, et à tirer des enseignements des projets passés. Une culture de la curiosité et de l'adaptation stimule l'innovation et permet aux équipes de relever de nouveaux défis.

Cultiver la responsabilité et l'appropriation

Établissez la confiance et l'alignement en définissant clairement les rôles, les responsabilités et les métriques de réussite. Permettez aux équipes de prendre des décisions éclairées dans ces limites et établissez des moyens transparents pour mesurer les progrès. Un sentiment d'appartenance motive les équipes et garantit une responsabilité collective vis-à-vis des résultats.

Intégrer des considérations éthiques et de sécurité liées à l'IA

Priorisez les considérations éthiques à chaque étape du développement. Encouragez les équipes à réfléchir de manière critique à l'impact de leurs solutions d'IA et à favoriser les discussions sur l'équité, les biais et l'impact sociétal. Des principes clairs et des mécanismes de responsabilisation permettent de s'assurer que vos systèmes d'IA sont en accord avec les valeurs de votre organisation et favorisent la confiance.

Concevoir pour l'évolutivité

Pour faire face à l'augmentation des volumes de données et des demandes des utilisateurs, et pour maximiser la valeur des investissements dans l'IA, vos systèmes d'IA et de ML doivent être évolutifs. Les systèmes doivent s'adapter et fonctionner de manière optimale pour éviter les goulots d'étranglement des performances qui nuisent à l'efficacité. Lorsque vous concevez une solution évolutive, vous vous assurez que l'infrastructure d'IA peut gérer la croissance et maintenir sa réactivité. Utilisez une infrastructure évolutive, planifiez la capacité et employez des stratégies telles que le scaling horizontal et les services gérés.

Pour concevoir vos systèmes d'IA et de ML de manière à ce qu'ils soient évolutifs, tenez compte des recommandations suivantes.

Planifier la capacité et les quotas

Évaluez votre croissance future et planifiez la capacité de votre infrastructure et vos quotas de ressources en conséquence. Collaborez avec les parties prenantes de l'entreprise pour comprendre la croissance prévue, puis définissez les exigences d'infrastructure en conséquence.

Utilisez Cloud Monitoring pour analyser l'utilisation historique des ressources, identifier les tendances et prévoir les besoins futurs. Effectuez régulièrement des tests de charge pour simuler des charges de travail et identifier les goulots d'étranglement.

Familiarisez-vous avec les Google Cloud quotas des services que vous utilisez, tels que Compute Engine, Vertex AI et Cloud Storage. Demandez de manière proactive des augmentations de quota via la console Google Cloud et justifiez-les avec des données issues des prévisions et des tests de charge. Surveillez l'utilisation des quotas et configurez des alertes pour recevoir des notifications lorsque l'utilisation approche des limites de quota.

Pour optimiser l'utilisation des ressources en fonction de la demande, redimensionnez vos ressources, utilisez des VM Spot pour les charges de travail par lot tolérantes aux pannes et implémentez l'autoscaling.

Se préparer aux pics d'activité

Assurez-vous que votre système peut gérer les pics soudains de trafic ou de charge de travail lors des événements importants. Documentez votre stratégie pour les pics d'événements et effectuez des exercices réguliers pour tester la capacité de votre système à gérer une charge accrue.

Pour augmenter rapidement les ressources lorsque la demande augmente, configurez des règles d'autoscaling dans Compute Engine et GKE. Pour les pics prévisibles, envisagez d'utiliser l'autoscaling prédictif. Pour déclencher l'autoscaling en fonction de signaux spécifiques à l'application, utilisez des métriques personnalisées dans Cloud Monitoring.

Répartissez le trafic entre plusieurs instances d'application à l'aide de Cloud Load Balancing. Choisissez un type d'équilibreur de charge adapté aux besoins de votre application. Pour les utilisateurs répartis géographiquement, vous pouvez utiliser l'équilibrage de charge global pour acheminer le trafic vers l'instance disponible la plus proche. Pour les architectures complexes basées sur des microservices, envisagez d'utiliser Cloud Service Mesh.

Mettez en cache le contenu statique à la périphérie du réseau Google à l'aide de Cloud CDN. Pour mettre en cache les données fréquemment consultées, vous pouvez utiliser Memorystore, qui propose un service en mémoire entièrement géré pour Redis, Valkey ou Memcached.

Découplez les composants de votre système en utilisant Pub/Sub pour la messagerie en temps réel et Cloud Tasks pour l'exécution de tâches asynchrones.

Mettre à l'échelle les applications pour la production

Pour assurer un service évolutif en production, vous pouvez utiliser des services gérés tels que Vertex AI Distributed Training et Vertex AI Inference. Vertex AI Inference vous permet de configurer les types de machines pour vos nœuds de prédiction lorsque vous déployez un modèle sur un point de terminaison ou que vous demandez des prédictions par lot. Pour certaines configurations, vous pouvez ajouter des GPU. Choisissez le type de machine et les accélérateurs appropriés pour optimiser la latence, le débit et les coûts.

Pour mettre à l'échelle des applications d'IA et Python complexes, ainsi que des charges de travail personnalisées sur des ressources de calcul distribuées, vous pouvez utiliser Ray sur Vertex AI. Cette fonctionnalité peut vous aider à optimiser les performances et permet une intégration fluide avec les servicesGoogle Cloud . Ray sur Vertex AI simplifie le calcul distribué en gérant la gestion des clusters, la planification des tâches et le transfert de données. Il s'intègre à d'autres services Vertex AI, comme l'entraînement, la prédiction et les pipelines. Ray offre une tolérance aux pannes et un autoscaling, et vous aide à adapter l'infrastructure aux charges de travail changeantes. Il offre un framework unifié pour l'entraînement distribué, le réglage des hyperparamètres, l'apprentissage par renforcement et la mise en service de modèles. Utilisez Ray pour le prétraitement distribué des données avec Dataflow ou Dataproc, l'entraînement accéléré des modèles, l'optimisation évolutive des hyperparamètres, l'apprentissage par renforcement et la prédiction par lot parallélisée.

Contributeurs

Auteurs :

Charlotte Gistelinck, PhD | ingénieur partenaire
Sannya Dang | Architecte de solutions d'IA
Filipe Gracio, PhD | Ingénieur client, spécialiste en IA/ML

Autres contributeurs :

Gary Harmson | Architecte principal
Kumar Dhanagopal Développeur de solutions multiproduits
Marwan Al Shawi | Partner Customer Engineer
Ryan Cox | Architecte principal
Stef Ruinard | Architecte de solutions d'IA générative

Aperçu

Sécurité