Ce document présente le pipeline et les composants du workflow tabulaire pour les prévisions. Pour savoir comment entraîner un modèle, consultez Entraîner un modèle avec un workflow tabulaire pour les prévisions.
Le workflow tabulaire pour les prévisions est le pipeline complet pour les tâches de prévision. Il est semblable à l'API AutoML, mais vous permet de choisir les éléments à contrôler et les éléments à automatiser. Au lieu de disposer de contrôles pour la totalité du pipeline, vous disposez de contrôles pour chaque étape du pipeline. Ces contrôles du pipeline incluent les éléments suivants :
- Division des données
- Ingénierie des caractéristiques
- Recherche d'architecture
- Entraînement du modèle
- Assemblage du modèle
Avantages
Voici quelques avantages du workflow tabulaire pour les prévisions :
- Il accepte les ensembles de données volumineux d'une taille maximale de 1 To et comportant jusqu'à 200 colonnes.
- Permet d'améliorer la stabilité et de réduire le temps d'entraînement en limitant l'espace de recherche des types d'architecture ou en ignorant la recherche d'architecture.
- Il permet d'améliorer la vitesse d'entraînement en sélectionnant manuellement le matériel utilisé pour l'entraînement et la recherche d'architecture.
- Il permet de réduire la taille du modèle et d'améliorer la latence en modifiant la taille de l'ensemble.
- Chaque composant peut être inspecté dans une interface graphique de pipelines puissante qui vous permet de voir les tables de données transformées, les architectures de modèle évaluées et bien d'autres détails.
- Chaque composant offre une flexibilité et une transparence accrues, telles que la possibilité de personnaliser les paramètres et le matériel, d'afficher l'état des processus et les journaux, etc.
Prévisions sur Vertex AI Pipelines
Le workflow tabulaire pour les prévisions est une instance gérée de Vertex AI Pipelines.
Vertex AI Pipelines est un service sans serveur qui exécute des pipelines Kubeflow. Vous pouvez utiliser des pipelines pour automatiser et surveiller vos tâches de machine learning et de préparation des données. Chaque étape d'un pipeline effectue une partie du workflow du pipeline. Par exemple, un pipeline peut inclure des étapes permettant de diviser les données, de transformer les types de données et d'entraîner un modèle. Comme les étapes sont des instances de composants du pipeline, elles comportent des entrées, des sorties et une image de conteneur. Les entrées d'étape peuvent être définies à partir des entrées du pipeline ou elles peuvent dépendre de la sortie d'autres étapes dans ce pipeline. Ces dépendances définissent le workflow du pipeline en tant que graphe orienté acyclique.
Présentation du pipeline et des composants
Le diagramme suivant illustre le pipeline de modélisation du workflow tabulaire pour les prévisions :
Les composants du pipeline sont les suivants :
- feature-transform-engine : effectue l'ingénierie des caractéristiques. Pour en savoir plus, consultez la page Feature Transform Engine.
training-configurator-and-validator : valide la configuration d'entraînement et génère les métadonnées d'entraînement.
Entrée :
instance_schema
: schéma d'instance dans la spécification OpenAPI, qui décrit les types de données des données d'inférence.dataset_stats
: statistiques décrivant l'ensemble de données brut. Par exemple,dataset_stats
indique le nombre de lignes dans l'ensemble de données.training_schema
: schéma de données d'entraînement dans la spécification OpenAPI, qui décrit les types des données d'entraînement.
split-materialized-data : divise les données matérialisées en un ensemble d'entraînement, un ensemble d'évaluation et un ensemble de test.
Entrée :
materialized_data
: données matérialisées
Sortie :
materialized_train_split
: division d'entraînement matérialiséematerialized_eval_split
: division d'évaluation matérialiséematerialized_test_split
: ensemble de test matérialisé
calculate-training-parameters-2 : calcule la durée d'exécution attendue pour automl-forecasting-stage-1-tuner.
get-hyperparameter-tuning-results - Facultatif : si vous avez configuré le pipeline pour qu'il ignore la recherche d'architecture, chargez les résultats du réglage des hyperparamètres d'une exécution de pipeline précédente.
Effectuez une recherche d'architecture du modèle et ajustez les hyperparamètres (automl-forecasting-stage-1-tuner) ou utilisez les résultats du réglage des hyperparamètres d'une exécution de pipeline précédente (automl-forecasting-stage-2-tuner).
- Une architecture est définie par un ensemble d'hyperparamètres.
- Les hyperparamètres incluent le type de modèle et les paramètres du modèle.
- Les types de modèles pris en compte sont les réseaux de neurones et les arbres de décision à boosting.
- Un modèle est entraîné pour chaque architecture prise en compte.
Entrée :
materialized_train_split
: division d'entraînement matérialiséematerialized_eval_split
: division d'évaluation matérialiséeartifact
: résultats du réglage des hyperparamètres d'une exécution de pipeline précédente. Cet artefact n'est une entrée que si vous avez configuré le pipeline pour ignorer la recherche d'architecture.
Sortie :
tuning_result_output
: résultat de réglage
get-prediction-image-uri-2: génère l'URI d'image d'inférence correcte en fonction du type de modèle.
automl-forecasting-ensemble-2 : assemble les meilleures architectures pour produire un modèle final.
Entrée :
tuning_result_output
: résultat de réglage
Sortie :
unmanaged_container_model
: modèle de sortie
model-upload-2 - Importe le modèle.
Entrée :
unmanaged_container_model
: modèle de sortie
Sortie :
model
: modèle Vertex AI
should_run_model_evaluation - Facultatif : utilise l'ensemble de test pour calculer les métriques d'évaluation.