Workflows tabulaires sur Vertex AI

Les workflows tabulaires sont un ensemble de pipelines intégrés, entièrement gérés et évolutifs pour le ML de bout en bout avec des données tabulaires. Cet outil s'appuie sur la technologie de Google pour le développement de modèles et propose des options de personnalisation adaptées à vos besoins.

Avantages

  • Entièrement géré : vous n'avez pas à vous soucier des mises à jour, des dépendances et des conflits.
  • Évolutivité facile : vous n'avez pas besoin de repenser l'infrastructure au fur et à mesure de la croissance des charges de travail ou des ensembles de données.
  • Optimisé pour les performances : le bon matériel est automatiquement configuré pour répondre aux exigences du workflow.
  • Profondément intégré : la compatibilité avec les produits de la suite MLOps Vertex AI, comme Vertex AI Pipelines et Vertex AI Experiments, vous permet d'exécuter de nombreux tests en très peu de temps.

Présentation technique

Chaque workflow est une instance gérée de Vertex AI Pipelines.

Vertex AI Pipelines est un service sans serveur qui exécute des pipelines Kubeflow. Vous pouvez utiliser des pipelines pour automatiser et surveiller vos tâches de machine learning et de préparation des données. Chaque étape d'un pipeline effectue une partie du workflow du pipeline. Par exemple, un pipeline peut inclure des étapes permettant de diviser les données, de transformer les types de données et d'entraîner un modèle. Comme les étapes sont des instances de composants du pipeline, elles comportent des entrées, des sorties et une image de conteneur. Les entrées d'étape peuvent être définies à partir des entrées du pipeline ou elles peuvent dépendre de la sortie d'autres étapes dans ce pipeline. Ces dépendances définissent le workflow du pipeline en tant que graphe orienté acyclique.

workflows tabulaires en tant que graphe orienté acyclique

Commencer

Dans la plupart des cas, vous devez définir et exécuter le pipeline à l'aide du SDK de composants de pipelineGoogle Cloud . L'exemple de code suivant fournit une illustration. Notez que l'implémentation réelle du code peut être différente.

  // Define the pipeline and the parameters
  template_path, parameter_values = tabular_utils.get_default_pipeline_and_parameters(
           optimization_objective=optimization_objective,
      data_source=data_source,
      target_column_name=target_column_name
     )
  // Run the pipeline
  job = pipeline_jobs.PipelineJob(..., template_path=template_path, parameter_values=parameter_values)
  job.run(...)

Pour obtenir des exemples de colabs et de notebooks, contactez votre conseiller commercial ou remplissez un formulaire de demande.

Gestion des versions et maintenance

Les workflows tabulaires disposent d'un système de gestion des versions efficace qui permet des mises à jour et des améliorations continues sans pour autant affecter vos applications.

Chaque workflow est publié et mis à jour avec le SDK de composants de pipelineGoogle Cloud . Les mises à jour et les modifications apportées à un workflow sont déployées en tant que nouvelles versions de ce workflow. Les versions précédentes de chaque workflow sont toujours disponibles par le biais des anciennes versions du SDK. Si la version du SDK est épinglée, la version du workflow l'est également.

Workflows disponibles

Vertex AI fournit les workflows tabulaires suivants :

Nom Type Disponibilité
Feature Transform Engine Ingénierie des caractéristiques Version Preview publique
AutoML de bout en bout Classification et régression Disponibilité générale
TabNet Classification et régression Version Preview publique
Wide & Deep Classification et régression Version Preview publique
Forecasting Prévision Version Preview publique

Pour obtenir plus d'informations et des exemples de notebooks, contactez votre conseiller commercial ou remplissez un formulaire de demande.

Feature Transform Engine

Feature Transform Engine effectue une sélection de caractéristiques et des transformations de caractéristiques. Si la sélection de caractéristiques est activée, Feature Transform Engine crée un ensemble classé de caractéristiques importantes. Si les transformations de caractéristiques sont activées, Feature Transform Engine traite les caractéristiques pour s'assurer que les entrées pour l'entraînement et la mise en service du modèle sont cohérentes. Feature Transform Engine peut être utilisé seul ou avec n'importe quel workflow d'entraînement tabulaire. Il est compatible avec les frameworks TensorFlow et non TensorFlow.

Pour en savoir plus, consultez Ingénierie des caractéristiques.

Workflows tabulaires pour la classification et la régression

Workflow tabulaire pour AutoML de bout en bout

Le workflow tabulaire pour AutoML de bout en bout est un pipeline AutoML complet pour les tâches de classification et de régression. Il est semblable à l'API AutoML, mais vous permet de choisir les éléments à contrôler et les éléments à automatiser. Au lieu de disposer de contrôles pour la totalité du pipeline, vous disposez de contrôles pour chaque étape du pipeline. Ces contrôles du pipeline incluent les éléments suivants :

  • Division des données
  • Ingénierie des caractéristiques
  • Recherche d'architecture
  • Entraînement du modèle
  • Assemblage du modèle
  • Distillation du modèle

Avantages

  • Il accepte les ensembles de données volumineux de plusieurs To et comportant jusqu'à 1 000 colonnes.
  • Il permet d'améliorer la stabilité et de réduire le temps d'entraînement en limitant l'espace de recherche des types d'architecture ou en ignorant la recherche d'architecture.
  • Il permet d'améliorer la vitesse d'entraînement en sélectionnant manuellement le matériel utilisé pour l'entraînement et la recherche d'architecture.
  • Il permet de réduire la taille du modèle et d'améliorer la latence avec la distillation ou en modifiant la taille de l'ensemble.
  • Chaque composant AutoML peut être inspecté dans une interface graphique de pipelines puissante qui vous permet de voir les tables de données transformées, les architectures de modèle évaluées et bien d'autres détails.
  • Chaque composant AutoML offre une flexibilité et une transparence accrues, telles que la possibilité de personnaliser les paramètres et le matériel, d'afficher l'état des processus et les journaux, etc.

Entrée/Sortie

  • Il utilise une table BigQuery ou un fichier CSV à partir de Cloud Storage en entrée.
  • Il génère un modèle Vertex AI en sortie.
  • Les sorties intermédiaires incluent les statistiques et les divisions des ensembles de données.

Pour en savoir plus, consultez Workflow tabulaire pour AutoML de bout en bout.

Workflow tabulaire pour TabNet

Le workflow tabulaire pour TabNet est un pipeline qui vous permet d'entraîner des modèles de classification ou de régression. TabNet utilise une attention séquentielle pour choisir les caractéristiques à partir desquelles établir le raisonnement, à chaque étape de décision. Cela permet une interprétabilité et un apprentissage plus efficace, car la capacité d'apprentissage est utilisée pour les caractéristiques les plus saillantes.

Avantages

  • Il sélectionne automatiquement l'espace de recherche d'hyperparamètres approprié en fonction de la taille de l'ensemble de données, du type de prédiction et du budget d'entraînement.
  • Il est intégré à Vertex AI. Le modèle entraîné est un modèle Vertex AI. Vous pouvez exécuter des prédictions par lots ou déployer immédiatement le modèle pour obtenir des prédictions en ligne.
  • Il fournit une interprétabilité inhérente au modèle. Vous pouvez obtenir des informations sur les fonctionnalités utilisées par TabNet pour prendre sa décision.
  • Il est compatible avec l'entraînement avec GPU.

Entrée/Sortie

Il utilise en entrée une table BigQuery ou un fichier CSV à partir de Cloud Storage, et fournit un modèle Vertex AI en sortie.

Pour plus d'informations, consultez Workflow tabulaire pour TabNet.

Workflow tabulaire pour Wide & Deep

Le workflow tabulaire pour Wide & Deep est un pipeline que vous pouvez utiliser pour entraîner des modèles de classification ou de régression. Les pipelines Wide & Deep permettent d'entraîner conjointement des modèles linéaires larges et des réseaux de neurones profonds. Ils combinent les avantages de la mémorisation et de la généralisation. Dans certains tests en ligne, les résultats ont montré que les modèles Wide & Deep ont augmenté de manière significative les acquisitions d'applications Google Store par rapport aux modèles uniquement larges et uniquement profonds.

Avantages

  • Il est intégré à Vertex AI. Le modèle entraîné est un modèle Vertex AI. Vous pouvez exécuter des prédictions par lots ou déployer immédiatement le modèle pour obtenir des prédictions en ligne.

Entrée/Sortie

Il utilise en entrée une table BigQuery ou un fichier CSV à partir de Cloud Storage, et fournit un modèle Vertex AI en sortie.

Pour en savoir plus, consultez Workflow tabulaire pour Wide & Deep.

Workflows tabulaires pour les prévisions

Workflow tabulaire pour les prévisions

Le workflow tabulaire pour les prévisions est le pipeline complet pour les tâches de prévision. Il est semblable à l'API AutoML, mais vous permet de choisir les éléments à contrôler et les éléments à automatiser. Au lieu de disposer de contrôles pour la totalité du pipeline, vous disposez de contrôles pour chaque étape du pipeline. Ces contrôles du pipeline incluent les éléments suivants :

  • Division des données
  • Ingénierie des caractéristiques
  • Recherche d'architecture
  • Entraînement du modèle
  • Assemblage du modèle

Avantages

  • Il accepte les ensembles de données volumineux d'une taille maximale de 1 To et comportant jusqu'à 200 colonnes.
  • Il permet d'améliorer la stabilité et de réduire le temps d'entraînement en limitant l'espace de recherche des types d'architecture ou en ignorant la recherche d'architecture.
  • Il permet d'améliorer la vitesse d'entraînement en sélectionnant manuellement le matériel utilisé pour l'entraînement et la recherche d'architecture.
  • Pour certaines méthodes d'entraînement de modèle, vous pouvez réduire la taille du modèle et améliorer la latence en modifiant la taille de l'ensemble.
  • Chaque composant peut être inspecté dans une interface graphique de pipelines puissante qui vous permet de voir les tables de données transformées, les architectures de modèle évaluées et bien d'autres détails.
  • Chaque composant offre une flexibilité et une transparence accrues, telles que la possibilité de personnaliser les paramètres et le matériel, d'afficher l'état des processus et les journaux, etc.

Entrée/Sortie

  • Il utilise une table BigQuery ou un fichier CSV à partir de Cloud Storage en entrée.
  • Il génère un modèle Vertex AI en sortie.
  • Les sorties intermédiaires incluent les statistiques et les divisions des ensembles de données.

Pour en savoir plus, consultez Workflow tabulaire pour les prévisions.

Étapes suivantes