O fluxo de trabalho tabular para o AutoML de ponta a ponta é um pipeline completo do AutoML para
tarefas de classificação e regressão. Ele é semelhante à
API AutoML,
mas permite que você escolha o que controlar e o que automatizar. Em vez de ter
controles para o pipeline inteiro, você tem controles para cada etapa
no pipeline. Esses controles de pipeline incluem o seguinte:
Divisão de dados
Engenharia de atributos
Pesquisa de arquitetura
Treinamento de modelo
Conjunto de modelos
Destilação de modelo
Vantagens
Confira alguns dos benefícios do
fluxo de trabalho tabular para o AutoML de ponta a ponta
:
Suporta grandes conjuntos de dados com vários TB de tamanho e até 1.000 colunas.
Permite melhorar a estabilidade e reduzir o tempo de treinamento limitando o espaço de pesquisa de tipos de arquitetura ou pulando a pesquisa de arquitetura.
Permite melhorar a velocidade do treinamento selecionando manualmente o hardware usado para pesquisa de treinamento e arquitetura.
Permite reduzir o tamanho do modelo e melhorar a latência com destilação ou mudando o tamanho do ensemble.
Cada componente do AutoML pode ser inspecionado em uma ótima interface de gráfico de pipelines que permite ver as tabelas de dados transformadas, as arquiteturas de modelos avaliadas e muitos outros detalhes.
Os componentes do AutoML têm mais flexibilidade e transparência, como personalização de parâmetros, hardware, status do processo de visualização, registros e muito mais.
End to End AutoML no Vertex AI Pipelines
O fluxo de trabalho tabular para o AutoML End-to-End é uma instância gerenciada do Vertex AI Pipelines.
O Vertex AI Pipelines é um serviço sem servidor que executa pipelines do Kubeflow. É possível usar pipelines para automatizar e monitorar suas tarefas de machine learning e de preparação de dados. Cada etapa em um pipeline executa parte do fluxo de trabalho do pipeline. Por exemplo,
um pipeline pode incluir etapas para dividir dados, transformar tipos de dados e treinar um modelo. Como as etapas são instâncias de componentes do pipeline, as etapas têm entradas, saídas e uma imagem de contêiner. As entradas de etapa podem ser definidas nas entradas do pipeline ou elas podem depender da saída de outras etapas dentro do pipeline. Essas dependências definem o fluxo de trabalho do pipeline como um gráfico acíclico dirigido.
Visão geral do pipeline e dos componentes
O diagrama a seguir mostra o pipeline de modelagem do Fluxo de trabalho tabular para AutoML de ponta a ponta:
Estes são os componentes do pipeline:
feature-transform-engine: executa a engenharia de atributos. Consulte Feature Transform Engine para saber mais detalhes.
split-materialized-data:
divida os dados materializados em um conjunto de treinamento, de avaliação e de teste.
Entrada:
Dados materializados materialized_data.
Saída:
Divisão de treinamento materializada materialized_train_split.
Divisão de avaliação materializada materialized_eval_split.
Conjunto de teste materializado materialized_test_split.
merge-materialized-splits: mescla a divisão de avaliação materializada e a divisão de treinamento materializado.
automl-tabular-stage-1-tuner: realiza a pesquisa de arquitetura de modelo e ajusta hiperparâmetros.
Uma arquitetura é definida por um conjunto de hiperparâmetros.
Os hiperparâmetros incluem o tipo de modelo e os parâmetros do modelo.
Os tipos de modelo considerados são redes neurais e árvores aprimoradas.
O sistema treina um modelo para cada arquitetura considerada.
automl-tabular-cv-trainer: valida arquiteturas cruzadas treinando modelos em diferentes dobras dos dados de entrada.
As arquiteturas consideradas são aquelas que fornecem os melhores resultados na etapa anterior.
O sistema seleciona aproximadamente dez melhores arquiteturas. O número exato é
definido pelo orçamento de treinamento.
automl-tabular-ensemble: combina as melhores arquiteturas para produzir um modelo final.
O diagrama a seguir ilustra a validação cruzada do K-fold com bagging:
condition-is-distill: opcional. Cria uma versão menor do modelo de conjunto.
Um modelo menor reduz a latência e o custo da inferência.
automl-tabular-infra-validator: valida se o modelo treinado é válido.
model-upload: faz o upload do modelo.
condition-is-evaluation: opcional. Usa o conjunto de teste para calcular métricas de avaliação.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-18 UTC."],[],[],null,["# Tabular Workflow for End-to-End AutoML\n\nThis document provides an overview of the End-to-End AutoML\n[pipeline and components](#components). To learn how to train a model with End-to-End AutoML,\nsee [Train a model with End-to-End AutoML](/vertex-ai/docs/tabular-data/tabular-workflows/e2e-automl-train).\n\n\nTabular Workflow for End-to-End AutoML is a complete AutoML\npipeline for classification and regression tasks. It is similar to the\n[AutoML API](/vertex-ai/docs/tabular-data/classification-regression/overview),\nbut allows you to choose what to control and what to automate. Instead of having\ncontrols for the *whole* pipeline, you have controls for *every step* in the\npipeline. These pipeline controls include:\n\n- Data splitting\n- Feature engineering\n- Architecture search\n- Model training\n- Model ensembling\n- Model distillation\n\n\u003cbr /\u003e\n\nBenefits\n--------\n\nThe following lists some of the benefits of\nTabular Workflow for End-to-End AutoML\n:\n\n\n- Supports **large datasets** that are multiple TB in size and have up to 1000 columns.\n- Allows you to **improve stability and lower training time** by limiting the search space of architecture types or skipping architecture search.\n- Allows you to **improve training speed** by manually selecting the hardware used for training and architecture search.\n- Allows you to **reduce model size and improve latency** with distillation or by changing the ensemble size.\n- Each AutoML component can be inspected in a powerful pipelines graph interface that lets you see the transformed data tables, evaluated model architectures, and many more details.\n- Each AutoML component gets extended flexibility and transparency, such as being able to customize parameters, hardware, view process status, logs, and more.\n\n\u003cbr /\u003e\n\nEnd-to-End AutoML on Vertex AI Pipelines\n----------------------------------------\n\n\nTabular Workflow for End-to-End AutoML\nis a managed instance of Vertex AI Pipelines.\n\n\n[Vertex AI Pipelines](/vertex-ai/docs/pipelines/introduction) is a serverless\nservice that runs Kubeflow pipelines. You can use pipelines to automate\nand monitor your machine learning and data preparation tasks. Each step in a\npipeline performs part of the pipeline's workflow. For example,\na pipeline can include steps to split data, transform data types, and train a model. Since steps\nare instances of pipeline components, steps have inputs, outputs, and a\ncontainer image. Step inputs can be set from the pipeline's inputs or they can\ndepend on the output of other steps within this pipeline. These dependencies\ndefine the pipeline's workflow as a directed acyclic graph.\n\nOverview of pipeline and components\n-----------------------------------\n\nThe following diagram shows the modeling pipeline for\nTabular Workflow for End-to-End AutoML\n:\n\n\u003cbr /\u003e\n\nThe pipeline components are:\n\n1. **feature-transform-engine** : Performs feature engineering. See [Feature Transform Engine](/vertex-ai/docs/tabular-data/tabular-workflows/feature-engineering) for details.\n2. **split-materialized-data** : Split the materialized data into a training set, an evaluation set, and a test set.\n\n \u003cbr /\u003e\n\n Input:\n - Materialized data `materialized_data`.\n\n Output:\n - Materialized training split `materialized_train_split`.\n - Materialized evaluation split `materialized_eval_split`.\n - Materialized test set `materialized_test_split`.\n3. **merge-materialized-splits** - Merges the materialized evaluation split and the materialized train split.\n4. **automl-tabular-stage-1-tuner** - Performs model architecture search and tunes hyperparameters.\n\n - An architecture is defined by a set of hyperparameters.\n - Hyperparameters include the model type and the model parameters.\n - Model types considered are neural networks and boosted trees.\n - The system trains a model for each architecture considered.\n5. **automl-tabular-cv-trainer** - Cross-validates architectures by training models on different folds of the input data.\n\n - The architectures considered are those that give the best results in the previous step.\n - The system selects approximately ten best architectures. The precise number is defined by the training budget.\n6. **automl-tabular-ensemble** - Ensembles the best architectures to produce a final model.\n\n - The following diagram illustrates K-fold cross-validation with bagging:\n\n \u003cbr /\u003e\n\n7. **condition-is-distill** - **Optional**. Creates a smaller version of the ensemble model.\n\n - A smaller model reduces latency and cost for inference.\n8. **automl-tabular-infra-validator** - Validates whether the trained model is a valid model.\n\n9. **model-upload** - Uploads the model.\n\n10. **condition-is-evaluation** - **Optional**. Uses the test set to calculate evaluation metrics.\n\nWhat's next\n-----------\n\n- [Train a model using End-to-End\n AutoML](/vertex-ai/docs/tabular-data/tabular-workflows/e2e-automl-train)."]]