예측용 테이블 형식 워크플로

이 문서에서는 예측용 테이블 형식 워크플로 파이프라인 및 구성요소를 간략하게 설명합니다. 모델 학습 방법은 예측용 테이블 형식 워크플로를 사용한 모델 학습 을 참고하세요.

예측용 테이블 형식 워크플로는 예측 태스크의 전체 파이프라인입니다. AutoML API와 비슷하지만 제어할 항목과 자동화할 항목을 선택할 수 있습니다. 전체 파이프라인을 제어하는 대신 파이프라인의 모든 단계를 제어할 수 있습니다. 이러한 파이프라인 제어에는 다음이 포함됩니다.

  • 데이터 분할
  • 특성 추출
  • 아키텍처 검색
  • 모델 학습
  • 모델 앙상블

이점

예측용 테이블 형식 워크플로의 몇 가지 이점은 다음과 같습니다.

  • 크기가 최대 1TB이고 열이 최대 200개까지 있는 대규모 데이터 세트를 지원합니다.
  • 아키텍처 유형의 검색 공간을 제한하거나 아키텍처 검색을 건너뛰어 안정성을 높이고 학습 시간을 낮출 수 있습니다.
  • 학습 및 아키텍처 검색에 사용되는 하드웨어를 수동으로 선택하여 학습 속도를 향상시킬 수 있습니다.
  • 일부 모델 학습 방법의 경우 앙상블 크기를 변경하여 모델 크기를 줄이고 지연 시간을 개선할 수 있습니다.
  • 변환된 데이터 테이블, 평가된 모델 아키텍처, 기타 다양한 세부정보를 볼 수 있는 강력한 파이프라인 그래프 인터페이스에서 각 구성요소를 검사할 수 있습니다.
  • 각 구성요소는 매개변수, 하드웨어, 뷰 프로세스 상태, 로그 등을 맞춤설정할 수 있게 하는 등 유연성과 투명성이 확장됩니다.

Vertex AI Pipelines 예측

예측용 테이블 형식 워크플로는 Vertex AI Pipelines의 관리형 인스턴스입니다.

Vertex AI Pipelines는 Kubeflow 파이프라인을 실행하는 서버리스 서비스입니다. 파이프라인을 사용하여 머신러닝 및 데이터 준비 태스크를 자동화하고 모니터링할 수 있습니다. 파이프라인의 각 단계에서 파이프라인 워크플로 일부를 수행합니다. 예를 들어 파이프라인에 데이터 분할, 데이터 유형 변환, 모델 학습 단계가 포함될 수 있습니다. 단계는 파이프라인 구성요소의 인스턴스이므로 단계에는 입력, 출력, 컨테이너 이미지가 있습니다. 단계 입력은 파이프라인의 입력에서 설정되거나 이 파이프라인 내의 다른 단계의 출력에 따라 달라질 수 있습니다. 이러한 종속 항목은 파이프라인의 워크플로를 방향성 비순환 그래프(DAG)로 정의합니다.

파이프라인 및 구성요소 개요

다음 다이어그램은 예측용 테이블 형식 워크플로의 모델링 파이프라인을 보여줍니다.

예측용 파이프라인 

파이프라인 구성요소는 다음과 같습니다.

  1. feature-transform-engine: 특성 추출을 수행합니다. 자세한 내용은 Feature Transform Engine을 참조하세요.
  2. training-configurator-and-validator: 학습 구성을 검증하고 학습 메타데이터를 생성합니다.

    입력:

    • instance_schema: 예측 데이터의 데이터 유형을 설명하는 OpenAPI 사양의 인스턴스 스키마
    • dataset_stats: 원시 데이터 세트를 설명하는 통계. 예를 들어 dataset_stats는 데이터 세트의 행 수를 제공합니다.
    • training_schema: 학습 데이터의 데이터 유형을 설명하는 OpenAPI 사양의 학습 데이터 스키마
  3. split-Materialized-data: 구체화된 데이터를 학습 세트, 평가 세트, 테스트 세트로 분할합니다.

    입력:

    • materialized_data: 구체화된 데이터

    출력:

    • materialized_train_split: 구체화된 학습 분할
    • materialized_eval_split: 구체화된 평가 분할
    • materialized_test_split: 구체화된 테스트 세트
  4. calculate-training-parameters-2: automl-forecasting-stage-1-tuner의 예상 런타임 기간을 계산합니다.

  5. get-hyperparameter-tuning-results - 선택사항: 아키텍처 검색을 건너뛰도록 파이프라인을 구성한 경우 이전 파이프라인 실행에서 초매개변수 조정 결과를 로드합니다.

  6. 모델 아키텍처 검색을 수행하고 초매개변수를 조정하거나(automl-forecasting-stage-1-tuner) 이전 파이프라인 실행의 초매개변수 조정 결과를 사용합니다(automl-forecasting-stage-2-tuner).

    • 아키텍처는 초매개변수 집합으로 정의됩니다.
    • 초매개변수에는 모델 유형과 모델 매개변수가 포함됩니다.
    • 고려되는 모델 유형은 신경망과 부스팅된 트리입니다.
    • 고려되는 각 아키텍처에 대해 모델이 학습됩니다.

    입력:

    • materialized_train_split: 구체화된 학습 분할
    • materialized_eval_split: 구체화된 평가 분할
    • artifact - 이전 파이프라인 실행의 초매개변수 조정 결과. 이 아티팩트는 아키텍처 검색을 건너뛰도록 파이프라인을 구성한 경우에만 입력입니다.

    출력:

    • tuning_result_output: 조정 출력
  7. get-prediction-image-uri-2: 모델 유형에 따라 올바른 예측 이미지 URI를 생성합니다.

  8. automl-forecasting-ensemble-2: 최종 모델을 생성하는 데 가장 적합한 아키텍처를 앙상블합니다.

    입력:

    • tuning_result_output: 조정 출력

    출력:

    • unmanaged_container_model: 출력 모델
  9. model-upload-2 - 모델을 업로드합니다.

    입력:

    • unmanaged_container_model: 출력 모델

    출력:

    • model: Vertex AI 모델
  10. should_run_model_evaluation - 선택사항: 테스트 세트를 사용하여 평가 측정항목을 계산합니다.

다음 단계