데이터 세트 변환 알아보기

머신러닝을 위한 전처리, 균형 조정, 계층화, 데이터 세트 적합성을 이해합니다.

모델을 직접 쿼리하고 Cloud 콘솔에서 다른 매개변수 값을 사용하거나 Vertex AI API를 직접 호출하여 반환된 결과를 테스트할 수 있습니다.

Vertex AI API 사용 예시는 빠른 시작: Vertex AI API 사용을 참조하세요.
Cloud 콘솔에서 이 샘플을 보려면 Google Cloud 콘솔로 이동합니다.

Freeform 프롬프트

머신러닝 프로젝트를 진행 중이며 대규모 데이터 세트 변환 프로세스를 이해하는 데 도움이 필요합니다. 다음은 결측치를 처리하고 값을 표준화하며 데이터 균형을 맞추는 코드입니다. 이 코드를 설명해 주시겠어요? 단계의 순서가 중요한지 확인해야 합니다. 나중에 학습 데이터의 균형을 맞추는 경우에도 분할에서 데이터를 계속 계층화해야 하나요? 또한 모델 성능을 평가하기 전에 테스트 데이터의 균형을 맞춰야 하나요? 마지막으로 이 워크플로에 적합한 데이터 종류를 요약해 주세요.

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from imblearn.over_sampling import SMOTENC


df = pd.read_csv('my_dataset.csv')

# Remove duplicate rows from the dataset
df.drop_duplicates(inplace=True)

# Separate the features (X) and the target variable (y)
X = df.drop('target', axis=1)
y = df['target']

# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Check class distribution
print(f"Original training set class distribution: {np.bincount(y_train)}")

# Identify numeric and categorical features
numeric_features = [col for col in X_train.columns if 'num_feature' in col]
categorical_features = [col for col in X_train.columns if 'cat_feature' in col]

# Preprocessing pipeline for numeric missing values and feature scaling
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])
# Preprocessing pipeline for categorical missing values and encoding
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])
# Preprocessing
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])
X_train_processed = preprocessor.fit_transform(X_train)
X_test_processed = preprocessor.transform(X_test)

# Class balancing
categorical_indices = [X_train.columns.get_loc(col) for col in categorical_features]
smote_nc = SMOTENC(categorical_features=categorical_indices, random_state=42)
X_train_resampled, y_train_resampled = smote_nc.fit_resample(X_train_processed, y_train)

print(f"Resampled training set class distribution: {np.bincount(y_train_resampled)}")

응답

이 코드는 데이터 세트를 머신러닝 모델에 제공하기 전에 데이터 세트에서 몇 가지 중요한 전처리 단계를 수행합니다. 코드를 단계별로 살펴보면서 질문에 답변해 드리겠습니다.

코드 설명:

데이터 로드 및 중복 삭제: 코드는 CSV 파일(my_dataset.csv)을 pandas DataFrame에 로드하는 것으로 시작하고 중복 행을 삭제합니다.
특성 및 타겟 분리: 데이터 세트를 특성(X)과 타겟 변수(y)로 분리합니다. '타겟' 열은 타겟 변수로 간주됩니다.
학습-테스트 분할: 데이터는 train_test_split을 통해 학습 세트와 테스트 세트로 분할됩니다. 중요한 점은 stratify=y를 사용하면 학습 세트와 테스트 세트 모두에서 타겟 변수(y)의 클래스 비율이 유지된다는 점입니다. 이는 특히 불균형 데이터 세트가 있는 경우 편향을 방지하는 데 중요합니다.
클래스 분포 확인: 코드는 균형 조정 전에 학습 세트에서 타겟 변수 클래스 분포를 출력합니다.
특성 식별: 코드는 이름 지정 규칙(열 이름의 'num_feature' 및 'cat_feature')에 따라 숫자 및 범주형 특성을 식별합니다. 이때 열 이름이 숫자 특성과 범주형 특성을 명확하게 구분하는 방식으로 지정되었다고 가정합니다. 보다 강력한 방법에는 직접 데이터 유형 검사가 포함될 수 있습니다.
전처리 파이프라인: 파이프라인 2개가 생성됩니다.
- numeric_transformer: 숫자 특성을 처리합니다. 먼저 평균(SimpleImputer(strategy='mean'))을 사용하여 결측치를 입력한 후 StandardScaler를 사용하여 특성을 표준화합니다.
- categorical_transformer: 범주형 특성을 처리합니다. 가장 빈번한 값(SimpleImputer(strategy='most_frequent'))을 사용하여 결측치를 입력한 후 OneHotEncoder(handle_unknown='ignore')를 사용하여 특성을 원-핫 인코딩합니다. handle_unknown='ignore' 파라미터는 매우 중요합니다. 테스트 세트에 표시되지 않은 카테고리에 0 벡터를 할당하여 이 카테고리를 처리합니다.
ColumnTransformer: ColumnTransformer는 두 파이프라인을 결합하여 각 특성 유형에 적절한 파이프라인을 적용합니다.
데이터 변환: fit_transform 메서드는 학습 데이터에서 호출되어 Transformer를 맞추고 동시에 데이터를 변환합니다. 그러면 transform이 테스트 데이터에 사용되어 학습 데이터에서 학습한 변환과 동일한 변환이 적용됩니다. 데이터 유출을 방지하려면 학습 데이터에만 맞추는 것이 중요합니다.
SMOTENC를 사용한 클래스 균형 맞추기: SMOTENC(이름 및 연속 특성을 위한 소수 집단 합성 오버샘플링 기법)는 학습 데이터에서 소수 범주를 오버샘플링하는 데 사용됩니다. 이렇게 하면 클래스 불균형이 해결됩니다. 중요한 점은 오버샘플링 중에 범주형 특성을 적절하게 처리하기 위해 범주형 특성의 색인을 입력으로 사용한다는 점입니다.
재샘플링된 클래스 분포: 코드는 균형 조정 후 학습 세트의 클래스 분포를 출력합니다.

질문에 대한 답변:

단계 순서: 순서가 매우 중요합니다. 다음 요건을 충족해야 합니다.
1. 분할: 전처리나 균형 조정 전에 학습 세트와 테스트 세트로 분할합니다. 이렇게 하면 테스트 세트에서 학습 세트로의 데이터 유출이 방지됩니다.
2. 전처리: 학습 세트와 테스트 세트에 전처리 단계(대치 및 크기 조정/인코딩)를 적용합니다. 학습 데이터에만 Transformer를 맞춘 후 학습 데이터와 테스트 데이터 모두 변환합니다.
3. 균형: SMOTE와 같은 기법만 사용하여 학습 데이터의 균형을 맞춥니다. 테스트 세트의 균형을 맞추지 마세요.
분할에서 계층화: 나중에 SMOTE를 사용하여 학습 데이터의 균형을 맞출 것이므로 train_test_split에서 stratify=y를 삭제해도 좋습니다. 하지만 일반적으로 유지하는 것이 좋습니다. 계층화는 나중에 학습 세트 균형을 수정하더라도 초기 분할에서 대표적인 클래스 분포를 보장합니다. 계층화를 삭제하면 대표성이 약간 떨어지는 테스트 세트가 생성될 수 있지만 계층화된 샘플링의 이점과 비교하면 영향은 일반적으로 미미합니다.
테스트 데이터 균형 조정: 아니요. 테스트 데이터 균형을 맞추지 않아야 합니다. 테스트 데이터는 데이터의 실제 분포를 반영해야 합니다. 균형을 맞추면 성능 측정항목이 인위적으로 확장되고 모델의 일반화 기능에 대한 오해의 소지가 있는 평가가 제공됩니다.
적절한 데이터: 이 워크플로는 다음과 같은 데이터 세트에 적합합니다.
- 숫자 특성과 범주형 특성 혼합
- 숫자 및 범주 특성 모두의 결측치
- 타겟 변수의 불균형한 클래스 분포
- 오버샘플링 후 과적합이 방지되도록 충분한 수의 샘플. SMOTE는 합성 샘플을 만들 수 있지만 의미 있는 패턴을 학습하기 위해서는 여전히 충분한 수의 원본 데이터 포인트가 있어야 합니다.

요약하면 이 코드는 머신러닝을 위해 데이터를 전처리하는 강력하고 잘 구성된 접근 방식을 제공하여 결측치, 크기 조정, 인코딩, 클래스 불균형을 효과적으로 처리합니다. 데이터 유출을 방지하고 신뢰할 수 있는 모델 평가를 얻으려면 작업 순서가 중요합니다.

모델:	gemini-1.5-flash-002
강도:	0.2
최대 출력 토큰:	8192
최상위 K:	40.0
최상위 P:	0.95

데이터 세트 변환 알아보기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

Freeform 프롬프트

응답

데이터 세트 변환 알아보기