BigQuery 데이터 준비 소개
이 문서에서는 BigQuery의 AI 기반 데이터 준비를 설명합니다. 데이터 준비는 BigQuery Studio 리소스이며, BigQuery의 Gemini를 사용하여 데이터를 분석하고 데이터 정리, 변환, 보강을 위한 지능형 제안을 제공합니다. 수동 데이터 준비 작업에 필요한 시간과 노력을 크게 줄일 수 있습니다. 데이터 준비 조정은 Dataform을 기반으로 합니다.
이점
- 컨텍스트 인식 Gemini 생성 변환 추천을 사용하여 데이터 파이프라인 개발에 소요되는 시간을 줄일 수 있습니다.
- 자동 스키마 매핑을 통해 생성된 결과를 미리보기를 통해 검증하고 데이터 품질 정리 및 보강 제안을 받을 수 있습니다.
- Dataform을 사용하면 코드 검토 및 소스 제어를 위한 교차팀 공동작업을 지원하는 지속적 통합, 지속적 개발 (CI/CD) 프로세스를 사용할 수 있습니다.
필요한 역할
데이터를 준비하는 사용자와 작업을 실행하는 Dataform 서비스 계정에는 Identity and Access Management (IAM) 역할이 필요합니다. 자세한 내용은 필수 역할 및 BigQuery용 Gemini 설정을 참고하세요.
데이터 준비 진입점
BigQuery Studio 페이지에서 데이터 준비를 만들고 관리할 수 있습니다 (BigQuery에서 데이터 준비 편집기 열기 참고).
BigQuery 데이터 준비 도구에서 테이블을 열면 사용자 인증 정보를 사용하여 BigQuery 작업이 실행됩니다. 실행하면 선택한 테이블에서 샘플 행이 생성되고 결과가 동일한 프로젝트의 임시 테이블에 쓰여집니다. Gemini는 샘플 데이터와 스키마를 사용하여 데이터 준비 편집기에 표시되는 데이터 준비 제안을 생성합니다.
데이터 준비 편집기의 뷰
데이터 준비는 BigQuery Studio 페이지에 탭으로 표시됩니다. 각 탭에는 데이터 준비를 설계하고 관리하는 일련의 하위 탭 또는 데이터 준비 뷰가 있습니다.
데이터 보기
새 데이터 준비를 만들면 데이터 준비 편집기 탭이 열리고 테이블의 대표 샘플이 포함된 데이터 뷰가 표시됩니다. 기존 데이터 준비의 경우 데이터 준비 파이프라인의 그래프 뷰에서 노드를 클릭하여 데이터 뷰로 이동할 수 있습니다.
데이터 뷰를 사용하면 다음 작업을 할 수 있습니다.
- 데이터와 상호작용하여 데이터 준비 단계를 만듭니다.
- Gemini의 추천을 적용합니다.
- 셀에 예시 값을 입력하여 Gemini 추천의 품질을 개선합니다.
테이블의 각 열에 대해 통계 프로필 (히스토그램)이 미리보기 행에 각 열의 상위 값 수를 표시합니다.
그래프 뷰
그래프 보기는 데이터 준비의 시각적 개요입니다. 데이터 준비를 열면 콘솔의 BigQuery Studio 페이지에 탭으로 표시됩니다. 그래프에는 데이터 준비 파이프라인의 모든 단계에 관한 노드가 표시됩니다. 그래프에서 노드를 선택하여 노드가 나타내는 데이터 준비 단계를 구성할 수 있습니다.
스키마 보기
데이터 준비 스키마 보기에는 활성 데이터 준비 단계의 현재 스키마가 표시됩니다. 표시된 스키마는 데이터 뷰의 열과 일치합니다.
스키마 보기에서는 열 삭제와 같은 전용 스키마 작업을 실행할 수 있으며, 이 작업을 실행하면 적용된 단계 목록에 단계가 생성됩니다.
Gemini의 추천
Gemini는 다음과 같은 데이터 준비 작업을 지원하기 위해 컨텍스트를 인식하는 추천을 제공합니다.
- 변환 및 데이터 품질 규칙 적용
- 데이터 표준화 및 보강
- 스키마 매핑 자동화
각 추천은 데이터 준비 편집기의 추천 목록에 있는 카드에 표시됩니다. 카드에는 다음 정보가 포함됩니다.
- 행 유지 또는 변환과 같은 단계의 대략적인 카테고리
- 단계에 대한 설명입니다(예:
COLUMN_NAME
가NULL
가 아닌 경우 행 유지). - 단계를 실행하는 데 사용되는 상응하는 SQL 표현식
추천 카드를 미리 보거나 적용하거나 추천을 미세 조정할 수 있습니다. 단계를 수동으로 추가할 수도 있습니다. 자세한 내용은 Gemini로 데이터 준비를 참고하세요.
Gemini의 추천을 미세 조정하려면 열에서 변경할 내용의 예시를 제공합니다.
데이터 샘플링
BigQuery는 데이터 샘플링을 사용하여 데이터 준비를 미리 볼 수 있도록 지원합니다. 각 노드의 데이터 뷰에서 샘플을 볼 수 있습니다. 샘플의 데이터는 자동으로 새로고침되지 않습니다. 자세한 내용은 데이터 준비 샘플 새로고침을 참고하세요.
쓰기 모드
비용과 처리 시간을 최적화하려면 쓰기 모드 설정을 변경하여 소스의 새 데이터를 점진적으로 처리할 수 있습니다. 예를 들어 BigQuery에 레코드가 매일 삽입되는 테이블이 있고 변경된 데이터를 반영해야 하는 Looker 대시보드가 있는 경우 BigQuery 데이터 준비를 예약하여 소스 테이블에서 새 레코드를 점진적으로 읽고 대상 테이블에 전파할 수 있습니다.
준비된 데이터가 대상 테이블에 쓰이는 방식을 구성하려면 데이터를 점진적으로 처리하여 데이터 준비 최적화를 참고하세요.
다음과 같은 쓰기 모드가 지원됩니다.
쓰기 모드 옵션 | 설명 |
---|---|
전체 새로고침 | 준비된 데이터를 삽입하여 대상 테이블의 모든 데이터를 대체합니다. 테이블이 잘리지 않고 다시 생성됩니다. 전체 새로고침은 대상 테이블에 쓸 때의 기본 모드입니다. |
추가 | 대상 테이블의 새 행에 준비된 데이터를 삽입합니다. |
증분 | 대상 테이블에 새 데이터 또는 증분 열 선택에 따라 변경된 데이터만 삽입합니다. |
지원되는 데이터 준비 단계
BigQuery는 다음과 같은 유형의 데이터 준비 단계를 지원합니다.
단계 유형 | 설명 |
---|---|
소스 | 읽을 BigQuery 테이블을 선택하거나 조인 단계를 추가할 때 소스를 추가합니다. |
변환 | SQL 표현식을 사용하여 데이터를 정리하고 변환합니다. 다음 표현식에 대한 추천 카드가 표시됩니다.
수동 변환 단계에서 유효한 BigQuery SQL 표현식을 사용할 수도 있습니다. 예를 들면 다음과 같습니다.
자세한 내용은 변환 추가를 참고하세요. |
필터 | WHERE 절 문법을 통해 행을 삭제합니다. 필터 단계를 추가할 때 이를 유효성 검사 단계로 만들 수 있습니다.
자세한 내용은 행 필터링을 참고하세요. |
검증 | 검사 규칙 기준을 충족하는 행을 오류 테이블로 전송합니다.
데이터가 유효성 검사 규칙을 통과하지 못하고 오류 테이블이 구성되지 않은 경우 실행 중에 데이터 준비가 실패합니다.
자세한 내용은 오류 테이블 구성 및 유효성 검사 규칙 추가를 참고하세요. |
참여 | 두 소스의 값을 조인합니다. 테이블이 동일한 위치에 있어야 합니다.
조인 키 열은 데이터 유형이 같아야 합니다. 데이터 준비는 다음과 같은 조인 작업을 지원합니다.
자세한 내용은 조인 연산 추가를 참고하세요. |
대상 | 데이터 준비 단계를 출력할 대상을 정의합니다. 존재하지 않는 대상 테이블을 입력하면 데이터 준비 단계에서 현재 스키마 정보를 사용하여 새 테이블을 만듭니다. 자세한 내용은 대상 테이블 추가 또는 변경을 참고하세요. |
열 삭제 | 스키마에서 열을 삭제합니다. 이 단계는 스키마 보기에서 수행합니다.
자세한 내용은 열 삭제를 참고하세요. |
데이터 준비 실행 예약
데이터 준비 단계를 실행하고 준비된 데이터를 대상 테이블에 로드하려면 일회성 또는 반복적인 데이터 준비 실행을 예약합니다. 데이터 준비 편집기에서 데이터 준비를 예약하고 BigQuery Orchestration 페이지에서 관리할 수 있습니다. 자세한 내용은 데이터 준비 예약을 참고하세요.
API
BigQuery 데이터 준비에는 자체 API가 없습니다. Dataform에서 BigQuery 데이터 준비를 사용하는 방법을 자세히 알아보려면 bq-datapreparation-feedback@google.com에 문의하세요.
제한사항
데이터 준비는 다음과 같은 제한사항이 적용됩니다.
- 특정 데이터 준비의 모든 BigQuery 데이터 준비 소스 및 대상 데이터 세트는 동일한 위치에 있어야 합니다. 자세한 내용은 지원되는 위치를 참고하세요.
- 파이프라인을 수정하는 동안 데이터와 상호작용이 처리를 위해 미국 데이터 센터로 전송됩니다. 자세한 내용은 지원되는 위치를 참고하세요.
- 데이터 준비는 자연어 SQL 쿼리 생성을 지원하지 않습니다.
- BigQuery 데이터 준비는 데이터 준비 버전의 보기, 비교, 복원을 지원하지 않습니다.
- Gemini의 응답은 데이터 준비 파이프라인을 설계할 때 제공한 데이터 세트 샘플을 기반으로 합니다. 자세한 내용은 Google Cloud용 Gemini에서 사용자 데이터를 사용하는 방법 및 Google Cloud용 Gemini 신뢰할 수 있는 테스터 프로그램의 약관을 참고하세요.
위치
데이터 준비는 모든 BigQuery 위치에서 데이터 처리를 지원합니다. 특정 데이터 준비의 소스 데이터 세트와 대상 데이터 세트는 동일한 위치에 있어야 합니다.
가격 책정
데이터 준비를 실행하고 데이터 미리보기 샘플을 만들면 BigQuery 리소스가 사용되며, BigQuery 가격 책정에 표시된 요율이 적용됩니다.
데이터 준비는 BigQuery의 Gemini 가격 책정에 포함되어 있습니다. 미리보기 기간에는 추가 비용 없이 BigQuery 데이터 준비를 사용할 수 있습니다. 자세한 내용은 Gemini in BigQuery 설정을 참고하세요.
할당량
자세한 내용은 Google Cloud의 Gemini 할당량을 참고하세요.
다음 단계
- BigQuery의 Gemini로 데이터를 준비하는 방법을 알아보세요.
- 데이터 준비의 배포 및 실행을 관리하는 방법을 알아보세요.