SQL 워크플로 소개

이 문서에서는 Dataform에서 SQL 워크플로의 아키텍처와 실행을 이해하는 데 도움이 됩니다.

Dataform을 사용하여 BigQuery에서 실행하여 분석 목적으로 데이터를 변환할 수 있는 SQL 워크플로를 개발, 테스트, 버전 제어할 수 있습니다. Dataform Core를 사용하거나 SQLX 파일과 선택적 JavaScript 파일을 사용하거나 JavaScript를 사용하여 SQL 워크플로를 개발할 수 있습니다.

SQL 워크플로는 다음 객체로 구성될 수 있습니다.

데이터 소스 선언
Dataform 테이블 정의 및 SQL 작업에서 이러한 데이터 소스를 참조할 수 있는 BigQuery 데이터 소스의 선언입니다.
Tables
Dataform에서 선언된 데이터 소스 또는 SQL 워크플로의 다른 테이블을 기반으로 만드는 테이블입니다. Dataform은 테이블, 증분 테이블, 뷰, 구체화된 뷰와 같은 테이블 유형을 지원합니다.
어설션
테이블 데이터의 유효성을 검사하는 데 사용할 수 있는 데이터 품질 테스트 쿼리입니다. Dataform은 SQL 워크플로를 업데이트할 때마다 어설션을 실행하고 어설션이 실패할 경우 알림을 제공합니다.
커스텀 SQL 작업
Dataform이 수정하지 않고 그대로 BigQuery에서 실행하는 SQL 문입니다.
포함 항목
SQL 워크플로에서 재사용할 수 있는 변수 및 함수의 정의가 포함된 JavaScript 파일입니다.

SQL 워크플로 시각화

방향성 비순환 그래프 (DAG) 형식으로 시각화된 SQL 워크플로를 볼 수 있습니다. DAG에는 작업공간에 정의된 SQL 워크플로의 모든 객체와 객체 간의 관계가 표시됩니다. 확대/축소하고 드래그 앤 드롭을 사용하여 DAG를 탐색할 수 있습니다. SQL 워크플로에 컴파일 오류가 있으면 Dataform에 DAG 대신 오류 메시지가 표시됩니다.

SQL 워크플로의 DAG를 보려면 작업공간에서 컴파일된 그래프를 클릭합니다.

SQL 워크플로 실행

개발 작업공간에서 전체 SQL 워크플로, 선택한 작업 또는 선택한 태그의 실행을 수동으로 트리거할 수 있습니다.

Dataform 출시 구성워크플로 구성으로 실행을 예약할 수 있습니다. 먼저 저장소의 컴파일 결과를 만들 출시 구성을 만듭니다. 그런 다음 워크플로 구성을 만들고, 출시 구성을 선택하고, 실행할 SQL 워크플로 작업을 선택하고, 실행 일정을 설정합니다.

또는 Cloud Composer 또는 Workflows 및 Cloud Scheduler를 사용하여 실행을 예약할 수 있습니다.

실행 중에 Dataform은 SQL 워크플로에서 객체 종속 항목 순서에 따라 BigQuery의 SQL 쿼리를 실행합니다. 실행 후에는 정의된 테이블과 뷰를 BigQuery에서 모든 분석 목적으로 사용할 수 있습니다.

실행 구성 옵션

SQL 워크플로 객체의 특정 그룹을 실행하려면 선택한 파일에 Dataform 실행 태그를 추가하면 됩니다. 그런 다음 실행을 수동으로 트리거할 때 선택한 태그가 있는 파일만 실행할 수 있습니다.

기본적으로 Dataform은 dataform.json 파일에 정의된 실행 설정으로 SQL 워크플로를 실행합니다. 컴파일 재정의를 사용하여 이러한 실행 설정을 재정의할 수 있습니다.

작업공간 컴파일 재정의를 사용하면 작업공간을 격리된 실행 환경으로 전환할 수 있습니다. 즉, 작업공간에서 실행을 수동으로 트리거하면 Dataform은 BigQuery의 격리된 위치에서 출력을 실행합니다.

컴파일 재정의를 사용하여 단일 컴파일 결과를 생성하고 실행하려면 Dataform API를 사용하여 요청을 전달하면 됩니다.

출시 구성을 사용하면 전체 저장소의 컴파일 재정의와 적용된 설정으로 컴파일 결과를 생성하는 빈도를 구성할 수 있습니다.

Dataform에서 컴파일 및 코드 수명 주기를 구성하는 방법에 대해 자세히 알아보려면 Dataform의 코드 수명 주기 소개를 참고하세요.

다음 단계