Teradata에서 BigQuery로의 마이그레이션 소개

이 문서에서는 Teradata에서 BigQuery로 마이그레이션해야 하는 이유를 간략히 설명하고 Teradata와 BigQuery의 기능을 비교하며 BigQuery 마이그레이션을 시작하는 단계의 개요를 제공합니다.

Teradata에서 BigQuery로 마이그레이션해야 하는 이유

Teradata는 대규모 데이터를 관리하고 분석하는 초기 혁신 기업이었습니다. 하지만 클라우드 컴퓨팅 요구사항이 진화함에 따라 데이터 분석을 위한 더 현대적인 솔루션이 필요할 수 있습니다.

이전에 Teradata를 사용했다면 다음과 같은 이유로 BigQuery로 이전하는 것이 좋습니다.

  • 기존 플랫폼 제약사항 극복하기
    • Teradata의 기존 아키텍처는 종종 최신 분석의 요구사항, 특히 무제한 동시 실행 및 다양한 워크로드에 대한 지속적인 고성능 요구사항을 충족하기가 어렵습니다. BigQuery의 서버리스 아키텍처는 최소한의 노력으로 이러한 요구사항을 처리하도록 설계되었습니다.
  • 클라우드 네이티브 전략 채택
    • 많은 조직이 온프레미스 인프라에서 클라우드로 전략적으로 이전하고 있습니다. 이러한 변화에 따라 운영 오버헤드를 줄이기 위해 Teradata와 같은 기존의 하드웨어 기반 솔루션에서 BigQuery와 같은 완전 관리형, 확장 가능, 주문형 서비스로 전환해야 합니다.
  • 최신 데이터 소스 및 분석과 통합
    • 핵심 엔터프라이즈 데이터가 점점 더 클라우드 기반 소스에 저장되고 있습니다. BigQuery는 Google Cloud 생태계와 기본적으로 통합되어 이러한 소스에 원활하게 액세스할 수 있으며 Teradata의 인프라 제한 없이 고급 분석, 머신러닝, 실시간 데이터 처리를 지원합니다.
  • 비용 및 확장성 최적화
    • Teradata는 복잡하고 비용이 많이 드는 확장 프로세스를 사용하는 경우가 많습니다. BigQuery는 스토리지와 컴퓨팅을 모두 독립적으로 투명하고 자동으로 확장하므로 수동 재구성이 필요하지 않으며, 총소유비용을 더 예측 가능하고 종종 더 낮게 유지할 수 있습니다.

기능 비교

다음 표는 Teradata의 기능과 개념을 BigQuery의 상응하는 기능과 비교합니다.

Teradata 개념 BigQuery 등가 항목 설명
Teradata (온프레미스, 클라우드, 하이브리드) BigQuery (통합 AI 데이터 플랫폼) BigQuery는 기존 데이터 웨어하우스에 비해 많은 추가 기능을 제공합니다. BigQuery는 Google Cloud에서 실행되는 완전 관리형 클라우드 네이티브 데이터 웨어하우스입니다. Teradata는 온프레미스, 클라우드, 하이브리드 옵션을 제공합니다. BigQuery는 서버리스이며 모든 클라우드에서 BQ Omni로 사용할 수 있습니다.
Teradata 도구 (Teradata Studio, BTEQ) Google Cloud 콘솔, BigQuery Studio, bq 명령줄 도구 둘 다 데이터 웨어하우스를 관리하고 상호작용할 수 있는 인터페이스를 제공합니다. BigQuery 스튜디오는 웹 기반이며 Google Cloud 와 통합되어 SQL, Python, Apache Spark를 작성할 수 있는 기능을 제공합니다.
데이터베이스/스키마 데이터 세트 Teradata에서는 BigQuery 데이터 세트와 마찬가지로 데이터베이스와 스키마가 테이블과 뷰를 구성하는 데 사용됩니다. 그러나 관리 및 사용 방식은 다를 수 있습니다.
두 플랫폼 모두 테이블을 사용하여 행과 열에 데이터를 저장합니다.
보기 보기 뷰는 두 플랫폼에서 유사하게 작동하며 쿼리를 기반으로 가상 테이블을 만드는 방법을 제공합니다.
기본 키 기본 키 (표준 SQL에서는 적용되지 않음) BigQuery는 표준 SQL에서 적용되지 않는 기본 키를 지원합니다. 이는 주로 BigQuery가 쿼리 최적화를 통해 최적화하는 데 도움이 됩니다.
외래 키 외래 키 (표준 SQL에서는 적용되지 않음) BigQuery는 표준 SQL에서 적용되지 않는 외래 키를 지원합니다. 이는 주로 BigQuery가 쿼리 최적화를 통해 최적화하는 데 도움이 됩니다.
색인 클러스터링, 검색 색인, 벡터 색인 (자동 또는 관리형) Teradata에서는 명시적 색인 생성을 허용합니다.

BigQuery에서 클러스터링하는 것이 좋습니다. 클러스터링은 데이터베이스 색인과 동일하지는 않지만 디스크에 정렬된 데이터를 저장하는 데 도움이 되며, 클러스터링된 열이 조건자로 사용될 때 데이터 검색을 최적화하는 데 도움이 됩니다.
BigQuery는 검색 색인벡터 색인을 지원합니다.
파티션 나누기 파티션 나누기 두 플랫폼 모두 대규모 테이블에서 쿼리 성능을 개선하기 위해 테이블 파티션을 지원합니다.

BigQuery는 날짜 및 정수로만 파티션을 지원합니다. 문자열의 경우 대신 클러스터링을 사용하세요.
리소스 할당 (하드웨어 및 라이선스 기반) 예약 (용량 기반), 주문형 가격 책정 (분석 가격 책정) BigQuery는 유연한 가격 책정 모델을 제공합니다. 예약은 자동 확장을 사용하는 일관된 워크로드와 임시 워크로드에 대해 비용을 예측할 수 있도록 하며, 주문형 가격 책정은 쿼리당 바이트 스캔 요금에 중점을 둡니다.
BTEQ, SQL 어시스턴트, 기타 클라이언트 도구 BigQuery Studio, bq 명령줄 도구, API BigQuery는 웹 기반 편집기, 명령줄 도구, 프로그래매틱 액세스를 위한 API를 비롯하여 쿼리 실행을 위한 다양한 인터페이스를 제공합니다.
쿼리 로깅/기록 쿼리 기록, INFORMATION_SCHEMA.JOBS BigQuery는 실행된 쿼리의 기록을 유지하므로 이전 쿼리를 검토하고, 성능을 분석하고, 문제를 해결할 수 있습니다. INFORMATION_SCHEMA.JOBS는 지난 6개월 동안 제출된 모든 작업의 기록을 유지합니다.
보안 기능 (액세스 제어, 암호화) 보안 기능 (IAM, ACL, 암호화) 둘 다 강력한 보안을 제공합니다. BigQuery는 Google Cloud 세분화된 액세스 제어에 IAM을 사용합니다.
네트워크 제어 (방화벽, VPN) VPC 서비스 제어, 비공개 Google 액세스 BigQuery는 VPC 서비스 제어와 통합되어 특정 네트워크에서 BigQuery 리소스에 대한 액세스를 제한합니다. 비공개 Google 액세스를 사용하면 공개 IP를 사용하지 않고도 BigQuery에 액세스할 수 있습니다.
사용자 및 역할 관리 Identity and Access Management(IAM) BigQuery는 세분화된 액세스 제어에 IAM을 사용합니다. 프로젝트, 데이터 세트, 테이블 수준에서 사용자 및 서비스 계정에 특정 권한을 부여할 수 있습니다.
객체에 대한 권한 및 역할 데이터 세트 및 테이블의 액세스 제어 목록 (ACL) BigQuery를 사용하면 데이터 세트 및 테이블에 ACL을 정의하여 세부적인 수준에서 액세스를 제어할 수 있습니다.
저장 및 전송 중 데이터 암호화 저장 중인 데이터 및 전송 중인 데이터 암호화, 고객 관리 암호화 키 (CMEK), 키는 외부 EKM 시스템에 호스팅될 수 있습니다. BigQuery는 기본적으로 데이터를 암호화합니다. 추가 제어를 위해 자체 암호화 키를 관리할 수도 있습니다.
데이터 거버넌스 및 규정 준수 기능 데이터 거버넌스 정책, DLP (데이터 손실 방지) BigQuery는 데이터 보안 및 규정 준수 요구사항을 적용하는 데 도움이 되는 데이터 거버넌스 정책 및 DLP를 지원합니다.
Teradata 로드 유틸리티 (예: FastLoad, MultiLoad), bteq BigQuery Data Transfer Service, bq 명령줄 도구, API BigQuery는 다양한 데이터 로드 방법을 제공합니다. Teradata에는 특수 부하 유틸리티가 있습니다. BigQuery는 데이터 처리의 확장성과 속도를 강조합니다.
Teradata Export Utilities, bteq bq 명령줄 도구, API, Cloud Storage로 내보내기 BigQuery는 다양한 대상에 데이터를 내보낼 수 있습니다. Teradata에는 자체 내보내기 도구가 있습니다. BigQuery와 Cloud Storage의 통합은 중요한 이점입니다.

BigQuery Storage Read API는 데이터를 일괄적으로 읽을 수 있는 외부 컴퓨팅 기능을 제공합니다.
외부 테이블 외부 테이블 두 가지 모두 외부 저장소의 데이터 쿼리를 지원합니다. BigQuery는 Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage, Google Drive와 잘 통합됩니다.
구체화된 뷰 구체화된 뷰 둘 다 쿼리 성능을 위해 구체화된 뷰를 제공합니다.

BigQuery는 항상 현재 데이터를 반환하고 쿼리가 기본 테이블을 참조하는 경우에도 구체화된 뷰에 자동 쿼리 재작성을 제공하는 스마트 조정 구체화된 뷰를 제공합니다.
사용자 정의 함수(UDF) 사용자 정의 함수 (UDF) (SQL, JavaScript) BigQuery는 SQL 및 JavaScript의 UDF를 지원합니다.
Teradata Scheduler, 기타 예약 도구 예약된 쿼리, Cloud Composer, Cloud Functions, BigQuery 파이프라인 BigQuery는 Google Cloud 예약 서비스 및 기타 외부 예약 도구와 통합됩니다.
Viewpoint 모니터링, 상태 확인, 작업 탐색, 용량 관리를 위한 BigQuery 관리 BigQuery는 운영 상태 및 리소스 사용률을 모니터링하는 여러 창이 포함된 UI 기반의 포괄적인 관리 도구 상자를 제공합니다.
백업 및 복구 데이터 세트 클론, 시간 여행 및 페일 세이프, 테이블 스냅샷 및 클론, 리전 및 멀티 리전 스토리지, 교차 리전 백업 및 복구 BigQuery는 데이터 복원을 위한 스냅샷과 시간 여행을 제공합니다. 시간 이동은 특정 기간 내의 이전 데이터에 액세스할 수 있는 기능입니다. BigQuery는 데이터 세트 클론, 리전 및 멀티 리전 스토리지, 교차 리전 백업 및 복구 옵션도 제공합니다.
지리 정보 함수 지리 정보 함수 두 플랫폼 모두 지리정보 데이터와 함수를 지원합니다.

어디서부터 시작해야 하나요?

다음 섹션에서 Teradata에서 BigQuery로의 마이그레이션 프로세스에 대해 자세히 알아보세요.

마이그레이션 평가 실행

Teradata에서 BigQuery로의 마이그레이션을 시작하려면 먼저 BigQuery 마이그레이션 평가 도구를 실행하여 데이터 웨어하우스를 Teradata에서 BigQuery로 이전하는 것이 실현 가능하고 어떤 이점이 있는지 평가하는 것이 좋습니다. 이 도구는 현재 Teradata 환경을 이해하고 성공적인 이전에 필요한 노력을 추정하는 구조화된 접근 방식을 제공합니다.

BigQuery 마이그레이션 평가 도구를 실행하면 다음 섹션이 포함된 평가 보고서가 생성됩니다.

  • 기존 시스템 보고서: 데이터베이스 수, 스키마 수, 테이블 수, 총 크기(TB)를 포함하여 기존 Teradata 시스템 및 사용량의 스냅샷입니다. 또한 크기별로 스키마를 나열하고 쓰기가 없거나 읽기가 적은 테이블과 같이 잠재적인 준최적 리소스 사용률을 가리킵니다.
  • BigQuery 안정적인 상태 변환 추천: 마이그레이션 후 BigQuery의 시스템을 보여줍니다. 여기에는 BigQuery에서 워크로드를 최적화하고 낭비를 방지하기 위한 추천이 포함되어 있습니다.
  • 마이그레이션 계획: 마이그레이션 작업 자체에 대한 정보를 제공합니다. 예를 들면 기존 시스템에서 BigQuery 안정 상태로 전환입니다. 이 섹션에는 자동으로 변환된 쿼리 수와 각 테이블을 BigQuery로 이동하는 데 예상되는 시간이 포함됩니다.

이전 평가 결과에 관한 자세한 내용은 Looker Studio 보고서 검토를 참고하세요.

Teradata에서 스키마 및 데이터 마이그레이션

마이그레이션 평가 결과를 검토한 후 마이그레이션을 위해 BigQuery를 준비한 다음 데이터 전송 작업을 설정하여 Teradata 마이그레이션을 시작할 수 있습니다.

Teradata 이전 프로세스에 관한 자세한 내용은 Teradata에서 스키마 및 데이터 마이그레이션을 참고하세요.

이전 검증

Teradata 데이터를 BigQuery로 마이그레이션한 후 데이터 유효성 검사 도구 (DVT)를 실행하여 새로 마이그레이션된 BigQuery 데이터에 대한 데이터 유효성 검사를 실행합니다. DVT는 테이블 수준에서 행 수준에 이르기까지 다양한 함수를 검사하여 마이그레이션된 데이터가 의도한 대로 작동하는지 확인합니다. DVT에 관한 자세한 내용은 EDW 마이그레이션을 위한 데이터 검증 도구 소개를 참고하세요.

DVT 공개 GitHub 저장소에서 DVT에 액세스할 수 있습니다.

다음 단계