데이터 로드 소개

이 문서에서는 BigQuery에 데이터를 로드하는 방법을 설명합니다. 데이터 통합에 관한 두 가지 일반적인 접근 방식은 데이터를 추출, 로드, 변환 (ELT)하거나 추출, 변환, 로드 (ETL)하는 것입니다.

ELT 및 ETL 접근 방식에 관한 개요는 데이터 로드, 변환, 내보내기 소개를 참고하세요.

외부 데이터를 로드하거나 액세스하는 방법

다음 방법을 사용하여 BigQuery에 데이터를 로드하거나 BigQuery에서 데이터에 액세스할 수 있습니다. 사용 사례 및 데이터 소스에 따라 다음 옵션 중 하나를 선택합니다.

로드 방법 설명
일괄 로드 이 방법은 다양한 소스에서 대량의 데이터를 일괄 로드하는 데 적합합니다.

Cloud Storage 및 기타 지원되는 데이터 소스에서 데이터를 일괄 또는 증분 로드하려면 BigQuery Data Transfer Service를 사용하는 것이 좋습니다.

BigQuery Data Transfer Service를 사용하면 BigQuery로의 데이터 로드 워크플로를 자동화하기 위해 로드 작업을 예약할 수 있습니다. 정기적인 간격 (예: 매일 또는 매월)으로 일회성 또는 일괄 데이터 전송을 예약할 수 있습니다. BigQuery 데이터를 항상 최신 상태로 유지하려면 전송을 모니터링하고 기록하면 됩니다.

BigQuery Data Transfer Service에서 지원하는 데이터 소스 목록은 지원되는 데이터 소스를 참고하세요.
스트리밍 로드 이 메서드를 사용하면 메시지 시스템에서 거의 실시간으로 데이터를 로드할 수 있습니다.

BigQuery로 데이터를 스트리밍하려면 Pub/Sub에서 BigQuery 구독을 사용하면 됩니다. Pub/Sub은 BigQuery로의 높은 처리량 데이터 로드를 처리할 수 있습니다. 실시간 데이터 스트리밍을 지원하여 데이터가 생성될 때마다 데이터를 로드합니다. 자세한 내용은 BigQuery 구독을 참고하세요.
변경 데이터 캡처 (CDC) 이 메서드를 사용하면 데이터베이스에서 BigQuery로 데이터를 거의 실시간으로 복제할 수 있습니다.

Datastream은 거의 실시간 복제를 사용하여 데이터베이스에서 BigQuery 데이터로 데이터를 스트리밍할 수 있습니다. Datastream은 CDC 기능을 활용하여 데이터 소스의 행 수준 변경사항을 추적하고 복제합니다.

Datastream에서 지원하는 데이터 소스 목록은 소스를 참고하세요.
외부 데이터 소스와의 제휴 이 메서드를 사용하면 외부 데이터를 BigQuery에 로드하지 않고도 외부 데이터에 액세스할 수 있습니다.

BigQuery는 Cloud Storage 및 제휴 쿼리를 통해 일부 외부 데이터 소스에 대한 액세스를 지원합니다. 이 방법의 장점은 후속 사용을 위해 데이터를 변환하기 전에 데이터를 로드할 필요가 없다는 점입니다. 외부 데이터에 대해 SELECT 문을 실행하여 변환을 실행할 수 있습니다.

다음 프로그래매틱 메서드를 사용하여 데이터를 로드할 수도 있습니다.

로드 방법 설명
일괄 로드 로드 작업을 만들어 Cloud Storage 또는 로컬 파일에서 데이터를 로드할 수 있습니다.

소스 데이터가 자주 변경되지 않거나 지속적으로 업데이트되는 결과가 필요하지 않은 경우 로드 작업은 비용이 적고 리소스 사용량이 적은 방법으로 BigQuery에 데이터를 로드할 수 있습니다.

로드된 데이터는 Avro, CSV, JSON, ORC 또는 Parquet 형식일 수 있습니다. 로드 작업을 만들려면 LOAD DATA SQL 문을 사용해도 됩니다.

인기 있는 오픈소스 시스템(예: Spark, 다양한 ETL 파트너)도 BigQuery로 데이터를 일괄 로드하는 기능을 지원합니다.
스트리밍 로드 맞춤 스트리밍 데이터 소스를 지원하거나 대규모 처리량으로 BigQuery로 스트리밍하기 전에 데이터를 사전 처리해야 하는 경우 Dataflow 또는 Apache Flink용 BigQuery Engine을 사용하세요.

Dataflow에서 BigQuery로 로드하는 방법에 관한 자세한 내용은 Dataflow에서 BigQuery로 쓰기를 참고하세요.

또는 BigQuery Storage Write API를 직접 사용할 수도 있습니다.

Cloud Data Fusion을 사용하면 ETL 프로세스를 간소화할 수 있습니다. BigQuery는 데이터를 변환하고 BigQuery에 로드하는 서드 파티 파트너와도 호환됩니다.

데이터를 획득하는 다른 방법

데이터를 직접 BigQuery에 로드하지 않고도 데이터에 대한 쿼리를 실행할 수 있습니다. 다음 섹션에서는 몇 가지 대안을 설명합니다.

다음 목록에는 몇 가지 대안이 나와 있습니다.

공개 데이터에 대한 쿼리 실행

공개 데이터세트는 BigQuery에 저장되고 일반 대중에 공유되는 데이터세트입니다. 자세한 내용은 BigQuery 공개 데이터세트를 참조하세요.

공유 데이터에서 쿼리 실행

다른 사용자가 공유한 BigQuery 데이터 세트에서 쿼리를 실행하려면 Analytics Hub 소개를 참고하세요. Analytics Hub는 데이터 공유를 지원하는 데이터 교환 플랫폼입니다.

로그 데이터로 쿼리 실행

추가 로드 작업을 만들지 않고도 로그에 대해 쿼리를 실행할 수 있습니다.

다음 단계