이 문서에서는 서드 파티 소스에서 Dataplex로 메타데이터를 가져오는 데 사용할 수 있는 관리형 연결 파이프라인을 간략하게 설명합니다.
관리형 연결을 사용하면 대규모로 메타데이터를 Dataplex로 가져올 수 있습니다. 관리형 연결 파이프라인은 데이터 소스에서 메타데이터를 추출한 후 Dataplex로 가져옵니다. 필요한 경우 파이프라인은 Google Cloud 프로젝트에 Dataplex 카탈로그 항목 그룹도 만듭니다. 요구사항에 따라 워크플로를 조정하고 가져오기 작업을 예약할 수 있습니다.
자체 커스텀 커넥터를 빌드하여 서드 파티 소스에서 메타데이터를 추출합니다. 예를 들어 MySQL, SQL Server, Oracle, Snowflake, Databricks 등의 소스에서 메타데이터를 추출하는 커넥터를 빌드할 수 있습니다. 샘플 커스텀 커넥터를 빌드하는 단계는 메타데이터 가져오기를 위한 커스텀 커넥터 개발을 참조하세요.
관리형 연결 파이프라인을 실행하는 단계는 워크플로를 사용하여 커스텀 소스에서 메타데이터 가져오기를 참조하세요.
관리형 연결 작동 방식
다음 다이어그램은 관리형 연결 파이프라인을 보여줍니다.
관리형 연결은 대략적으로 다음과 같이 작동합니다.
데이터 소스의 커넥터를 빌드합니다.
커넥터는 Dataproc Serverless에서 실행할 수 있는 Artifact Registry 이미지여야 합니다.
조정 플랫폼인 Workflows에서 관리형 연결 파이프라인을 실행합니다.
관리형 연결 파이프라인은 다음 작업을 실행합니다.
- 항목 그룹이 아직 없는 경우 구성에 따라 대상 항목 그룹을 만듭니다.
- 커넥터를 실행합니다. 커넥터는 데이터 소스에서 메타데이터를 추출하고 Dataplex 카탈로그로 가져올 수 있는 메타데이터 가져오기 파일을 생성합니다.
- 메타데이터 추출 진행 상황을 모니터링합니다.
- 메타데이터 가져오기 작업을 실행하여 메타데이터를 Dataplex 카탈로그로 가져옵니다.
- 메타데이터 가져오기 작업의 진행률을 모니터링합니다.
관리형 연결 파이프라인은 Dataproc Serverless를 사용하여 커넥터를 실행하고 Dataplex 메타데이터 가져오기 API 메서드를 사용하여 메타데이터 가져오기 작업을 실행합니다.
가져오는 메타데이터는 Dataplex 카탈로그 항목과 해당 관점으로 구성됩니다. Dataplex 카탈로그 메타데이터에 대한 자세한 내용은 Dataplex 카탈로그 개요를 참조하세요.