GKE 기반 Dataproc을 사용하면 GKE 클러스터에서 Dataproc jobs API를 사용하여 빅데이터 애플리케이션을 실행할 수 있습니다.
Google Cloud 콘솔, Google Cloud CLI 또는 Dataproc API(HTTP 요청 또는 Cloud 클라이언트 라이브러리)를 사용하여 GKE 기반 Dataproc 가상 클러스터를 만든 후 Spark, PySpark, SparkR, Spark-SQL 작업을 Dataproc 서비스에 제출합니다.
GKE 기반 Dataproc은 GKE 클러스터에 Dataproc 가상 클러스터를 배포합니다. Compute Engine 기반 Dataproc 클러스터와 달리 GKE 기반 Dataproc 가상 클러스터에는 별도의 마스터 및 작업자 VM이 포함되지 않습니다. 대신 GKE 기반 Dataproc 가상 클러스터를 만들면 GKE 기반 Dataproc이 GKE 클러스터 내에 노드 풀을 만듭니다. GKE 기반 Dataproc 작업은 이 노드 풀에서 포드로 실행됩니다. 노드 풀 및 노드 풀의 포드 예약은 GKE에서 관리됩니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-03-12(UTC)"],[[["Dataproc on GKE enables the execution of Big Data applications on GKE clusters through the Dataproc `jobs` API."],["You can create a Dataproc on GKE virtual cluster and then submit Spark, PySpark, SparkR, or Spark-SQL jobs via the Google Cloud console, Cloud CLI, or the Dataproc API."],["Dataproc on GKE utilizes virtual clusters, which, unlike Dataproc on Compute Engine clusters, do not have separate master and worker VMs."],["Dataproc on GKE job are run as pods on node pools and is managed by GKE."],["Dataproc on GKE supports Spark 3.5 versions."]]],[]]