Spark 네트워크 구성을 위한 서버리스 Dataproc

이 문서에서는 Spark용 Dataproc Serverless 네트워크 구성에 필요한 요구사항을 설명합니다.

Virtual Private Cloud 하위 네트워크 요구사항

이 문서에서는 Spark 일괄 워크로드 및 대화형 세션을 위한 Dataproc Serverless의 가상 프라이빗 클라우드 네트워크 요구사항을 설명합니다.

비공개 Google 액세스

Dataproc Serverless 일괄 워크로드 및 대화형 세션은 내부 IP 주소가 있는 VM에서만 실행되며, 세션 서브넷에 비공개 Google 액세스 (PGA)가 자동으로 사용 설정된 리전 서브넷에서만 실행됩니다.

서브넷을 지정하지 않으면 Dataproc Serverless는 배치 워크로드 또는 세션 리전의 default 서브넷을 배치 워크로드 또는 세션의 서브넷으로 선택합니다.

워크로드에 외부 네트워크 또는 인터넷 액세스가 필요한 경우(예: PyTorch Hub 또는 Hugging Face에서 ML 모델과 같은 리소스 다운로드) VPC 네트워크에서 내부 IP를 사용하여 아웃바운드 트래픽을 허용하도록 Cloud NAT를 설정할 수 있습니다.

서브넷 연결 열기

Dataproc Serverless 일괄 워크로드 또는 대화형 세션에 선택된 리전의 VPC 서브넷은 VM 인스턴스 간의 모든 포트에서 내부 서브넷 통신을 허용해야 합니다.

다음 Google Cloud CLI 명령어는 모든 포트에서 모든 프로토콜을 사용하여 VM 간의 내부 인그레스 통신을 허용하는 네트워크 방화벽을 서브넷에 연결합니다.

gcloud compute firewall-rules create allow-internal-ingress \
    --network=NETWORK_NAME \
    --source-ranges=SUBNET_RANGES \
    --destination-ranges=SUBNET_RANGES \
    --direction=ingress \
    --action=allow \
    --rules=all

참고:

  • SUBNET_RANGES: VM 사이에 내부 인그레스 연결 허용을 참조하세요. 모든 포트 (tcp:0-65535, udp:0-65535, icmp protocols:ports)에서 인그레스 통신을 허용하는 default-allow-internal 방화벽 규칙이 있는 프로젝트의 default VPC 네트워크는 open-subnet-connectivity 요구사항을 충족합니다. 하지만 이 규칙은 네트워크의 모든 VM 인스턴스를 통한 인그레스도 허용합니다.

Dataproc Serverless 및 VPC-SC 네트워크

네트워크 관리자는 VPC 서비스 제어를 사용하여 Google 관리형 서비스 리소스 주위에 보안 경계를 정의하여 해당 서비스 간의 통신을 제어할 수 있습니다.

Dataproc Serverless에서 VPC-SC 네트워크를 사용할 때는 다음 전략에 유의하세요.

자세한 내용은 VPC 서비스 제어: Spark용 서버리스 Dataproc를 참고하세요.