이 페이지는 Cloud Translation API를 통해 번역되었습니다.

BigQuery Studio 노트북에서 PySpark 코드 실행

이 문서에서는 BigQuery Python 노트북에서 PySpark 코드를 실행하는 방법을 보여줍니다.

시작하기 전에

아직 만들지 않았다면 Google Cloud 프로젝트와 Cloud Storage 버킷을 만듭니다.

프로젝트 설정
1. 사용할 수 있는 버킷이 없으면 프로젝트에 Cloud Storage 버킷을 만듭니다.
2. 노트북 설정하기
  - 노트북 사용자 인증 정보: 기본적으로 노트북 세션은 사용자 인증 정보를 사용합니다. 또는 세션 서비스 계정 사용자 인증 정보를 사용할 수 있습니다.
    - 사용자 사용자 인증 정보: 사용자 계정에는 다음 Identity and Access Management 역할이 있어야 합니다.
      - Dataproc 편집자 (roles/dataproc.editor 역할)
      - BigQuery Studio 사용자 (roles/bigquery.studioUser 역할)
      - 세션 서비스 계정에 대한 서비스 계정 사용자 (roles/iam.serviceAccountUser) 역할 이 역할에는 서비스 계정을 가장하는 데 필요한 iam.serviceAccounts.actAs 권한이 포함되어 있습니다.
    - 서비스 계정 사용자 인증 정보: 노트북 세션에 사용자 사용자 인증 정보 대신 서비스 계정 사용자 인증 정보를 지정하려면 세션 서비스 계정에 다음 역할이 있어야 합니다.
      - Dataproc 작업자 (roles/dataproc.worker 역할)
  - 노트북 런타임: 다른 런타임을 선택하지 않는 한 노트북에서 기본 Vertex AI 런타임을 사용합니다. 자체 런타임을 정의하려면 Google Cloud 콘솔의 런타임 페이지에서 런타임을 만드세요. NumPy 라이브러리를 사용하는 경우 노트북 런타임에서 Spark 3.5에서 지원하는 NumPy 버전 1.26을 사용하세요.참고

BigQuery Studio 노트북에서 PySpark 코드 실행

시작하기 전에

가격 책정

BigQuery Studio Python 노트북 열기

BigQuery Studio 노트북에서 Spark 세션 만들기

단일 세션

템플릿 기반 Spark 세션

BigQuery Studio 노트북에서 PySpark 코드 작성 및 실행

BigQuery Studio 노트북 PySpark 예시

Wordcount

Iceberg 테이블

PySpark 코드를 실행하여 BigLake metastore 메타데이터로 Iceberg 테이블 만들기

BigQuery에서 테이블 세부정보 보기

기타 예

Gemini Code Assist로 Spark 코드 작성

Gemini Code Assist 코드 생성 도움말

Spark 세션 종료

BigQuery Studio 노트북 코드 오케스트레이션

Google Cloud 콘솔에서 노트북 코드 예약

노트북 코드를 일괄 워크로드로 실행

노트북 오류 문제 해결

알려진 문제 및 해결 방법

다음 단계