Dataflow 작업 목록

Dataflow 작업 목록을 보려면 Google Cloud 콘솔에서 Dataflow > 작업 페이지로 이동합니다.

작업으로 이동

Dataflow 작업 목록이 상태와 함께 표시됩니다.

상태가 실행 중, 실패, 성공인 작업이 있는 Dataflow 작업 목록
그림 1: Google Cloud 콘솔의 Dataflow 작업 목록으로, 시작 중, 실패, 성공 상태인 작업이 있습니다.

작업 상태는 다음과 같습니다.

  • -: 모니터링 인터페이스가 아직 Dataflow 서비스에서 상태 정보를 받지 못했습니다.
  • 실행 중: 작업이 실행 중입니다.
  • 시작하는 중...: 작업이 생성되었지만 시작하기 전에 시스템 준비 시간이 필요합니다.
  • 대기 중: FlexRS 작업이 대기 중이거나 Flex 템플릿 작업이 실행됩니다(실행되는 데 몇 분이 걸릴 수 있음).
  • 취소 중...: 작업을 취소하는 중입니다.
  • 취소됨: 작업이 취소되었습니다.
  • 드레이닝 중: 작업이 드레이닝 중입니다.
  • 드레이닝됨: 작업이 드레이닝되었습니다.
  • 업데이트 중: 작업이 업데이트 중입니다.
  • 업데이트됨: 작업이 업데이트되었습니다.
  • 성공: 작업이 성공적으로 완료되었습니다.
  • 실패: 작업을 완료하지 못했습니다.

작업 시각화 도구에 액세스

작업 모니터링 차트에 액세스하려면 Dataflow 모니터링 인터페이스에서 작업 이름을 클릭합니다. 다음 정보가 포함된 작업 세부정보 페이지가 표시됩니다.

  • 작업 그래프: 파이프라인의 시각적 표현
  • 실행 세부정보: 파이프라인 성능을 최적화하는 도구
  • 작업 측정항목: 작업 실행에 대한 측정항목
  • 비용: 작업 예상 비용에 대한 측정항목
  • 자동 확장: 스트리밍 작업 자동 확장 이벤트와 관련된 측정항목
  • 작업 정보 패널: 파이프라인에 대한 설명 정보
  • 작업 로그: Dataflow 서비스가 작업 수준에서 생성한 로그
  • 작업자 로그: Dataflow 서비스가 작업자 수준에서 생성한 로그
  • 진단: 선택한 타임라인에서 오류가 발생한 위치와 파이프라인에 대한 가능한 권장사항을 보여주는 표
  • 데이터 샘플링: 파이프라인의 각 단계에서 데이터를 관찰할 수 있는 도구

작업 세부정보 페이지에서 작업 그래프, 실행 세부정보, 작업 측정항목, 비용, 자동 확장 탭을 사용하여 작업 보기를 전환할 수 있습니다.

Google Cloud CLI를 사용하여 작업 나열

Google Cloud CLI를 사용하여 Dataflow 작업 목록을 가져올 수도 있습니다.

프로젝트의 Dataflow 작업을 나열하려면 dataflow jobs list 명령어를 사용합니다.

gcloud dataflow jobs list

이 명령어는 현재 작업 목록을 반환합니다. 다음은 샘플 출력입니다.

  ID                                        NAME                                    TYPE   CREATION_TIME        STATE   REGION
  2015-06-03_16_39_22-4020553808241078833   wordcount-janedoe-0603233849            Batch  2015-06-03 16:39:22  Done    us-central1
  2015-06-03_16_38_28-4363652261786938862   wordcount-johndoe-0603233820            Batch  2015-06-03 16:38:28  Done    us-central1
  2015-05-21_16_24_11-17823098268333533078  bigquerytornadoes-johndoe-0521232402    Batch  2015-05-21 16:24:11  Done    europe-west1
  2015-05-21_13_38_06-16409850040969261121  bigquerytornadoes-johndoe-0521203801    Batch  2015-05-21 13:38:06  Done    us-central1
  2015-05-21_13_17_18-18349574013243942260  bigquerytornadoes-johndoe-0521201710    Batch  2015-05-21 13:17:18  Done    europe-west1
  2015-05-21_12_49_37-9791290545307959963   wordcount-johndoe-0521194928            Batch  2015-05-21 12:49:37  Done    us-central1
  2015-05-20_15_54_51-15905022415025455887  wordcount-johndoe-0520225444            Batch  2015-05-20 15:54:51  Failed  us-central1
  2015-05-20_15_47_02-14774624590029708464  wordcount-johndoe-0520224637            Batch  2015-05-20 15:47:02  Done    us-central1

작업에 대한 자세한 정보를 표시하려면 dataflow jobs describe 명령어를 사용하세요.

gcloud dataflow jobs describe JOB_ID

JOB_ID을 작업 ID로 바꿉니다. 이 명령어의 출력은 다음과 비슷하게 표시됩니다.

createTime: '2015-02-09T19:39:41.140Z'
currentState: JOB_STATE_DONE
currentStateTime: '2015-02-09T19:56:39.510Z'
id: 2015-02-09_11_39_40-15635991037808002875
name: tfidf-bchambers-0209193926
projectId: google.com:clouddfe
type: JOB_TYPE_BATCH

결과를 JSON 형식으로 지정하려면 --format=json 옵션을 사용하여 명령어를 실행합니다.

gcloud --format=json dataflow jobs describe JOB_ID

목록에서 Dataflow 작업 보관처리 (숨기기)

Dataflow 작업을 보관처리하면 콘솔에 있는 Dataflow 작업 페이지의 작업 목록에서 작업이 삭제됩니다. 작업이 보관처리된 작업 목록으로 이동합니다. 다음 상태의 작업이 포함된 완료된 작업만 보관처리할 수 있습니다.

  • JOB_STATE_CANCELLED
  • JOB_STATE_DRAINED
  • JOB_STATE_DONE
  • JOB_STATE_FAILED
  • JOB_STATE_UPDATED

이러한 상태를 확인하는 방법에 관한 자세한 내용은 Dataflow 작업 완료 감지를 참고하세요.

작업을 보관처리할 때 문제 해결 정보는 'Dataflow 오류 문제 해결'의 보관처리 작업 오류를 참고하세요.

모든 보관처리된 작업은 30일 보관 기간 후에 삭제됩니다.

작업 보관처리

Dataflow 작업 페이지의 기본 작업 목록에서 완료된 작업을 삭제하려면 다음 단계를 수행합니다.

콘솔

  1. Google Cloud 콘솔에서 Dataflow 작업 페이지로 이동합니다.

    작업으로 이동

    Dataflow 작업 목록이 상태와 함께 표시됩니다.

  2. 작업을 선택합니다.

  3. 작업 세부정보 페이지에서 보관처리를 클릭합니다. 작업이 완료되지 않았으면 보관처리 옵션을 사용할 수 없습니다.

REST

API를 사용하여 작업을 보관처리하려면 projects.locations.jobs.update 메서드를 사용합니다.

이 요청에서는 업데이트된 JobMetadata 객체를 지정해야 합니다. JobMetadata.userDisplayProperties 객체에서 키-값 쌍 "archived":"true"를 사용합니다.

업데이트된 JobMetadata 객체 외에도 API 요청에는 요청 URL에 updateMask 쿼리 매개변수가 포함되어야 합니다.

https://dataflow.googleapis.com/v1b3/[...]/jobs/JOB_ID/?updateMask=job_metadata.user_display_properties.archived

요청 데이터를 사용하기 전에 다음을 바꿉니다.

  • PROJECT_ID: 프로젝트 ID입니다.
  • REGION: Dataflow 리전인 입니다.
  • JOB_ID: Dataflow 작업의 ID입니다.

HTTP 메서드 및 URL:

PUT https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION/jobs/JOB_ID/?updateMask=job_metadata.user_display_properties.archived

JSON 요청 본문:

{
  "job_metadata": {
    "userDisplayProperties": {
      "archived": "true"
    }
  }
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X PUT \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION/jobs/JOB_ID/?updateMask=job_metadata.user_display_properties.archived"

PowerShell

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method PUT `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION/jobs/JOB_ID/?updateMask=job_metadata.user_display_properties.archived" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "id": "JOB_ID",
  "projectId": "PROJECT_ID",
  "currentState": "JOB_STATE_DONE",
  "currentStateTime": "2025-05-20T20:54:41.651442Z",
  "createTime": "2025-05-20T20:51:06.031248Z",
  "jobMetadata": {
    "userDisplayProperties": {
      "archived": "true"
    }
  },
  "startTime": "2025-05-20T20:51:06.031248Z"
}

보관처리된 작업 보기 및 복원

Dataflow 작업 페이지에서 보관처리된 작업을 보거나 보관처리된 작업을 기본 작업 목록으로 복원하려면 다음 단계를 수행합니다.

콘솔

  1. Google Cloud 콘솔에서 Dataflow 작업 페이지로 이동합니다.

    작업으로 이동

  2. 보관처리됨 전환 버튼을 클릭합니다. 보관처리된 Dataflow 작업 목록이 표시됩니다.

  3. 작업을 선택합니다.

  4. Dataflow 작업 페이지에서 작업을 기본 작업 목록으로 복원하려면 작업 세부정보 페이지에서 복원을 클릭합니다.

REST

API를 사용하여 보관처리된 작업을 복원하려면 projects.locations.jobs.update 메서드를 사용합니다.

이 요청에서는 업데이트된 JobMetadata 객체를 지정해야 합니다. JobMetadata.userDisplayProperties 객체에서 키-값 쌍 "archived":"false"를 사용합니다.

업데이트된 JobMetadata 객체 외에도 API 요청에는 요청 URL에 updateMask 쿼리 매개변수가 포함되어야 합니다.

https://dataflow.googleapis.com/v1b3/[...]/jobs/JOB_ID/?updateMask=job_metadata.user_display_properties.archived

요청 데이터를 사용하기 전에 다음을 바꿉니다.

  • PROJECT_ID: 프로젝트 ID입니다.
  • REGION: Dataflow 리전인 입니다.
  • JOB_ID: Dataflow 작업의 ID입니다.

HTTP 메서드 및 URL:

PUT https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION/jobs/JOB_ID/?updateMask=job_metadata.user_display_properties.archived

JSON 요청 본문:

{
  "job_metadata": {
    "userDisplayProperties": {
      "archived": "false"
    }
  }
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X PUT \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION/jobs/JOB_ID/?updateMask=job_metadata.user_display_properties.archived"

PowerShell

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method PUT `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION/jobs/JOB_ID/?updateMask=job_metadata.user_display_properties.archived" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "id": "JOB_ID",
  "projectId": "PROJECT_ID",
  "currentState": "JOB_STATE_DONE",
  "currentStateTime": "2025-05-20T20:54:41.651442Z",
  "createTime": "2025-05-20T20:51:06.031248Z",
  "jobMetadata": {
    "userDisplayProperties": {
      "archived": "false"
    }
  },
  "startTime": "2025-05-20T20:51:06.031248Z"
}