Package google.cloud.dataproc.v1

索引

BatchController

BatchController 提供了用于管理批处理工作负载的方法。

CreateBatch

rpc CreateBatch(CreateBatchRequest) returns (Operation)

创建以异步方式执行的批处理工作负载。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

DeleteBatch

rpc DeleteBatch(DeleteBatchRequest) returns (Empty)

删除批处理工作负载资源。如果批次不在 CANCELLEDSUCCEEDEDFAILED State 中,则删除操作会失败,并且响应会返回 FAILED_PRECONDITION

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

GetBatch

rpc GetBatch(GetBatchRequest) returns (Batch)

获取批量工作负载资源表示法。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

ListBatches

rpc ListBatches(ListBatchesRequest) returns (ListBatchesResponse)

列出批处理工作负载。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

SessionController

SessionController 提供了用于管理 Interactive 会话的方法。

CreateSession

rpc CreateSession(CreateSessionRequest) returns (Operation)

异步创建交互式会话。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

DeleteSession

rpc DeleteSession(DeleteSessionRequest) returns (Operation)

删除交互式会话资源。如果会话未处于终止状态,系统会先终止会话,然后再将其删除。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

GetSession

rpc GetSession(GetSessionRequest) returns (Session)

获取交互式会话的资源表示法。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

ListSessions

rpc ListSessions(ListSessionsRequest) returns (ListSessionsResponse)

列出交互式会话。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

TerminateSession

rpc TerminateSession(TerminateSessionRequest) returns (Operation)

终止交互式会话。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

SessionTemplateController

SessionTemplateController 提供了用于管理会话模板的方法。

CreateSessionTemplate

rpc CreateSessionTemplate(CreateSessionTemplateRequest) returns (SessionTemplate)

同步创建会话模板。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

DeleteSessionTemplate

rpc DeleteSessionTemplate(DeleteSessionTemplateRequest) returns (Empty)

删除会话模板。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

GetSessionTemplate

rpc GetSessionTemplate(GetSessionTemplateRequest) returns (SessionTemplate)

获取会话模板的资源表示形式。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

ListSessionTemplates

rpc ListSessionTemplates(ListSessionTemplatesRequest) returns (ListSessionTemplatesResponse)

列出会话模板。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

UpdateSessionTemplate

rpc UpdateSessionTemplate(UpdateSessionTemplateRequest) returns (SessionTemplate)

同步更新会话模板。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

AnalyzeOperationMetadata

用于描述“Analyze”操作的元数据。

字段
analyzed_workload_name

string

仅供输出。要分析的工作负载的名称。

analyzed_workload_type

WorkloadType

仅限输出。要分析的工作负载的类型。

analyzed_workload_uuid

string

仅输出。工作负载的唯一标识符,通常由控制平面生成。例如批量 UUID。

create_time

Timestamp

仅限输出。操作的创建时间。

done_time

Timestamp

仅限输出。操作完成的时间。

description

string

仅限输出。操作的简短说明。

labels

map<string, string>

仅限输出。与操作关联的标签。

warnings[]

string

仅限输出。操作执行期间遇到的警告。

WorkloadType

工作负载类型

枚举
WORKLOAD_TYPE_UNSPECIFIED 未定义的选项
BATCH Serverless 批处理作业

AutotuningConfig

工作负载的自动调整配置。

字段
scenarios[]

Scenario

可选。应用调优的场景。

场景

场景表示自动调整功能会尝试通过修改工作负载来实现的特定目标。

枚举
SCENARIO_UNSPECIFIED 默认值。
SCALING 扩缩建议,例如 initialExecutors。
BROADCAST_HASH_JOIN 添加了有关潜在关系广播的提示。
MEMORY 工作负载的内存管理。

批量

表示服务中的批量工作负载。

字段
name

string

仅限输出。批处理的资源名称。

uuid

string

仅限输出。批次 UUID(通用唯一标识符)。该服务会在创建批处理时生成此值。

create_time

Timestamp

仅限输出。批次的创建时间。

runtime_info

RuntimeInfo

仅限输出。有关批量执行的运行时信息。

state

State

仅限输出。批处理的状态。

state_message

string

仅限输出。批处理状态详情,例如,如果状态为 FAILED,则包含失败说明。

state_time

Timestamp

仅限输出。批处理进入当前状态的时间。

creator

string

仅限输出。创建批处理的用户的电子邮件地址。

labels

map<string, string>

可选。要与此批次关联的标签。标签必须包含 1 到 63 个字符,并且必须符合 RFC 1035 的要求。标签可以为空,但如果存在,则必须包含 1 到 63 个字符,并且必须符合 RFC 1035。与批处理关联的标签不得超过 32 个。

runtime_config

RuntimeConfig

可选。批量执行的运行时配置。

environment_config

EnvironmentConfig

可选。批量执行的环境配置。

operation

string

仅限输出。与此批处理关联的操作的资源名称。

state_history[]

StateHistory

仅限输出。批处理的历史状态信息。

联合字段 batch_config。批处理配置的应用/框架专用部分。batch_config 只能是下列其中一项:
pyspark_batch

PySparkBatch

可选。PySpark 批处理配置。

spark_batch

SparkBatch

可选。Spark 批处理配置。

spark_r_batch

SparkRBatch

可选。SparkR 批处理配置。

spark_sql_batch

SparkSqlBatch

可选。SparkSql 批处理配置。

批处理状态。

枚举
STATE_UNSPECIFIED 批处理状态未知。
PENDING 系统会在运行前创建批处理。
RUNNING 批处理正在运行。
CANCELLING 批处理正在取消。
CANCELLED 批量取消操作已成功。
SUCCEEDED 批量处理已成功完成。
FAILED 由于出现错误,批处理作业已停止运行。

StateHistory

历史状态信息。

字段
state

State

仅限输出。历史记录中此时间点的批处理状态。

state_message

string

仅限输出。有关历史记录中此时间点状态的详细信息。

state_start_time

Timestamp

仅限输出。批次进入历史状态的时间。

BatchOperationMetadata

用于描述批处理操作的元数据。

字段
batch

string

操作的批次名称。

batch_uuid

string

操作的批量 UUID。

create_time

Timestamp

操作的创建时间。

done_time

Timestamp

操作完成的时间。

operation_type

BatchOperationType

操作类型。

description

string

操作的简短说明。

labels

map<string, string>

与操作关联的标签。

warnings[]

string

操作执行期间遇到的警告。

BatchOperationType

Batch 资源的操作类型

枚举
BATCH_OPERATION_TYPE_UNSPECIFIED 批处理操作类型未知。
BATCH 批量操作类型。

CreateBatchRequest

创建批处理工作负载的请求。

字段
parent

string

必需。将在其中创建此批次的父级资源。

必须对指定的资源 parent 具有以下 IAM 权限才能进行授权:

  • dataproc.batches.create
batch

Batch

必需。要创建的批次。

batch_id

string

可选。要用于批处理的 ID,该 ID 将成为批处理资源名称的最后一个组成部分。

此值必须为 4-63 个字符。有效字符为 /[a-z][0-9]-/

request_id

string

可选。用于标识请求的唯一 ID。如果服务收到两个具有相同 request_id 的 CreateBatchRequest,则会忽略第二个请求,并返回与创建并存储在后端中的第一个批处理对应的操作。

建议:将此值设置为 UUID

值只能包含字母(a-z、A-Z)、数字 (0-9)、下划线 (_) 和连字符 (-)。长度上限为 40 个字符。

CreateSessionRequest

创建会话的请求。

字段
parent

string

必需。将在其中创建此会话的父级资源。

必须对指定的资源 parent 具有以下 IAM 权限才能进行授权:

  • dataproc.sessions.create
session

Session

必需。要创建的交互式会话。

session_id

string

必需。要用于会话的 ID,该 ID 将成为会话资源名称的最后一个组成部分。

此值必须为 4-63 个字符。有效字符为 /[az][0-9]-/。

request_id

string

可选。用于标识请求的唯一 ID。如果服务收到两个 ID 相同的 CreateSessionRequest,则会忽略第二个请求,并创建第一个 Session 并将其存储在后端。

建议:将此值设置为 UUID

值只能包含字母(a-z、A-Z)、数字 (0-9)、下划线 (_) 和连字符 (-)。长度上限为 40 个字符。

CreateSessionTemplateRequest

请求创建会话模板。

字段
parent

string

必需。将在其中创建此会话模板的父级资源。

必须对指定的资源 parent 具有以下 IAM 权限才能进行授权:

  • dataproc.sessionTemplates.create
session_template

SessionTemplate

必需。要创建的会话模板。

DeleteBatchRequest

用于删除批量工作负载的请求。

字段
name

string

必需。要检索的批处理的完全限定名称,格式为“projects/PROJECT_ID/locations/DATAPROC_REGION/batches/BATCH_ID”

必须对指定的资源 name 具有以下 IAM 权限才能进行授权:

  • dataproc.batches.delete

DeleteSessionRequest

用于删除会话的请求。

字段
name

string

必需。要删除的会话资源的名称。

必须对指定的资源 name 具有以下 IAM 权限才能进行授权:

  • dataproc.sessions.delete
request_id

string

可选。用于标识请求的唯一 ID。如果服务收到两个 ID 相同的 DeleteSessionRequest,则会忽略第二个请求。

建议:将此值设置为 UUID

值只能包含字母(a-z、A-Z)、数字 (0-9)、下划线 (_) 和连字符 (-)。长度上限为 40 个字符。

DeleteSessionTemplateRequest

用于删除会话模板的请求。

字段
name

string

必需。要删除的会话模板资源的名称。

必须对指定的资源 name 具有以下 IAM 权限才能进行授权:

  • dataproc.sessionTemplates.delete

DiagnoseClusterResults

诊断输出的位置。

字段
output_uri

string

仅限输出。诊断输出的 Cloud Storage URI。输出报告是一个纯文本文件,其中包含收集的诊断信息的摘要。

EnvironmentConfig

工作负载的环境配置。

字段
execution_config

ExecutionConfig

可选。工作负载的执行配置。

peripherals_config

PeripheralsConfig

可选。工作负载有权访问的外围设备配置。

ExecutionConfig

工作负载的执行配置。

字段
service_account

string

可选。用于执行工作负载的服务账号。

network_tags[]

string

可选。用于控制网络流量的标记。

kms_key

string

可选。用于加密的 Cloud KMS 密钥。

idle_ttl

Duration

可选。仅适用于会话。在空闲时将会话保持活跃状态的时长。超出此阈值会导致会话终止。此字段无法在批处理工作负载上设置。最小值为 10 分钟;最大值为 14 天(请参阅时长的 JSON 表示法)。如果未设置,则默认为 1 小时。如果为 Interactive 会话同时指定了 ttlidle_ttl,系统会将这些条件视为 OR 条件:当工作负载处于闲置状态的时间达到 idle_ttl 或超出 ttl(以先到者为准)时,系统会终止该工作负载。

ttl

Duration

可选。工作负载终止之前需要经历的时长,以 Duration 的 JSON 表示法指定。如果工作负载超出此时长,系统会无条件终止该工作负载,而不会等待正在进行的工作完成。如果未为批处理工作负载指定 ttl,系统将允许该工作负载运行,直到其自然退出(或无限期运行而不退出)。如果未为 Interactive 会话指定 ttl,则默认为 24 小时。如果未为使用 2.1 及更高版本的运行时的批处理指定 ttl,则默认为 4 小时。最小值为 10 分钟;最大值为 14 天。如果同时指定了 ttlidle_ttl(对于 Interactive 会话),系统会将这些条件视为 OR 条件:当工作负载处于空闲状态的时间达到 idle_ttl 或超出 ttl 时(以先到者为准),系统会终止该工作负载。

staging_bucket

string

可选。Cloud Storage 存储分区,用于暂存工作负载依赖项、配置文件,以及存储工作负载输出和其他临时数据(例如 Spark 历史记录文件)。如果您未指定暂存桶,Cloud Dataproc 会根据工作负载运行的区域确定 Cloud Storage 位置,然后创建和管理这些基于位置的项目级暂存桶和临时桶。此字段需要输入 Cloud Storage 存储分区名称,而不是 Cloud Storage 存储分区的 gs://... URI。

联合字段 network。工作负载执行的网络配置。network 只能是下列其中一项:
network_uri

string

可选。要连接到的工作负载的网络 URI。

subnetwork_uri

string

可选。要连接到的工作负载的子网 URI。

GetBatchRequest

用于获取批量工作负载的资源表示法的请求。

字段
name

string

必需。要检索的批处理的完全限定名称,格式为“projects/PROJECT_ID/locations/DATAPROC_REGION/batches/BATCH_ID”

必须对指定的资源 name 具有以下 IAM 权限才能进行授权:

  • dataproc.batches.get

GetSessionRequest

用于获取会话资源表示的请求。

字段
name

string

必需。要检索的会话的名称。

必须对指定的资源 name 具有以下 IAM 权限才能进行授权:

  • dataproc.sessions.get

GetSessionTemplateRequest

用于获取会话模板的资源表示的请求。

字段
name

string

必需。要检索的会话模板的名称。

必须对指定的资源 name 具有以下 IAM 权限才能进行授权:

  • dataproc.sessionTemplates.get

JupyterConfig

交互式会话的 Jupyter 配置。

字段
kernel

Kernel

可选。内核

display_name

string

可选。显示名称,显示在 Jupyter kernelspec 卡片中。

内核

Jupyter 内核类型。

枚举
KERNEL_UNSPECIFIED 内核未知。
PYTHON Python 内核。
SCALA Scala 内核。

ListBatchesRequest

用于列出项目中批处理工作负载的请求。

字段
parent

string

必需。拥有此批处理集合的父级。

必须对指定的资源 parent 具有以下 IAM 权限才能进行授权:

  • dataproc.batches.list
page_size

int32

可选。每个响应中返回的批次数量上限。服务返回的值可能小于此值。默认页面大小为 20;最大页面大小为 1,000。

page_token

string

可选。从之前的 ListBatches 调用接收的页面令牌。提供此令牌以检索后续页面。

filter

string

可选。用于过滤要在响应中返回的批次的过滤条件。

过滤条件是一种逻辑表达式,用于约束每个批量资源中各个字段的值。过滤条件区分大小写,并且可以包含多个子句以及逻辑运算符(AND/OR)。支持的字段为 batch_idbatch_uuidstatecreate_timelabels

例如,state = RUNNING and create_time < "2023-01-01T00:00:00Z" 过滤器用于过滤状态为 RUNNING 且创建时间早于 2023 年 1 月 1 日的批次。state = RUNNING and labels.environment=production 用于过滤处于 RUNNING 状态且带有生产环境标签的批次。

如需详细了解过滤器语法以及支持的比较列表,请参阅 https://google.aip.dev/assets/misc/ebnf-filtering.txt

order_by

string

可选。用于对批处理列表进行排序的字段。

目前,仅支持“未指定”(空)和 create_time desc 两种排序方式,前者会按创建时间排序,后者会按最近创建的批次排序。

如需了解详情,请参阅 https://google.aip.dev/132#ordering

ListBatchesResponse

批量工作负载列表。

字段
batches[]

Batch

仅限输出。指定集合中的批次。

next_page_token

string

可作为 page_token 发送并用于检索下一页的令牌。如果省略此字段,则不存在后续页面。

unreachable[]

string

仅限输出。无法包含在响应中的批次的列表。尝试获取其中一个资源可能会显示其未包含在列表响应中的原因。

ListSessionTemplatesRequest

用于列出项目中会话模板的请求。

字段
parent

string

必需。拥有此会话模板集合的父级。

必须对指定的资源 parent 具有以下 IAM 权限才能进行授权:

  • dataproc.sessionTemplates.list
page_size

int32

可选。每个响应中返回的会话数量上限。服务返回的值可能小于此值。

page_token

string

可选。从之前的 ListSessions 调用接收的页面令牌。提供此令牌以检索后续页面。

filter

string

可选。用于过滤要在响应中返回的会话模板的过滤条件。过滤条件区分大小写,并且采用以下语法:

[字段 = 值] AND [字段 [= 值]] ...

ListSessionTemplatesResponse

会话模板列表。

字段
session_templates[]

SessionTemplate

仅限输出。会话模板列表

next_page_token

string

可作为 page_token 发送并用于检索下一页的令牌。如果省略此字段,则不存在后续页面。

ListSessionsRequest

用于列出项目中会话的请求。

字段
parent

string

必需。拥有此会话集合的父级。

必须对指定的资源 parent 具有以下 IAM 权限才能进行授权:

  • dataproc.sessions.list
page_size

int32

可选。每个响应中返回的会话数量上限。服务返回的值可能小于此值。

page_token

string

可选。从之前的 ListSessions 调用接收的页面令牌。提供此令牌以检索后续页面。

filter

string

可选。用于在响应中返回的会话的过滤条件。

过滤条件是一种逻辑表达式,用于约束每个会话资源中各个字段的值。过滤条件区分大小写,并且可以包含多个子句以及逻辑运算符(AND、OR)。支持的字段为 session_idsession_uuidstatecreate_timelabels

示例:state = ACTIVE and create_time < "2023-01-01T00:00:00Z" 是用于过滤 2023 年 1 月 1 日之前创建且处于“有效”状态的会话的过滤条件。state = ACTIVE and labels.environment=production 是用于过滤处于 ACTIVE 状态且具有生产环境标签的会话的过滤条件。

如需详细了解过滤条件语法以及受支持的比较运算符的列表,请参阅 https://google.aip.dev/assets/misc/ebnf-filtering.txt

ListSessionsResponse

交互式会话列表。

字段
sessions[]

Session

仅限输出。指定集合中的会话。

next_page_token

string

可作为 page_token 发送并用于检索下一页的令牌。如果省略此字段,则不存在后续页面。

PeripheralsConfig

工作负载的辅助服务配置。

字段
metastore_service

string

可选。现有 Dataproc Metastore 服务的资源名称。

示例:

  • projects/[project_id]/locations/[region]/services/[service_id]
spark_history_server_config

SparkHistoryServerConfig

可选。工作负载的 Spark 历史记录服务器配置。

PyPiRepositoryConfig

PyPi 代码库的配置

字段
pypi_repository

string

可选。PyPi 代码库地址

PySparkBatch

用于运行 Apache PySpark 批处理工作负载的配置。

字段
main_python_file_uri

string

必需。要用作 Spark 驱动程序的主 Python 文件的 HCFS URI。必须是 .py 文件。

args[]

string

可选。要传递给驱动程序的参数。请勿添加可设置为批量属性的参数(例如 --conf),因为这可能会导致发生冲突,从而导致批量提交不正确。

python_file_uris[]

string

可选。要传递给 PySpark 框架的 Python 文件的 HCFS 文件 URI。支持的文件类型:.py.egg.zip

jar_file_uris[]

string

可选。要添加到 Spark 驱动程序和任务的类路径的 JAR 文件的 HCFS URI。

file_uris[]

string

可选。要放入各个执行程序的工作目录中的文件的 HCFS URI。

archive_uris[]

string

可选。要提取到每个执行程序的工作目录中的归档文件的 HCFS URI。支持的文件类型:.jar.tar.tar.gz.tgz.zip

RepositoryConfig

依赖项代码库的配置

字段
pypi_repository_config

PyPiRepositoryConfig

可选。PyPi 代码库的配置。

RuntimeConfig

工作负载的运行时配置。

字段
version

string

可选。批处理运行时的版本。

container_image

string

可选。作业运行时环境的可选自定义容器映像。如果未指定,则系统将使用默认容器映像。

properties

map<string, string>

可选。属性名称与值的映射,用于配置工作负载执行。

repository_config

RepositoryConfig

可选。依赖项代码库配置。

autotuning_config

AutotuningConfig

可选。工作负载的自动调整配置。

cohort

string

可选。同类群组标识符。识别具有相同形状的工作负载族,例如每日 ETL 作业。

RuntimeInfo

有关工作负载执行的运行时信息。

字段
endpoints

map<string, string>

仅限输出。远程访问端点(例如 Web 界面和 API)与其 URI 的映射。

output_uri

string

仅限输出。指向工作负载的标准输出和标准错误输出位置的 URI。

diagnostic_output_uri

string

仅限输出。指向诊断 tar 压缩文件位置的 URI。

approximate_usage

UsageMetrics

仅限输出。工作负载完成时计算的近似工作负载资源用量(请参阅 Dataproc Serverless 价格)。

注意:此指标的计算方式未来可能会发生变化,例如,为了捕获工作负载执行期间的累计工作负载资源消耗(如需了解公告、变更、修复程序和其他 Dataproc 开发动态,请参阅 Dataproc Serverless 版本说明)。

current_usage

UsageSnapshot

仅限输出。当前工作负载资源用量的快照。

会话

会话的表示法。

字段
name

string

必需。会话的资源名称。

uuid

string

仅限输出。会话 UUID(通用唯一标识符)。该服务会在创建会话时生成此值。

create_time

Timestamp

仅限输出。会话的创建时间。

runtime_info

RuntimeInfo

仅限输出。有关会话执行的运行时信息。

state

State

仅限输出。会话的状态。

state_message

string

仅限输出。会话状态详情,例如如果状态为 FAILED,则会显示失败说明。

state_time

Timestamp

仅限输出。会话进入当前状态的时间。

creator

string

仅限输出。创建会话的用户的电子邮件地址。

labels

map<string, string>

可选。要与会话相关联的标签。标签必须包含 1 到 63 个字符,并且必须符合 RFC 1035 的要求。标签可以为空,但如果存在,则必须包含 1 到 63 个字符,并且必须符合 RFC 1035。与会话关联的标签不得超过 32 个。

runtime_config

RuntimeConfig

可选。会话执行的运行时配置。

environment_config

EnvironmentConfig

可选。会话执行的环境配置。

user

string

可选。会话所有者的电子邮件地址。

state_history[]

SessionStateHistory

仅限输出。会话的历史状态信息。

session_template

string

可选。会话使用的会话模板。

只有资源名称(包括项目 ID 和位置)才有效。

示例:* https://www.googleapis.com/compute/v1/projects/[project_id]/locations/[dataproc_region]/sessionTemplates/[template_id] * projects/[project_id]/locations/[dataproc_region]/sessionTemplates/[template_id]

模板必须与会话位于同一项目和 Dataproc 区域。

联合字段 session_config。会话配置。session_config 只能是下列其中一项:
jupyter_session

JupyterConfig

可选。Jupyter 会话配置。

spark_connect_session

SparkConnectConfig

可选。Spark 连接会话配置。

SessionStateHistory

历史状态信息。

字段
state

State

仅限输出。会话历史记录中此时刻的会话状态。

state_message

string

仅限输出。有关会话历史记录中此时刻状态的详细信息。

state_start_time

Timestamp

仅限输出。会话进入历史状态的时间。

会话状态。

枚举
STATE_UNSPECIFIED 会话状态未知。
CREATING 会话是在运行前创建的。
ACTIVE 会话正在运行。
TERMINATING 会话正在终止。
TERMINATED 会话已成功终止。
FAILED 由于出现错误,会话已停止运行。

SessionOperationMetadata

用于描述会话操作的元数据。

字段
session

string

操作的会话名称。

session_uuid

string

操作的会话 UUID。

create_time

Timestamp

操作的创建时间。

done_time

Timestamp

操作完成的时间。

operation_type

SessionOperationType

操作类型。

description

string

操作的简短说明。

labels

map<string, string>

与操作关联的标签。

warnings[]

string

操作执行期间遇到的警告。

SessionOperationType

会话资源的操作类型

枚举
SESSION_OPERATION_TYPE_UNSPECIFIED 会话操作类型未知。
CREATE “Create Session”操作类型。
TERMINATE “终止会话”操作类型。
DELETE “删除会话”操作类型。

SessionTemplate

会话模板的表示法。

字段
name

string

必需。会话模板的资源名称。

description

string

可选。模板的简要说明。

create_time

Timestamp

仅限输出。模板的创建时间。

creator

string

仅限输出。创建模板的用户的电子邮件地址。

labels

map<string, string>

可选。要与使用此模板创建的会话相关联的标签。标签必须包含 1 到 63 个字符,并且必须符合 RFC 1035 的要求。标签可以为空,但如果存在,则必须包含 1 到 63 个字符,并且符合 RFC 1035 的要求。与会话关联的标签不得超过 32 个。

runtime_config

RuntimeConfig

可选。会话执行的运行时配置。

environment_config

EnvironmentConfig

可选。会话执行的环境配置。

update_time

Timestamp

仅限输出。模板上次更新的时间。

uuid

string

仅限输出。会话模板 UUID(通用唯一标识符)。该服务会在创建会话模板时生成此值。

联合字段 session_config。会话配置。session_config 只能是下列其中一项:
jupyter_session

JupyterConfig

可选。Jupyter 会话配置。

spark_connect_session

SparkConnectConfig

可选。Spark 连接会话配置。

SparkBatch

用于运行 Apache Spark 批处理工作负载的配置。

字段
args[]

string

可选。要传递给驱动程序的参数。请勿添加可设置为批量属性的参数(例如 --conf),因为这可能会导致冲突,从而导致批量提交不正确。

jar_file_uris[]

string

可选。要添加到 Spark 驱动程序和任务的类路径的 JAR 文件的 HCFS URI。

file_uris[]

string

可选。要放入各个执行程序的工作目录中的文件的 HCFS URI。

archive_uris[]

string

可选。要提取到每个执行程序的工作目录中的归档文件的 HCFS URI。支持的文件类型:.jar.tar.tar.gz.tgz.zip

联合字段 driver。用于调用以驱动 Spark 工作负载的主要方法的规范。指定包含主类的 jar 文件或主类名称。如需同时传递主 jar 和该 jar 中的主类,请将 jar 添加到 jar_file_uris,然后在 main_class 中指定主类名称。driver 只能是下列其中一项:
main_jar_file_uri

string

可选。包含主类的 jar 文件的 HCFS URI。

main_class

string

可选。驱动程序主类的名称。包含该类的 jar 文件必须位于类路径中或在 jar_file_uris 中指定。

SparkConnectConfig

此类型没有字段。

交互式会话的 Spark Connect 配置。

SparkHistoryServerConfig

工作负载的 Spark 历史记录服务器配置。

字段
dataproc_cluster

string

可选。要用作工作负载的 Spark 历史记录服务器的现有 Dataproc 集群的资源名称。

示例:

  • projects/[project_id]/regions/[region]/clusters/[cluster_name]

SparkRBatch

用于运行 Apache SparkR 批处理工作负载的配置。

字段
main_r_file_uri

string

必需。要用作驱动程序的主要 R 文件的 HCFS URI。必须是 .R.r 文件。

args[]

string

可选。要传递给 Spark 驱动程序的参数。请勿添加可设置为批量属性的参数(例如 --conf),因为这可能会导致发生冲突,从而导致批量提交不正确。

file_uris[]

string

可选。要放入各个执行程序的工作目录中的文件的 HCFS URI。

archive_uris[]

string

可选。要提取到每个执行程序的工作目录中的归档文件的 HCFS URI。支持的文件类型:.jar.tar.tar.gz.tgz.zip

SparkSqlBatch

用于将 Apache Spark SQL 查询作为批处理工作负载运行的配置。

字段
query_file_uri

string

必需。包含要执行的 Spark SQL 查询的脚本的 HCFS URI。

query_variables

map<string, string>

可选。将查询变量名称映射到值(相当于 Spark SQL 命令:SET name="value";)。

jar_file_uris[]

string

可选。要添加到 Spark CLASSPATH 的 JAR 文件的 HCFS URI。

TerminateSessionRequest

用于终止交互式会话的请求。

字段
name

string

必需。要终止的会话资源的名称。

必须对指定的资源 name 具有以下 IAM 权限才能进行授权:

  • dataproc.sessions.terminate
request_id

string

可选。用于标识请求的唯一 ID。如果服务收到两个 ID 相同的 TerminateSessionRequest,则会忽略第二个请求。

建议:将此值设置为 UUID

值只能包含字母(a-z、A-Z)、数字 (0-9)、下划线 (_) 和连字符 (-)。长度上限为 40 个字符。

UpdateSessionTemplateRequest

用于更新会话模板的请求。

字段
session_template

SessionTemplate

必需。更新后的会话模板。

必须对指定的资源 sessionTemplate 具有以下 IAM 权限才能进行授权:

  • dataproc.sessionTemplates.update

UsageMetrics

使用指标表示工作负载使用的大致总资源。

字段
milli_dcu_seconds

int64

可选。DCU(Dataproc 计算单元)用量(milliDCU x seconds)(请参阅 Dataproc Serverless 价格)。

shuffle_storage_gb_seconds

int64

可选。Shuffle 存储用量(GB x seconds)(请参阅 Dataproc Serverless 价格)。

milli_accelerator_seconds

int64

可选。加速器用量(milliAccelerator x seconds)(请参阅 Dataproc Serverless 价格)。

accelerator_type

string

可选。使用的加速器类型(如果有)

UsageSnapshot

使用情况快照表示工作负载在指定时间点消耗的资源。

字段
milli_dcu

int64

可选。毫 Dataproc 计算单元 (DCU)(请参阅 Dataproc Serverless 价格)。

shuffle_storage_gb

int64

可选。随机播放存储空间(以 GB 为单位)。(请参阅 Dataproc Serverless 价格

milli_dcu_premium

int64

可选。按高级层级收费的 Dataproc 计算单元 (DCU) 的毫微 (1/1000) 单位(请参阅 Dataproc Serverless 价格)。

shuffle_storage_gb_premium

int64

可选。随机播放存储空间(以 GB 为单位),按付费级别收费。(请参阅 Dataproc Serverless 价格

milli_accelerator

int64

可选。毫秒(千分之一秒)加速器。(请参阅 Dataproc Serverless 价格

accelerator_type

string

可选。使用的加速器类型(如果有)

snapshot_time

Timestamp

可选。使用情况快照的时间戳。