Package google.cloud.dataproc.v1

Índice

BatchController

BatchController proporciona métodos para administrar cargas de trabajo por lotes.

CreateBatch

rpc CreateBatch(CreateBatchRequest) returns (Operation)

Crea una carga de trabajo por lotes que se ejecuta de forma asíncrona.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

DeleteBatch

rpc DeleteBatch(DeleteBatchRequest) returns (Empty)

Borra el recurso de carga de trabajo por lotes. Si el lote no está en un State CANCELLED, SUCCEEDED o FAILED, la operación de eliminación falla y la respuesta muestra FAILED_PRECONDITION.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

GetBatch

rpc GetBatch(GetBatchRequest) returns (Batch)

Obtiene la representación del recurso de la carga de trabajo por lotes.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

ListBatches

rpc ListBatches(ListBatchesRequest) returns (ListBatchesResponse)

Muestra una lista de cargas de trabajo por lotes.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

SessionController

SessionController proporciona métodos para administrar sesiones interactivas.

CreateSession

rpc CreateSession(CreateSessionRequest) returns (Operation)

Crea una sesión interactiva de forma asíncrona.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

DeleteSession

rpc DeleteSession(DeleteSessionRequest) returns (Operation)

Borra el recurso de sesión interactiva. Si la sesión no está en estado terminal, se finalizará y, luego, se borrará.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

GetSession

rpc GetSession(GetSessionRequest) returns (Session)

Obtiene la representación de recursos para una sesión interactiva.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

ListSessions

rpc ListSessions(ListSessionsRequest) returns (ListSessionsResponse)

Muestra una lista de las sesiones interactivas.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

TerminateSession

rpc TerminateSession(TerminateSessionRequest) returns (Operation)

Finaliza la sesión interactiva.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

SessionTemplateController

SessionTemplateController proporciona métodos para administrar plantillas de sesión.

CreateSessionTemplate

rpc CreateSessionTemplate(CreateSessionTemplateRequest) returns (SessionTemplate)

Crea una plantilla de sesión de forma síncrona.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

DeleteSessionTemplate

rpc DeleteSessionTemplate(DeleteSessionTemplateRequest) returns (Empty)

Borra una plantilla de sesión.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

GetSessionTemplate

rpc GetSessionTemplate(GetSessionTemplateRequest) returns (SessionTemplate)

Obtiene la representación de recursos de una plantilla de sesión.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

ListSessionTemplates

rpc ListSessionTemplates(ListSessionTemplatesRequest) returns (ListSessionTemplatesResponse)

Muestra una lista de plantillas de sesión.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

UpdateSessionTemplate

rpc UpdateSessionTemplate(UpdateSessionTemplateRequest) returns (SessionTemplate)

Actualiza la plantilla de sesión de forma síncrona.

Permisos de autorización

Se requiere el siguiente permiso de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

AnalyzeOperationMetadata

Metadatos que describen la operación de análisis

Campos
analyzed_workload_name

string

Solo salida. Es el nombre de la carga de trabajo que se analiza.

analyzed_workload_type

WorkloadType

Solo salida. Es el tipo de carga de trabajo que se analiza.

analyzed_workload_uuid

string

Solo salida. Es el identificador único de la carga de trabajo que suele generar el plano de control. P.ej., UUID del lote.

create_time

Timestamp

Solo salida. Es la hora en la que se creó la operación.

done_time

Timestamp

Solo salida. Es la hora en la que finalizó la operación.

description

string

Solo salida. Es una descripción breve de la operación.

labels

map<string, string>

Solo salida. Etiquetas asociadas con la operación.

warnings[]

string

Solo salida. Se encontraron advertencias durante la ejecución de la operación.

WorkloadType

Tipo de carga de trabajo

Enums
WORKLOAD_TYPE_UNSPECIFIED Opción no definida
BATCH Trabajo por lotes sin servidores

AutotuningConfig

Configuración de ajuste automático de la carga de trabajo

Campos
scenarios[]

Scenario

Opcional. Situaciones para las que se aplican los ajustes.

Situación

La situación representa un objetivo específico que el ajuste automático intentará alcanzar modificando las cargas de trabajo.

Enums
SCENARIO_UNSPECIFIED Valor predeterminado
SCALING Recomendaciones de escalamiento, como initialExecutors.
BROADCAST_HASH_JOIN Se agregaron sugerencias para posibles transmisiones de relaciones.
MEMORY Administración de memoria para cargas de trabajo

Lote

Es una representación de una carga de trabajo por lotes en el servicio.

Campos
name

string

Solo salida. Es el nombre del recurso del lote.

uuid

string

Solo salida. Un UUID por lotes (identificador único universal). El servicio genera este valor cuando crea el lote.

create_time

Timestamp

Solo salida. Es la hora en la que se creó el lote.

runtime_info

RuntimeInfo

Solo salida. Información del entorno de ejecución sobre la ejecución por lotes

state

State

Solo salida. Es el estado del lote.

state_message

string

Solo salida. Detalles del estado del lote, como una descripción de la falla si el estado es FAILED

state_time

Timestamp

Solo salida. La hora en que el lote entró en un estado actual.

creator

string

Solo salida. La dirección de correo electrónico del usuario que creó el lote

labels

map<string, string>

Opcional. Las etiquetas que se asociarán con este lote. Las claves de etiqueta deben contener entre 1 y 63 caracteres y cumplir con la RFC 1035. Los valores de la etiqueta pueden estar vacíos, pero, si están presentes, deben contener entre 1 y 63 caracteres y cumplir con la RFC 1035. No se pueden asociar más de 32 etiquetas a un lote.

runtime_config

RuntimeConfig

Opcional. Configuración del entorno de ejecución para la ejecución por lotes.

environment_config

EnvironmentConfig

Opcional. Configuración del entorno para la ejecución por lotes

operation

string

Solo salida. El nombre del recurso de la operación asociada con este lote.

state_history[]

StateHistory

Solo salida. Información histórica del estado del lote.

Campo de unión batch_config. Es la parte específica de la aplicación o el framework de la configuración por lotes. batch_config puede ser solo uno de los siguientes:
pyspark_batch

PySparkBatch

Opcional. Configuración por lotes de PySpark

spark_batch

SparkBatch

Opcional. Configuración por lotes de Spark

spark_r_batch

SparkRBatch

Opcional. Configuración por lotes de SparkR

spark_sql_batch

SparkSqlBatch

Opcional. Configuración por lotes de SparkSql.

Estado

El estado del lote.

Enums
STATE_UNSPECIFIED Se desconoce el estado del lote.
PENDING El lote se crea antes de ejecutarse.
RUNNING El lote se está ejecutando.
CANCELLING Se cancela el lote.
CANCELLED La cancelación masiva se realizó correctamente.
SUCCEEDED El lote se completó correctamente.
FAILED El lote ya no se ejecuta debido a un error.

StateHistory

Información histórica del estado.

Campos
state

State

Solo salida. Es el estado del lote en este punto del historial.

state_message

string

Solo salida. Detalles sobre el estado en este momento de la historia.

state_start_time

Timestamp

Solo salida. Es la hora en la que el lote entró en el estado histórico.

BatchOperationMetadata

Metadatos que describen la operación por lotes

Campos
batch

string

Es el nombre del lote de la operación.

batch_uuid

string

UUID del lote para la operación.

create_time

Timestamp

Es la hora en la que se creó la operación.

done_time

Timestamp

Es la hora en la que finalizó la operación.

operation_type

BatchOperationType

El tipo de operación.

description

string

Es una descripción breve de la operación.

labels

map<string, string>

Etiquetas asociadas con la operación.

warnings[]

string

Se encontraron advertencias durante la ejecución de la operación.

BatchOperationType

Tipo de operación para recursos de Batch

Enums
BATCH_OPERATION_TYPE_UNSPECIFIED El tipo de operación por lotes es desconocido.
BATCH Tipo de operación por lotes.

CreateBatchRequest

Una solicitud para crear una carga de trabajo por lotes.

Campos
parent

string

Obligatorio. Es el recurso superior en el que se creará este lote.

La autorización requiere el siguiente permiso IAM en el recurso especificado parent:

  • dataproc.batches.create
batch

Batch

Obligatorio. El lote que se creará.

batch_id

string

Opcional. Es el ID que se usará para el lote, que se convertirá en el componente final del nombre del recurso del lote.

Este valor debe tener entre 4 y 63 caracteres. Los caracteres válidos son /[a-z][0-9]-/.

request_id

string

Opcional. Un ID único que se usa para identificar la solicitud. Si el servicio recibe dos CreateBatchRequest con el mismo request_id, se ignora la segunda solicitud y se muestra la operación que corresponde al primer lote creado y almacenado en el backend.

Recomendación: Establece este valor en un UUID.

El valor debe contener solo letras (a-z, A-Z), números (0-9), guiones bajos (_) y guiones (-). La longitud máxima es de 40 caracteres.

CreateSessionRequest

Es una solicitud para crear una sesión.

Campos
parent

string

Obligatorio. Es el recurso superior en el que se creará esta sesión.

La autorización requiere el siguiente permiso IAM en el recurso especificado parent:

  • dataproc.sessions.create
session

Session

Obligatorio. La sesión interactiva que se creará.

session_id

string

Obligatorio. Es el ID que se usará para la sesión, que se convierte en el componente final del nombre del recurso de la sesión.

Este valor debe tener entre 4 y 63 caracteres. Los caracteres válidos son /[a-z][0-9]-/.

request_id

string

Opcional. Un ID único que se usa para identificar la solicitud. Si el servicio recibe dos CreateSessionRequests con el mismo ID, se ignora la segunda solicitud y se crea y almacena el primer Session en el backend.

Recomendación: Establece este valor en un UUID.

El valor debe contener solo letras (a-z, A-Z), números (0-9), guiones bajos (_) y guiones (-). La longitud máxima es de 40 caracteres.

CreateSessionTemplateRequest

Es una solicitud para crear una plantilla de sesión.

Campos
parent

string

Obligatorio. Es el recurso superior en el que se creará esta plantilla de sesión.

La autorización requiere el siguiente permiso IAM en el recurso especificado parent:

  • dataproc.sessionTemplates.create
session_template

SessionTemplate

Obligatorio. Es la plantilla de sesión que se creará.

DeleteBatchRequest

Una solicitud para borrar una carga de trabajo por lotes.

Campos
name

string

Obligatorio. El nombre totalmente calificado del lote que se recuperará en el formato "projects/PROJECT_ID/locations/DATAPROC_REGION/batches/BATCH_ID"

La autorización requiere el siguiente permiso IAM en el recurso especificado name:

  • dataproc.batches.delete

DeleteSessionRequest

Es una solicitud para borrar una sesión.

Campos
name

string

Obligatorio. Es el nombre del recurso de sesión que se borrará.

La autorización requiere el siguiente permiso IAM en el recurso especificado name:

  • dataproc.sessions.delete
request_id

string

Opcional. Un ID único que se usa para identificar la solicitud. Si el servicio recibe dos DeleteSessionRequest con el mismo ID, se ignora la segunda solicitud.

Recomendación: Establece este valor en un UUID.

El valor debe contener solo letras (a-z, A-Z), números (0-9), guiones bajos (_) y guiones (-). La longitud máxima es de 40 caracteres.

DeleteSessionTemplateRequest

Una solicitud para borrar una plantilla de sesión.

Campos
name

string

Obligatorio. Es el nombre del recurso de plantilla de sesión que se borrará.

La autorización requiere el siguiente permiso IAM en el recurso especificado name:

  • dataproc.sessionTemplates.delete

DiagnoseClusterResults

La ubicación del resultado del diagnóstico.

Campos
output_uri

string

Solo salida. Es el URI de Cloud Storage del resultado del diagnóstico. El informe de salida es un archivo de texto sin formato con un resumen de los diagnósticos recopilados.

EnvironmentConfig

Configuración del entorno para una carga de trabajo.

Campos
execution_config

ExecutionConfig

Opcional. Configuración de ejecución para una carga de trabajo.

peripherals_config

PeripheralsConfig

Opcional. Configuración de los periféricos a los que tiene acceso la carga de trabajo

ExecutionConfig

Configuración de ejecución para una carga de trabajo.

Campos
service_account

string

Opcional. Cuenta de servicio que se usaba para ejecutar la carga de trabajo

network_tags[]

string

Opcional. Son etiquetas que se usan para controlar el tráfico de red.

kms_key

string

Opcional. La clave de Cloud KMS que se usará para la encriptación.

idle_ttl

Duration

Opcional. Solo se aplica a las sesiones. Es la duración para mantener la sesión activa mientras está inactiva. Si se supera este umbral, se finalizará la sesión. Este campo no se puede establecer en una carga de trabajo por lotes. El valor mínimo es de 10 minutos y el máximo es de 14 días (consulta la representación JSON de Duración). Si la opción no está configurada, se establece en 1 hora de forma predeterminada. Si se especifican ttl y idle_ttl para una sesión interactiva, las condiciones se tratan como condiciones OR: la carga de trabajo se finalizará cuando esté inactiva durante idle_ttl o cuando se supere ttl, lo que ocurra primero.

ttl

Duration

Opcional. Es la duración después de la cual se finalizará la carga de trabajo, especificada como la representación JSON de Duration. Cuando la carga de trabajo supere esta duración, se finalizará sin condiciones sin esperar a que finalice el trabajo en curso. Si no se especifica ttl para una carga de trabajo por lotes, esta se podrá ejecutar hasta que se cierre de forma natural (o se ejecute para siempre sin cerrarse). Si no se especifica ttl para una sesión interactiva, el valor predeterminado es de 24 horas. Si no se especifica ttl para un lote que usa una versión del entorno de ejecución posterior a la 2.1, el valor predeterminado es de 4 horas. El valor mínimo es de 10 minutos y el máximo es de 14 días. Si se especifican ttl y idle_ttl (para una sesión interactiva), las condiciones se tratan como condiciones OR: la carga de trabajo se finalizará cuando esté inactiva durante idle_ttl o cuando se supere ttl, lo que ocurra primero.

staging_bucket

string

Opcional. Es un bucket de Cloud Storage que se usa para almacenar en etapa intermedia las dependencias de cargas de trabajo, los archivos de configuración y los resultados de las cargas de trabajo, así como otros datos efímeros, como los archivos de historial de Spark. Si no especificas un bucket de etapa de pruebas, Cloud Dataproc determinará una ubicación de Cloud Storage según la región en la que se ejecuta tu carga de trabajo y, luego, creará y administrará buckets temporales y de etapa de pruebas por ubicación y a nivel del proyecto. Este campo requiere un nombre de bucket de Cloud Storage, no un URI gs://... a un bucket de Cloud Storage.

Campo de unión network. Configuración de red para la ejecución de cargas de trabajo network puede ser solo uno de los siguientes:
network_uri

string

Opcional. Es el URI de red al que se conectará la carga de trabajo.

subnetwork_uri

string

Opcional. Es el URI de la subred al que se conectará la carga de trabajo.

GetBatchRequest

Una solicitud para obtener la representación de recursos de una carga de trabajo por lotes.

Campos
name

string

Obligatorio. El nombre totalmente calificado del lote que se recuperará en el formato "projects/PROJECT_ID/locations/DATAPROC_REGION/batches/BATCH_ID"

La autorización requiere el siguiente permiso IAM en el recurso especificado name:

  • dataproc.batches.get

GetSessionRequest

Una solicitud para obtener la representación del recurso de una sesión.

Campos
name

string

Obligatorio. Es el nombre de la sesión que se recuperará.

La autorización requiere el siguiente permiso IAM en el recurso especificado name:

  • dataproc.sessions.get

GetSessionTemplateRequest

Una solicitud para obtener la representación de recursos de una plantilla de sesión.

Campos
name

string

Obligatorio. Es el nombre de la plantilla de sesión que se recuperará.

La autorización requiere el siguiente permiso IAM en el recurso especificado name:

  • dataproc.sessionTemplates.get

JupyterConfig

Configuración de Jupyter para una sesión interactiva.

Campos
kernel

Kernel

Opcional. Kernel

display_name

string

Opcional. Es el nombre visible que se muestra en la tarjeta de kernelspec de Jupyter.

Kernel

Tipos de kernel de Jupyter.

Enums
KERNEL_UNSPECIFIED El kernel es desconocido.
PYTHON Kernel de Python
SCALA Kernel de Scala

ListBatchesRequest

Una solicitud para enumerar las cargas de trabajo por lotes en un proyecto.

Campos
parent

string

Obligatorio. El elemento superior, que es propietario de esta colección de lotes.

La autorización requiere el siguiente permiso IAM en el recurso especificado parent:

  • dataproc.batches.list
page_size

int32

Opcional. Es la cantidad máxima de lotes que se mostrarán en cada respuesta. El servicio puede mostrar menos que este valor. El tamaño de página predeterminado es 20 y el máximo es 1,000.

page_token

string

Opcional. Es un token de página recibido de una llamada a ListBatches anterior. Proporciona este token para recuperar la página siguiente.

filter

string

Opcional. Es un filtro para que los lotes se muestren en la respuesta.

Un filtro es una expresión lógica que restringe los valores de varios campos en cada recurso por lotes. Los filtros distinguen mayúsculas de minúsculas y pueden contener varias cláusulas combinadas con operadores lógicos (Y/O). Los campos admitidos son batch_id, batch_uuid, state, create_time y labels.

p.ej., state = RUNNING and create_time < "2023-01-01T00:00:00Z" filtra lotes en estado RUNNING que se crearon antes del 1/1/2023. state = RUNNING and labels.environment=production filtra lotes en estado RUNNING que tienen una etiqueta de entorno de producción.

Consulta https://google.aip.dev/assets/misc/ebnf-filtering.txt para obtener una descripción detallada de la sintaxis del filtro y una lista de las comparaciones admitidas.

order_by

string

Opcional. Son los campos en los que se ordenará la lista de lotes.

Actualmente, los únicos órdenes de clasificación admitidos son no especificados (vacíos) y create_time desc para ordenar primero por los lotes creados más recientemente.

Consulta https://google.aip.dev/132#ordering para obtener más detalles.

ListBatchesResponse

Una lista de cargas de trabajo por lotes.

Campos
batches[]

Batch

Solo salida. Los lotes de la colección especificada.

next_page_token

string

Un token, que se puede enviar como page_token para recuperar la página siguiente. Si se omite este campo, no habrá páginas siguientes.

unreachable[]

string

Solo salida. Es la lista de lotes que no se pudieron incluir en la respuesta. Intentar obtener uno de estos recursos puede indicar por qué no se incluyó en la respuesta de la lista.

ListSessionTemplatesRequest

Una solicitud para enumerar las plantillas de sesión de un proyecto.

Campos
parent

string

Obligatorio. El elemento superior que es propietario de esta colección de plantillas de sesión.

La autorización requiere el siguiente permiso IAM en el recurso especificado parent:

  • dataproc.sessionTemplates.list
page_size

int32

Opcional. Es la cantidad máxima de sesiones que se mostrarán en cada respuesta. El servicio puede mostrar menos que este valor.

page_token

string

Opcional. Es un token de página recibido de una llamada a ListSessions anterior. Proporciona este token para recuperar la página siguiente.

filter

string

Opcional. Es un filtro para que las plantillas de sesión se muestren en la respuesta. Los filtros distinguen mayúsculas de minúsculas y tienen la siguiente sintaxis:

[campo = valor] Y [campo [= valor]] ...

ListSessionTemplatesResponse

Una lista de plantillas de sesión.

Campos
session_templates[]

SessionTemplate

Solo salida. Lista de plantillas de sesión

next_page_token

string

Un token, que se puede enviar como page_token para recuperar la página siguiente. Si se omite este campo, no habrá páginas siguientes.

ListSessionsRequest

Una solicitud para enumerar sesiones en un proyecto.

Campos
parent

string

Obligatorio. El elemento superior, que es propietario de esta colección de sesiones.

La autorización requiere el siguiente permiso IAM en el recurso especificado parent:

  • dataproc.sessions.list
page_size

int32

Opcional. Es la cantidad máxima de sesiones que se mostrarán en cada respuesta. El servicio puede mostrar menos que este valor.

page_token

string

Opcional. Es un token de página recibido de una llamada a ListSessions anterior. Proporciona este token para recuperar la página siguiente.

filter

string

Opcional. Es un filtro para que las sesiones se muestren en la respuesta.

Un filtro es una expresión lógica que restringe los valores de varios campos en cada recurso de sesión. Los filtros distinguen mayúsculas de minúsculas y pueden contener varias cláusulas combinadas con operadores lógicos (Y, O). Los campos admitidos son session_id, session_uuid, state, create_time y labels.

Ejemplo: state = ACTIVE and create_time < "2023-01-01T00:00:00Z" es un filtro para sesiones en un estado ACTIVE que se crearon antes del 1/1/2023. state = ACTIVE and labels.environment=production es un filtro para sesiones en un estado ACTIVE que tienen una etiqueta de entorno de producción.

Consulta https://google.aip.dev/assets/misc/ebnf-filtering.txt para obtener una descripción detallada de la sintaxis del filtro y una lista de los comparadores admitidos.

ListSessionsResponse

Una lista de sesiones interactivas.

Campos
sessions[]

Session

Solo salida. Las sesiones de la colección especificada.

next_page_token

string

Es un token, que se puede enviar como page_token, para recuperar la página siguiente. Si se omite este campo, no habrá páginas siguientes.

PeripheralsConfig

Configuración de servicios auxiliares para una carga de trabajo.

Campos
metastore_service

string

Opcional. Es el nombre del recurso de un servicio de Dataproc Metastore existente.

Ejemplo:

  • projects/[project_id]/locations/[region]/services/[service_id]
spark_history_server_config

SparkHistoryServerConfig

Opcional. La configuración del servidor de historial de Spark para la carga de trabajo

PyPiRepositoryConfig

Configuración del repositorio de PyPi

Campos
pypi_repository

string

Opcional. Dirección del repositorio de PyPI

PySparkBatch

Una configuración para ejecutar una carga de trabajo por lotes de Apache PySpark

Campos
main_python_file_uri

string

Obligatorio. Es el URI de HCFS del archivo principal de Python que se usará como controlador de Spark. Debe ser un archivo .py.

args[]

string

Opcional. Los argumentos que se pasarán al controlador. No incluyas argumentos que se puedan establecer como propiedades de lotes, como --conf, ya que puede producirse una colisión que cause un envío incorrecto de lotes.

python_file_uris[]

string

Opcional. URIs de archivos HCFS de archivos de Python para pasar al framework de PySpark Tipos de archivos compatibles: .py, .egg y .zip.

jar_file_uris[]

string

Opcional. URIs de HCFS de archivos JAR para agregar a la ruta de acceso de clases del controlador y las tareas de Spark.

file_uris[]

string

Opcional. Los URIs de HCFS de los archivos que se colocarán en el directorio de trabajo de cada ejecutor.

archive_uris[]

string

Opcional. Los URIs de HCFS de los archivos que se extraerán en el directorio de trabajo de cada ejecutor. Tipos de archivos compatibles: .jar, .tar, .tar.gz, .tgz y .zip.

RepositoryConfig

Configuración de repositorios de dependencias

Campos
pypi_repository_config

PyPiRepositoryConfig

Opcional. Configuración del repositorio de PyPi.

RuntimeConfig

Configuración del entorno de ejecución para una carga de trabajo.

Campos
version

string

Opcional. Es la versión del entorno de ejecución por lotes.

container_image

string

Opcional. Imagen de contenedor personalizada opcional para el entorno de ejecución del trabajo. Si no se especifica, se usará una imagen de contenedor predeterminada.

properties

map<string, string>

Opcional. Es una asignación de nombres de propiedades a valores, que se usan para configurar la ejecución de cargas de trabajo.

repository_config

RepositoryConfig

Opcional. Configuración del repositorio de dependencias

autotuning_config

AutotuningConfig

Opcional. Configuración de ajuste automático de la carga de trabajo

cohort

string

Opcional. Es el identificador de cohorte. Identifica familias de cargas de trabajo que tienen la misma forma, p.ej., trabajos de ETL diarios.

RuntimeInfo

Información del entorno de ejecución sobre la ejecución de la carga de trabajo.

Campos
endpoints

map<string, string>

Solo salida. Mapa de extremos de acceso remoto (como interfaces web y APIs) a sus URIs.

output_uri

string

Solo salida. Es un URI que apunta a la ubicación de stdout y stderr de la carga de trabajo.

diagnostic_output_uri

string

Solo salida. Es un URI que apunta a la ubicación del archivo comprimido de diagnóstico.

approximate_usage

UsageMetrics

Solo salida. Es el uso aproximado de recursos de la carga de trabajo, que se calcula cuando esta se completa (consulta Precios de Dataproc sin servidores).

Nota: Es posible que este cálculo de métricas cambie en el futuro, por ejemplo, para capturar el consumo de recursos de la carga de trabajo acumulada durante su ejecución (consulta las notas de la versión de Dataproc sin servidores para ver anuncios, cambios, correcciones y otros desarrollos de Dataproc).

current_usage

UsageSnapshot

Solo salida. Es una instantánea del uso de recursos de la carga de trabajo actual.

Sesión

Es una representación de una sesión.

Campos
name

string

Obligatorio. Es el nombre del recurso de la sesión.

uuid

string

Solo salida. Un UUID de sesión (identificador único universal). El servicio genera este valor cuando crea la sesión.

create_time

Timestamp

Solo salida. Es la hora en la que se creó la sesión.

runtime_info

RuntimeInfo

Solo salida. Información del entorno de ejecución sobre la ejecución de la sesión.

state

State

Solo salida. Un estado de la sesión.

state_message

string

Solo salida. Detalles del estado de la sesión, como la descripción de la falla si el estado es FAILED

state_time

Timestamp

Solo salida. Es la hora en que la sesión entró en el estado actual.

creator

string

Solo salida. Es la dirección de correo electrónico del usuario que creó la sesión.

labels

map<string, string>

Opcional. Las etiquetas que se asociarán con la sesión. Las claves de etiqueta deben contener entre 1 y 63 caracteres y cumplir con la RFC 1035. Los valores de la etiqueta pueden estar vacíos, pero, si están presentes, deben contener entre 1 y 63 caracteres y cumplir con la RFC 1035. No se pueden asociar más de 32 etiquetas a una sesión.

runtime_config

RuntimeConfig

Opcional. Configuración del entorno de ejecución para la ejecución de la sesión.

environment_config

EnvironmentConfig

Opcional. Configuración del entorno para la ejecución de la sesión.

user

string

Opcional. Es la dirección de correo electrónico del usuario propietario de la sesión.

state_history[]

SessionStateHistory

Solo salida. Información histórica del estado de la sesión.

session_template

string

Opcional. Es la plantilla de sesión que usa la sesión.

Solo son válidos los nombres de los recursos, incluidos el ID y la ubicación del proyecto.

Ejemplo: * https://www.googleapis.com/compute/v1/projects/[project_id]/locations/[dataproc_region]/sessionTemplates/[template_id] * projects/[project_id]/locations/[dataproc_region]/sessionTemplates/[template_id]

La plantilla debe estar en el mismo proyecto y la misma región de Dataproc que la sesión.

Campo de unión session_config. La configuración de la sesión. session_config puede ser solo uno de los siguientes:
jupyter_session

JupyterConfig

Opcional. Configuración de la sesión de Jupyter

spark_connect_session

SparkConnectConfig

Opcional. Configuración de la sesión de Spark Connect.

SessionStateHistory

Información histórica del estado.

Campos
state

State

Solo salida. Es el estado de la sesión en este punto del historial de la sesión.

state_message

string

Solo salida. Detalles sobre el estado en este punto del historial de la sesión.

state_start_time

Timestamp

Solo salida. Es la hora en la que la sesión entró en el estado histórico.

Estado

El estado de la sesión.

Enums
STATE_UNSPECIFIED Se desconoce el estado de la sesión.
CREATING La sesión se crea antes de ejecutarse.
ACTIVE La sesión se está ejecutando.
TERMINATING La sesión finalizará.
TERMINATED La sesión finaliza correctamente.
FAILED La sesión ya no se está ejecutando debido a un error.

SessionOperationMetadata

Metadatos que describen la operación de sesión

Campos
session

string

Es el nombre de la sesión de la operación.

session_uuid

string

UUID de la sesión para la operación.

create_time

Timestamp

Es la hora en la que se creó la operación.

done_time

Timestamp

Es la hora en la que finalizó la operación.

operation_type

SessionOperationType

El tipo de operación.

description

string

Es una descripción breve de la operación.

labels

map<string, string>

Etiquetas asociadas con la operación.

warnings[]

string

Se encontraron advertencias durante la ejecución de la operación.

SessionOperationType

Tipo de operación para recursos de sesión

Enums
SESSION_OPERATION_TYPE_UNSPECIFIED El tipo de operación de la sesión es desconocido.
CREATE Crea el tipo de operación de sesión.
TERMINATE Tipo de operación de finalización de sesión.
DELETE Borra el tipo de operación de sesión.

SessionTemplate

Representación de una plantilla de sesión.

Campos
name

string

Obligatorio. Es el nombre del recurso de la plantilla de sesión.

description

string

Opcional. Es una descripción breve de la plantilla.

create_time

Timestamp

Solo salida. Es la hora en la que se creó la plantilla.

creator

string

Solo salida. La dirección de correo electrónico del usuario que creó la plantilla

labels

map<string, string>

Opcional. Etiquetas para asociar con las sesiones creadas con esta plantilla. Las claves de etiqueta deben contener entre 1 y 63 caracteres y cumplir con la RFC 1035. Los valores de las etiquetas pueden estar vacíos, pero, si están presentes, deben contener entre 1 y 63 caracteres y cumplir con el estándar RFC 1035. No se pueden asociar más de 32 etiquetas a una sesión.

runtime_config

RuntimeConfig

Opcional. Configuración del entorno de ejecución para la ejecución de la sesión.

environment_config

EnvironmentConfig

Opcional. Configuración del entorno para la ejecución de la sesión.

update_time

Timestamp

Solo salida. Es la hora en la que se actualizó la plantilla por última vez.

uuid

string

Solo salida. Un UUID (identificador único universal) de plantilla de sesión El servicio genera este valor cuando crea la plantilla de sesión.

Campo de unión session_config. La configuración de la sesión. session_config puede ser solo uno de los siguientes:
jupyter_session

JupyterConfig

Opcional. Configuración de la sesión de Jupyter

spark_connect_session

SparkConnectConfig

Opcional. Configuración de la sesión de Spark Connect.

SparkBatch

Una configuración para ejecutar una carga de trabajo por lotes de Apache Spark

Campos
args[]

string

Opcional. Los argumentos que se pasarán al controlador. No incluyas argumentos que se puedan establecer como propiedades de lotes, como --conf, ya que puede producirse una colisión que cause un envío incorrecto de lotes.

jar_file_uris[]

string

Opcional. URIs de HCFS de archivos JAR para agregar a la ruta de acceso de clases del controlador y las tareas de Spark.

file_uris[]

string

Opcional. Los URIs de HCFS de los archivos que se colocarán en el directorio de trabajo de cada ejecutor.

archive_uris[]

string

Opcional. Los URIs de HCFS de los archivos que se extraerán en el directorio de trabajo de cada ejecutor. Tipos de archivos compatibles: .jar, .tar, .tar.gz, .tgz y .zip.

Campo de unión driver. La especificación del método principal al que se debe llamar para dirigir la carga de trabajo de Spark. Especifica el archivo jar que contiene la clase principal o el nombre de la clase principal. Para pasar un jar principal y una clase principal en ese jar, agrega el jar a jar_file_uris y, luego, especifica el nombre de la clase principal en main_class. driver solo puede ser una de las siguientes opciones:
main_jar_file_uri

string

Opcional. El URI de HCFS del archivo JAR que contiene la clase principal.

main_class

string

Opcional. Es el nombre de la clase principal del controlador. El archivo jar que contiene la clase debe estar en el classpath o especificarse en jar_file_uris.

SparkConnectConfig

Este tipo no tiene campos.

Configuración de Spark Connect para una sesión interactiva.

SparkHistoryServerConfig

Configuración del servidor de historial de Spark para la carga de trabajo

Campos
dataproc_cluster

string

Opcional. Es el nombre de recurso de un clúster de Dataproc existente que actuará como servidor de historial de Spark para la carga de trabajo.

Ejemplo:

  • projects/[project_id]/regions/[region]/clusters/[cluster_name]

SparkRBatch

Una configuración para ejecutar una carga de trabajo por lotes de Apache SparkR

Campos
main_r_file_uri

string

Obligatorio. Es el URI de HCFS del archivo R principal que se usará como controlador. Debe ser un archivo .R o .r.

args[]

string

Opcional. Los argumentos que se pasarán al controlador de Spark. No incluyas argumentos que se puedan establecer como propiedades de lotes, como --conf, ya que puede producirse una colisión que cause un envío incorrecto de lotes.

file_uris[]

string

Opcional. Los URIs de HCFS de los archivos que se colocarán en el directorio de trabajo de cada ejecutor.

archive_uris[]

string

Opcional. Los URIs de HCFS de los archivos que se extraerán en el directorio de trabajo de cada ejecutor. Tipos de archivos compatibles: .jar, .tar, .tar.gz, .tgz y .zip.

SparkSqlBatch

Es una configuración para ejecutar consultas de Apache Spark SQL como una carga de trabajo por lotes.

Campos
query_file_uri

string

Obligatorio. Es el URI de HCFS de la secuencia de comandos que contiene las consultas de Spark SQL que se ejecutarán.

query_variables

map<string, string>

Opcional. Asignación de nombres de variables de consulta a valores (equivalente al comando Spark SQL: SET name="value";).

jar_file_uris[]

string

Opcional. URIs de HCFS de los archivos JAR que se agregarán al CLASSPATH de Spark.

TerminateSessionRequest

Es una solicitud para finalizar una sesión interactiva.

Campos
name

string

Obligatorio. Es el nombre del recurso de sesión que se finalizará.

La autorización requiere el siguiente permiso IAM en el recurso especificado name:

  • dataproc.sessions.terminate
request_id

string

Opcional. Un ID único que se usa para identificar la solicitud. Si el servicio recibe dos TerminateSessionRequest con el mismo ID, se ignora la segunda solicitud.

Recomendación: Establece este valor en un UUID.

El valor debe contener solo letras (a-z, A-Z), números (0-9), guiones bajos (_) y guiones (-). La longitud máxima es de 40 caracteres.

UpdateSessionTemplateRequest

Una solicitud para actualizar una plantilla de sesión.

Campos
session_template

SessionTemplate

Obligatorio. La plantilla de sesión actualizada.

La autorización requiere el siguiente permiso IAM en el recurso especificado sessionTemplate:

  • dataproc.sessionTemplates.update

UsageMetrics

Las métricas de uso representan los recursos totales aproximados que consume una carga de trabajo.

Campos
milli_dcu_seconds

int64

Opcional. Uso de DCU (unidades de procesamiento de Dataproc) en (milliDCU × seconds) (consulta Precios de Dataproc Serverless).

shuffle_storage_gb_seconds

int64

Opcional. Uso de almacenamiento de Shuffle en (GB × seconds) (consulta Precios de Dataproc Serverless).

milli_accelerator_seconds

int64

Opcional. Uso del acelerador en (milliAccelerator × seconds) (consulta Precios de Dataproc Serverless).

accelerator_type

string

Opcional. Tipo de acelerador que se usa, si corresponde

UsageSnapshot

La instantánea de uso representa los recursos que consume una carga de trabajo en un momento determinado.

Campos
milli_dcu

int64

Opcional. Unidades de procesamiento (DCU) de Dataproc (consulta los precios de Dataproc sin servidores).

shuffle_storage_gb

int64

Opcional. Almacenamiento de Shuffle en gigabytes (GB). (consulta Precios de Dataproc Serverless).

milli_dcu_premium

int64

Opcional. Mil (una milésima) de unidades de procesamiento de datos (DCU) de Dataproc que se cobran en el nivel premium (consulta Precios de Dataproc sin servidores).

shuffle_storage_gb_premium

int64

Opcional. Almacenamiento de Shuffle en gigabytes (GB) cobrado en el nivel premium (consulta Precios de Dataproc Serverless).

milli_accelerator

int64

Opcional. Acelerador de mili (milésima). (consulta Precios de Dataproc Serverless).

accelerator_type

string

Opcional. Tipo de acelerador que se usa, si corresponde

snapshot_time

Timestamp

Opcional. La marca de tiempo de la instantánea de uso.