Package google.cloud.dataproc.v1

Index

BatchController

BatchController fournit des méthodes pour gérer les charges de travail par lot.

CreateBatch

rpc CreateBatch(CreateBatchRequest) returns (Operation)

Crée une charge de travail par lots qui s'exécute de manière asynchrone.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

DeleteBatch

rpc DeleteBatch(DeleteBatchRequest) returns (Empty)

Supprime la ressource de charge de travail par lot. Si le lot ne se trouve pas dans un State CANCELLED, SUCCEEDED ou FAILED, l'opération de suppression échoue et la réponse renvoie FAILED_PRECONDITION.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

GetBatch

rpc GetBatch(GetBatchRequest) returns (Batch)

Récupère la représentation de la ressource de charge de travail par lot.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

ListBatches

rpc ListBatches(ListBatchesRequest) returns (ListBatchesResponse)

Répertorie les charges de travail par lot.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

SessionController

SessionController fournit des méthodes pour gérer les sessions interactives.

CreateSession

rpc CreateSession(CreateSessionRequest) returns (Operation)

Créez une session interactive de manière asynchrone.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

DeleteSession

rpc DeleteSession(DeleteSessionRequest) returns (Operation)

Supprime la ressource de session interactive. Si la session n'est pas dans un état terminal, elle est arrêtée, puis supprimée.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

GetSession

rpc GetSession(GetSessionRequest) returns (Session)

Récupère la représentation de la ressource pour une session interactive.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

ListSessions

rpc ListSessions(ListSessionsRequest) returns (ListSessionsResponse)

Liste les sessions interactives.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

TerminateSession

rpc TerminateSession(TerminateSessionRequest) returns (Operation)

Arrête la session interactive.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

SessionTemplateController

SessionTemplateController fournit des méthodes pour gérer les modèles de session.

CreateSessionTemplate

rpc CreateSessionTemplate(CreateSessionTemplateRequest) returns (SessionTemplate)

Créez un modèle de session de manière synchrone.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

DeleteSessionTemplate

rpc DeleteSessionTemplate(DeleteSessionTemplateRequest) returns (Empty)

Supprime un modèle de session.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

GetSessionTemplate

rpc GetSessionTemplate(GetSessionTemplateRequest) returns (SessionTemplate)

Récupère la représentation de la ressource pour un modèle de session.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

ListSessionTemplates

rpc ListSessionTemplates(ListSessionTemplatesRequest) returns (ListSessionTemplatesResponse)

Répertorie les modèles de session.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

UpdateSessionTemplate

rpc UpdateSessionTemplate(UpdateSessionTemplateRequest) returns (SessionTemplate)

Met à jour le modèle de session de manière synchrone.

Champs d'application des autorisations

Requiert le niveau d'accès OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez la page Présentation de l'authentification.

AnalyzeOperationMetadata

Métadonnées décrivant l'opération d'analyse.

Champs
analyzed_workload_name

string

Uniquement en sortie. Nom de la charge de travail analysée.

analyzed_workload_type

WorkloadType

Uniquement en sortie. Type de charge de travail analysée.

analyzed_workload_uuid

string

Sortie uniquement. Identifiant unique de la charge de travail, généralement généré par le plan de contrôle. Exemple : UUID de lot.

create_time

Timestamp

Uniquement en sortie. Heure à laquelle l'opération a été créée.

done_time

Timestamp

Uniquement en sortie. Heure à laquelle l'opération s'est terminée.

description

string

Uniquement en sortie. Brève description de l'opération.

labels

map<string, string>

Uniquement en sortie. Libellés associés à l'opération.

warnings[]

string

Uniquement en sortie. Avertissements rencontrés lors de l'exécution de l'opération.

WorkloadType

Type de charge de travail

Enums
WORKLOAD_TYPE_UNSPECIFIED Option non définie
BATCH Job par lot sans serveur

AutotuningConfig

Configuration de l'autotuning de la charge de travail.

Champs
scenarios[]

Scenario

Facultatif. Scénarios pour lesquels des réglages sont appliqués.

Scénario

Le scénario représente un objectif spécifique que l'ajustement automatique tentera d'atteindre en modifiant les charges de travail.

Enums
SCENARIO_UNSPECIFIED Valeur par défaut.
SCALING Recommandations d'ajustement telles que initialExecutors.
BROADCAST_HASH_JOIN Ajout d'indices pour les diffusions de relations potentielles.
MEMORY Gestion de la mémoire pour les charges de travail

Lot

Représentation d'une charge de travail par lot dans le service.

Champs
name

string

Uniquement en sortie. Nom de la ressource du lot.

uuid

string

Uniquement en sortie. Un UUID (identifiant unique universel) de lot. Le service génère cette valeur lorsqu'il crée le lot.

create_time

Timestamp

Uniquement en sortie. Heure de création du lot.

runtime_info

RuntimeInfo

Uniquement en sortie. Informations d'exécution sur l'exécution par lot.

state

State

Uniquement en sortie. État du lot.

state_message

string

Uniquement en sortie. Informations sur l'état du lot, telles qu'une description de l'échec si l'état est FAILED.

state_time

Timestamp

Uniquement en sortie. Heure à laquelle le lot est passé à l'état actuel.

creator

string

Uniquement en sortie. Adresse e-mail de l'utilisateur qui a créé le lot.

labels

map<string, string>

Facultatif. Libellés à associer à ce lot. Les clés d'étiquette doivent contenir entre 1 et 63 caractères et être conformes à la RFC 1035. Les valeurs des libellés peuvent être vides, mais, si elles sont présentes, elles doivent comporter entre 1 et 63 caractères et être conformes à la norme RFC 1035. Vous ne pouvez pas associer plus de 32 libellés à un lot.

runtime_config

RuntimeConfig

Facultatif. Configuration d'exécution pour l'exécution par lot.

environment_config

EnvironmentConfig

Facultatif. Configuration de l'environnement pour l'exécution par lot.

operation

string

Uniquement en sortie. Nom de la ressource de l'opération associée à ce lot.

state_history[]

StateHistory

Uniquement en sortie. Informations sur l'historique de l'état du lot.

Champ d'union batch_config. Partie de la configuration par lot spécifique à l'application/au framework. batch_config ne peut être qu'un des éléments suivants :
pyspark_batch

PySparkBatch

Facultatif. Configuration de lot PySpark.

spark_batch

SparkBatch

Facultatif. Configuration du lot Spark.

spark_r_batch

SparkRBatch

Facultatif. Configuration du lot SparkR.

spark_sql_batch

SparkSqlBatch

Facultatif. Configuration de lot SparkSql.

État

État du lot.

Enums
STATE_UNSPECIFIED L'état du lot est inconnu.
PENDING Le lot est créé avant d'être exécuté.
RUNNING Le lot est en cours d'exécution.
CANCELLING Le lot est en cours d'annulation.
CANCELLED La résiliation par lot a bien été effectuée.
SUCCEEDED Le lot a bien été exécuté.
FAILED Le lot n'est plus en cours d'exécution en raison d'une erreur.

StateHistory

Informations sur l'état historique.

Champs
state

State

Uniquement en sortie. État du lot à ce stade de l'historique.

state_message

string

Uniquement en sortie. Informations sur l'état à ce stade de l'historique.

state_start_time

Timestamp

Uniquement en sortie. Heure à laquelle le lot est passé à l'état "Historique".

BatchOperationMetadata

Métadonnées décrivant l'opération de traitement par lot.

Champs
batch

string

Nom du lot pour l'opération.

batch_uuid

string

UUID de lot pour l'opération.

create_time

Timestamp

Heure à laquelle l'opération a été créée.

done_time

Timestamp

Heure à laquelle l'opération s'est terminée.

operation_type

BatchOperationType

Type d'opération.

description

string

Brève description de l'opération.

labels

map<string, string>

Libellés associés à l'opération.

warnings[]

string

Avertissements rencontrés lors de l'exécution de l'opération.

BatchOperationType

Type d'opération pour les ressources Batch

Enums
BATCH_OPERATION_TYPE_UNSPECIFIED Le type d'opération par lot est inconnu.
BATCH Type d'opération par lot.

CreateBatchRequest

Requête de création d'une charge de travail par lot.

Champs
parent

string

Obligatoire. Ressource parente dans laquelle ce lot sera créé.

L'autorisation IAM suivante est requise pour la ressource parent indiquée :

  • dataproc.batches.create
batch

Batch

Obligatoire. Lot à créer.

batch_id

string

Facultatif. ID à utiliser pour le lot, qui constituera le composant final du nom de ressource du lot.

Cette valeur doit comporter entre 4 et 63 caractères. Les caractères valides sont /[a-z][0-9]-/.

request_id

string

Facultatif. ID unique permettant d'identifier la requête. Si le service reçoit deux CreateBatchRequest avec le même request_id, la deuxième requête est ignorée et l'opération correspondant au premier lot créé et stocké dans le backend est renvoyée.

Recommandation: Définissez cette valeur sur un UUID.

La valeur ne doit contenir que des lettres (a-z, A-Z), des chiffres (0-9), des traits de soulignement (_) et des tirets (-). Sa longueur maximale est de 40 caractères.

CreateSessionRequest

Requête de création d'une session.

Champs
parent

string

Obligatoire. Ressource parent dans laquelle cette session sera créée.

L'autorisation IAM suivante est requise pour la ressource parent indiquée :

  • dataproc.sessions.create
session

Session

Obligatoire. Session interactive à créer.

session_id

string

Obligatoire. ID à utiliser pour la session, qui deviendra le composant final du nom de ressource de la session.

Cette valeur doit comporter entre 4 et 63 caractères. Les caractères valides sont /[az][0-9]-/.

request_id

string

Facultatif. Identifiant unique permettant d'identifier la requête. Si le service reçoit deux CreateSessionRequests avec le même ID, la deuxième requête est ignorée, et la première Session est créée et stockée dans le backend.

Recommandation: Définissez cette valeur sur un UUID.

La valeur ne doit contenir que des lettres (a-z, A-Z), des chiffres (0-9), des traits de soulignement (_) et des tirets (-). Sa longueur maximale est de 40 caractères.

CreateSessionTemplateRequest

Requête de création d'un modèle de session.

Champs
parent

string

Obligatoire. Ressource parent dans laquelle ce modèle de session sera créé.

L'autorisation IAM suivante est requise pour la ressource parent indiquée :

  • dataproc.sessionTemplates.create
session_template

SessionTemplate

Obligatoire. Modèle de session à créer.

DeleteBatchRequest

Requête de suppression d'une charge de travail par lot.

Champs
name

string

Obligatoire. Nom complet du lot à récupérer au format "projects/PROJECT_ID/locations/DATAPROC_REGION/batches/BATCH_ID"

L'autorisation IAM suivante est requise pour la ressource name indiquée :

  • dataproc.batches.delete

DeleteSessionRequest

Demande de suppression d'une session.

Champs
name

string

Obligatoire. Nom de la ressource de session à supprimer.

L'autorisation IAM suivante est requise pour la ressource name indiquée :

  • dataproc.sessions.delete
request_id

string

Facultatif. Identifiant unique permettant d'identifier la requête. Si le service reçoit deux DeleteSessionRequest avec le même ID, la deuxième requête est ignorée.

Recommandation: Définissez cette valeur sur un UUID.

La valeur ne doit contenir que des lettres (a-z, A-Z), des chiffres (0-9), des traits de soulignement (_) et des tirets (-). Sa longueur maximale est de 40 caractères.

DeleteSessionTemplateRequest

Requête de suppression d'un modèle de session.

Champs
name

string

Obligatoire. Nom de la ressource de modèle de session à supprimer.

L'autorisation IAM suivante est requise pour la ressource name indiquée :

  • dataproc.sessionTemplates.delete

DiagnoseClusterResults

Emplacement de la sortie des diagnostics.

Champs
output_uri

string

Uniquement en sortie. URI Cloud Storage de la sortie de diagnostic. Le rapport de sortie est un fichier texte brut contenant un résumé des diagnostics collectés.

EnvironmentConfig

Configuration de l'environnement pour une charge de travail.

Champs
execution_config

ExecutionConfig

Facultatif. Configuration d'exécution d'une charge de travail.

peripherals_config

PeripheralsConfig

Facultatif. Configuration des périphériques auxquels la charge de travail a accès.

ExecutionConfig

Configuration d'exécution d'une charge de travail.

Champs
service_account

string

Facultatif. Compte de service utilisé pour exécuter la charge de travail.

network_tags[]

string

Facultatif. Tags utilisés pour contrôler le trafic réseau.

kms_key

string

Facultatif. Clé Cloud KMS à utiliser pour le chiffrement.

idle_ttl

Duration

Facultatif. S'applique uniquement aux sessions. Durée pendant laquelle la session doit rester active lorsqu'elle est inactive. Si ce seuil est dépassé, la session est arrêtée. Ce champ ne peut pas être défini sur une charge de travail par lot. La valeur minimale est de 10 minutes et la valeur maximale de 14 jours (voir la représentation JSON de Durée). Si cette valeur n'est pas définie, la valeur par défaut est 1 heure. Si ttl et idle_ttl sont tous deux spécifiés pour une session interactive, les conditions sont traitées comme des conditions OR: la charge de travail est arrêtée lorsqu'elle est inactive pendant idle_ttl ou lorsque ttl est dépassé, selon la première éventualité.

ttl

Duration

Facultatif. Durée au terme de laquelle la charge de travail sera arrêtée, spécifiée sous la forme de la représentation JSON de Durée. Lorsque la charge de travail dépasse cette durée, elle est arrêtée sans condition, sans attendre la fin du travail en cours. Si ttl n'est pas spécifié pour une charge de travail par lot, celle-ci peut s'exécuter jusqu'à ce qu'elle se termine naturellement (ou s'exécuter indéfiniment sans se terminer). Si ttl n'est pas spécifié pour une session interactive, la valeur par défaut est de 24 heures. Si ttl n'est pas spécifié pour un lot qui utilise la version d'exécution 2.1 ou ultérieure, la valeur par défaut est de quatre heures. La valeur minimale est de 10 minutes et la valeur maximale de 14 jours. Si ttl et idle_ttl sont tous deux spécifiés (pour une session interactive), les conditions sont traitées comme des conditions OR: la charge de travail sera arrêtée lorsqu'elle sera inactive pendant idle_ttl ou lorsque ttl sera dépassé, selon la première éventualité.

staging_bucket

string

Facultatif. Bucket Cloud Storage utilisé pour préparer les dépendances de la charge de travail, les fichiers de configuration, et stocker la sortie de la charge de travail et d'autres données éphémères, telles que les fichiers d'historique Spark. Si vous ne spécifiez pas de bucket de préproduction, Cloud Dataproc déterminera un emplacement Cloud Storage en fonction de la région où votre charge de travail s'exécute, puis créera et gérera des buckets de préproduction et temporaires par emplacement au niveau du projet. Ce champ nécessite un nom de bucket Cloud Storage, et non un URI gs://... vers un bucket Cloud Storage.

Champ d'union network. Configuration réseau pour l'exécution de la charge de travail. network ne peut être qu'un des éléments suivants :
network_uri

string

Facultatif. URI réseau auquel connecter la charge de travail.

subnetwork_uri

string

Facultatif. URI du sous-réseau auquel connecter la charge de travail.

GetBatchRequest

Requête permettant d'obtenir la représentation des ressources pour une charge de travail par lot.

Champs
name

string

Obligatoire. Nom complet du lot à récupérer au format "projects/PROJECT_ID/locations/DATAPROC_REGION/batches/BATCH_ID"

L'autorisation IAM suivante est requise pour la ressource name indiquée :

  • dataproc.batches.get

GetSessionRequest

Requête permettant d'obtenir la représentation de la ressource pour une session.

Champs
name

string

Obligatoire. Nom de la session à récupérer.

L'autorisation IAM suivante est requise pour la ressource name indiquée :

  • dataproc.sessions.get

GetSessionTemplateRequest

Requête permettant d'obtenir la représentation de la ressource pour un modèle de session.

Champs
name

string

Obligatoire. Nom du modèle de session à récupérer.

L'autorisation IAM suivante est requise pour la ressource name indiquée :

  • dataproc.sessionTemplates.get

JupyterConfig

Configuration de Jupyter pour une session interactive.

Champs
kernel

Kernel

Facultatif. Noyau

display_name

string

Facultatif. Nom à afficher, affiché dans la fiche de kernelspec Jupyter.

Noyau

Types de kernel Jupyter.

Enums
KERNEL_UNSPECIFIED Le kernel est inconnu.
PYTHON Kernel Python.
SCALA Noyau Scala.

ListBatchesRequest

Requête permettant de lister les charges de travail par lot dans un projet.

Champs
parent

string

Obligatoire. Élément parent, propriétaire de cette collection de lots.

L'autorisation IAM suivante est requise pour la ressource parent indiquée :

  • dataproc.batches.list
page_size

int32

Facultatif. Nombre maximal de lots à renvoyer dans chaque réponse. Le service peut renvoyer un nombre inférieur à cette valeur. La taille de page par défaut est de 20 ; la taille de page maximale est de 1 000.

page_token

string

Facultatif. Jeton de page reçu d'un appel ListBatches précédent. Fournissez ce jeton pour récupérer la page suivante.

filter

string

Facultatif. Filtre pour les lots à renvoyer dans la réponse.

Un filtre est une expression logique qui limite les valeurs de divers champs dans chaque ressource de lot. Les filtres sont sensibles à la casse et peuvent contenir plusieurs clauses combinées à des opérateurs logiques (ET/OU). Les champs acceptés sont batch_id, batch_uuid, state, create_time et labels.

Par exemple, state = RUNNING and create_time < "2023-01-01T00:00:00Z" filtre les lots en cours d'exécution créés avant le 1er janvier 2023. state = RUNNING and labels.environment=production filtre les lots en cours d'exécution qui sont associés à un libellé d'environnement de production.

Consultez https://google.aip.dev/assets/misc/ebnf-filtering.txt pour obtenir une description détaillée de la syntaxe de filtrage et une liste des comparaisons acceptées.

order_by

string

Facultatif. Champ(s) sur lequel trier la liste des lots.

Actuellement, les seuls ordres de tri acceptés sont "non spécifié" (vide) et create_time desc pour trier en premier les lots créés le plus récemment.

Pour en savoir plus, consultez la page https://google.aip.dev/132#ordering.

ListBatchesResponse

Liste des charges de travail par lot.

Champs
batches[]

Batch

Uniquement en sortie. Les lots de la collection spécifiée.

next_page_token

string

Jeton pouvant être envoyé en tant que page_token pour récupérer la page suivante. Si ce champ est omis, il n'y a pas d'autres pages.

unreachable[]

string

Uniquement en sortie. Liste des lots qui n'ont pas pu être inclus dans la réponse. Si vous essayez d'obtenir l'une de ces ressources, vous pourrez peut-être déterminer pourquoi elle n'a pas été incluse dans la réponse de la liste.

ListSessionTemplatesRequest

Requête permettant de lister les modèles de session d'un projet.

Champs
parent

string

Obligatoire. Élément parent propriétaire de cette collection de modèles de session.

L'autorisation IAM suivante est requise pour la ressource parent indiquée :

  • dataproc.sessionTemplates.list
page_size

int32

Facultatif. Nombre maximal de sessions à renvoyer dans chaque réponse. Le service peut renvoyer un nombre inférieur à cette valeur.

page_token

string

Facultatif. Jeton de page reçu d'un appel ListSessions précédent. Fournissez ce jeton pour récupérer la page suivante.

filter

string

Facultatif. Filtre pour les modèles de session à renvoyer dans la réponse. Les filtres sont sensibles à la casse et ont la syntaxe suivante:

[champ = valeur] ET [champ [= valeur]] ...

ListSessionTemplatesResponse

Liste des modèles de session.

Champs
session_templates[]

SessionTemplate

Uniquement en sortie. Liste des modèles de session

next_page_token

string

Jeton pouvant être envoyé en tant que page_token pour récupérer la page suivante. Si ce champ est omis, il n'y a pas d'autres pages.

ListSessionsRequest

Requête permettant de lister les sessions d'un projet.

Champs
parent

string

Obligatoire. Élément parent qui possède cette collection de sessions.

L'autorisation IAM suivante est requise pour la ressource parent indiquée :

  • dataproc.sessions.list
page_size

int32

Facultatif. Nombre maximal de sessions à renvoyer dans chaque réponse. Le service peut renvoyer un nombre inférieur à cette valeur.

page_token

string

Facultatif. Jeton de page reçu d'un appel ListSessions précédent. Fournissez ce jeton pour récupérer la page suivante.

filter

string

Facultatif. Filtre pour les sessions à renvoyer dans la réponse.

Un filtre est une expression logique qui limite les valeurs de divers champs dans chaque ressource de session. Les filtres sont sensibles à la casse et peuvent contenir plusieurs clauses combinées à des opérateurs logiques (AND, OR). Les champs acceptés sont session_id, session_uuid, state, create_time et labels.

Exemple: state = ACTIVE and create_time < "2023-01-01T00:00:00Z" est un filtre pour les sessions en état ACTIVE créées avant le 1er janvier 2023. state = ACTIVE and labels.environment=production est un filtre pour les sessions en état ACTIVE qui disposent d'un libellé d'environnement de production.

Pour obtenir une description détaillée de la syntaxe des filtres et une liste des comparateurs compatibles, consultez la page https://google.aip.dev/assets/misc/ebnf-filtering.txt.

ListSessionsResponse

Liste des sessions interactives.

Champs
sessions[]

Session

Uniquement en sortie. Sessions de la collection spécifiée.

next_page_token

string

Jeton pouvant être envoyé en tant que page_token pour récupérer la page suivante. Si ce champ est omis, il n'y a pas d'autres pages.

PeripheralsConfig

Configuration des services auxiliaires pour une charge de travail.

Champs
metastore_service

string

Facultatif. Nom de ressource d'un service Dataproc Metastore existant.

Exemple :

  • projects/[project_id]/locations/[region]/services/[service_id]
spark_history_server_config

SparkHistoryServerConfig

Facultatif. Configuration du serveur d'historique Spark pour la charge de travail.

PyPiRepositoryConfig

Configuration du dépôt PyPi

Champs
pypi_repository

string

Facultatif. Adresse du dépôt PyPi

PySparkBatch

Configuration permettant d'exécuter une charge de travail par lot Apache PySpark.

Champs
main_python_file_uri

string

Obligatoire. URI HCFS du fichier Python principal à utiliser comme pilote Spark. Il doit s'agir d'un fichier .py.

args[]

string

Facultatif. Arguments à transmettre au pilote. N'incluez pas d'arguments pouvant être définis comme des propriétés de lot, tels que --conf, car une collision peut se produire, ce qui entraîne une soumission de lot incorrecte.

python_file_uris[]

string

Facultatif. URI de fichier HCFS des fichiers Python à transmettre au framework PySpark. Types de fichiers compatibles: .py, .egg et .zip

jar_file_uris[]

string

Facultatif. URI HCFS des fichiers JAR à ajouter au classpath du pilote et des tâches Spark.

file_uris[]

string

Facultatif. URI HCFS des fichiers à placer dans le répertoire de travail de chaque exécuteur.

archive_uris[]

string

Facultatif. URI HCFS des archives à extraire dans le répertoire de travail de chaque exécuteur. Types de fichiers compatibles: .jar, .tar, .tar.gz, .tgz et .zip

RepositoryConfig

Configuration des dépôts de dépendances

Champs
pypi_repository_config

PyPiRepositoryConfig

Facultatif. Configuration du dépôt PyPi.

RuntimeConfig

Configuration d'exécution pour une charge de travail.

Champs
version

string

Facultatif. Version du runtime par lot.

container_image

string

Facultatif. Image de conteneur personnalisée facultative pour l'environnement d'exécution de la tâche. Si aucune valeur n'est spécifiée, une image de conteneur par défaut est utilisée.

properties

map<string, string>

Facultatif. Mappage des noms de propriétés sur des valeurs, qui sont utilisées pour configurer l'exécution de la charge de travail.

repository_config

RepositoryConfig

Facultatif. Configuration du dépôt de dépendances.

autotuning_config

AutotuningConfig

Facultatif. Configuration de l'autotuning de la charge de travail.

cohort

string

Facultatif. Identifiant de la cohorte. Identifie les familles de charges de travail ayant la même forme, par exemple les tâches ETL quotidiennes.

RuntimeInfo

Informations d'exécution sur l'exécution de la charge de travail.

Champs
endpoints

map<string, string>

Uniquement en sortie. Mappage des points de terminaison d'accès à distance (tels que les interfaces Web et les API) sur leurs URI.

output_uri

string

Uniquement en sortie. URI pointant vers l'emplacement de la sortie standard et de la sortie d'erreur standard de la charge de travail.

diagnostic_output_uri

string

Uniquement en sortie. URI pointant vers l'emplacement du fichier tarball de diagnostic.

approximate_usage

UsageMetrics

Uniquement en sortie. Utilisation approximative des ressources de la charge de travail, calculée à la fin de la charge de travail (voir Tarifs de Dataproc sans serveur).

Remarque:Le calcul de cette métrique peut changer à l'avenir, par exemple pour capturer la consommation cumulative des ressources de la charge de travail lors de son exécution (consultez les notes de version de Dataproc sans serveur pour en savoir plus sur les annonces, les modifications, les correctifs et les autres développements de Dataproc).

current_usage

UsageSnapshot

Uniquement en sortie. Instantané de l'utilisation des ressources de la charge de travail actuelle.

Session

Représentation d'une session.

Champs
name

string

Obligatoire. Nom de la ressource de la session.

uuid

string

Uniquement en sortie. Un UUID (identifiant unique universel) de session. Le service génère cette valeur lorsqu'il crée la session.

create_time

Timestamp

Uniquement en sortie. Heure à laquelle la session a été créée.

runtime_info

RuntimeInfo

Uniquement en sortie. Informations d'exécution sur l'exécution de la session.

state

State

Uniquement en sortie. État de la session.

state_message

string

Uniquement en sortie. Détails de l'état de la session, tels que la description de l'échec si l'état est FAILED.

state_time

Timestamp

Uniquement en sortie. Heure à laquelle la session est passée à l'état actuel.

creator

string

Uniquement en sortie. Adresse e-mail de l'utilisateur qui a créé la session.

labels

map<string, string>

Facultatif. Libellés à associer à la session. Les clés d'étiquette doivent contenir entre 1 et 63 caractères et être conformes à la RFC 1035. Les valeurs des libellés peuvent être vides, mais, si elles sont présentes, elles doivent comporter entre 1 et 63 caractères et être conformes à la norme RFC 1035. Vous ne pouvez pas associer plus de 32 libellés à une session.

runtime_config

RuntimeConfig

Facultatif. Configuration de l'environnement d'exécution pour l'exécution de la session.

environment_config

EnvironmentConfig

Facultatif. Configuration de l'environnement pour l'exécution de la session.

user

string

Facultatif. Adresse e-mail de l'utilisateur propriétaire de la session.

state_history[]

SessionStateHistory

Uniquement en sortie. Informations sur l'historique de l'état de la session.

session_template

string

Facultatif. Modèle de session utilisé par la session.

Seuls les noms de ressources, y compris l'ID et l'emplacement du projet, sont valides.

Exemple: * https://www.googleapis.com/compute/v1/projects/[project_id]/locations/[dataproc_region]/sessionTemplates/[template_id] * projects/[project_id]/locations/[dataproc_region]/sessionTemplates/[template_id]

Le modèle doit se trouver dans le même projet et la même région Dataproc que la session.

Champ d'union session_config. Configuration de la session. session_config ne peut être qu'un des éléments suivants :
jupyter_session

JupyterConfig

Facultatif. Configuration de la session Jupyter.

spark_connect_session

SparkConnectConfig

Facultatif. Configuration de la session Spark Connect.

SessionStateHistory

Informations sur l'état historique.

Champs
state

State

Uniquement en sortie. État de la session à ce stade de l'historique de la session.

state_message

string

Uniquement en sortie. Informations sur l'état à ce stade de l'historique de la session.

state_start_time

Timestamp

Uniquement en sortie. Heure à laquelle la session est passée à l'état "historique".

État

État de la session.

Enums
STATE_UNSPECIFIED L'état de la session est inconnu.
CREATING La session est créée avant l'exécution.
ACTIVE La session est en cours d'exécution.
TERMINATING La session se termine.
TERMINATED La session est arrêtée.
FAILED La session n'est plus en cours d'exécution en raison d'une erreur.

SessionOperationMetadata

Métadonnées décrivant l'opération Session.

Champs
session

string

Nom de la session pour l'opération.

session_uuid

string

UUID de session pour l'opération.

create_time

Timestamp

Heure à laquelle l'opération a été créée.

done_time

Timestamp

Heure à laquelle l'opération a été terminée.

operation_type

SessionOperationType

Type d'opération.

description

string

Brève description de l'opération.

labels

map<string, string>

Libellés associés à l'opération.

warnings[]

string

Avertissements rencontrés lors de l'exécution de l'opération.

SessionOperationType

Type d'opération pour les ressources de session

Enums
SESSION_OPERATION_TYPE_UNSPECIFIED Le type d'opération de session est inconnu.
CREATE Créer un type d'opération de session.
TERMINATE Type d'opération "Terminer la session".
DELETE Type d'opération "Delete Session" (Supprimer une session).

SessionTemplate

Représentation d'un modèle de session.

Champs
name

string

Obligatoire. Nom de la ressource du modèle de session.

description

string

Facultatif. Brève description du modèle.

create_time

Timestamp

Uniquement en sortie. Heure de création du modèle.

creator

string

Uniquement en sortie. Adresse e-mail de l'utilisateur qui a créé le modèle.

labels

map<string, string>

Facultatif. Libellés à associer aux sessions créées à l'aide de ce modèle. Les clés d'étiquette doivent contenir entre 1 et 63 caractères et être conformes à la RFC 1035. Les valeurs des libellés peuvent être vides, mais, si elles sont présentes, elles doivent comporter entre 1 et 63 caractères et être conformes à la norme RFC 1035. Vous ne pouvez pas associer plus de 32 libellés à une session.

runtime_config

RuntimeConfig

Facultatif. Configuration d'exécution pour l'exécution de la session.

environment_config

EnvironmentConfig

Facultatif. Configuration de l'environnement pour l'exécution de la session.

update_time

Timestamp

Uniquement en sortie. Heure de la dernière mise à jour du modèle.

uuid

string

Uniquement en sortie. UUID (identifiant unique universel) d'un modèle de session. Le service génère cette valeur lorsqu'il crée le modèle de session.

Champ d'union session_config. Configuration de la session. session_config ne peut être qu'un des éléments suivants :
jupyter_session

JupyterConfig

Facultatif. Configuration de la session Jupyter.

spark_connect_session

SparkConnectConfig

Facultatif. Configuration de la session Spark Connect.

SparkBatch

Configuration permettant d'exécuter une charge de travail par lot Apache Spark.

Champs
args[]

string

Facultatif. Arguments à transmettre au pilote. N'incluez pas d'arguments pouvant être définis comme des propriétés de lot, tels que --conf, car une collision peut se produire, ce qui entraîne une soumission de lot incorrecte.

jar_file_uris[]

string

Facultatif. URI HCFS des fichiers JAR à ajouter au classpath du pilote et des tâches Spark.

file_uris[]

string

Facultatif. URI HCFS des fichiers à placer dans le répertoire de travail de chaque exécuteur.

archive_uris[]

string

Facultatif. URI HCFS des archives à extraire dans le répertoire de travail de chaque exécuteur. Types de fichiers compatibles: .jar, .tar, .tar.gz, .tgz et .zip

Champ d'union driver. Spécification de la méthode principale à appeler pour piloter la charge de travail Spark. Spécifiez le fichier JAR contenant la classe principale ou le nom de la classe principale. Pour transmettre à la fois un fichier JAR principal et une classe principale dans ce fichier JAR, ajoutez le fichier JAR à jar_file_uris, puis spécifiez le nom de la classe principale dans main_class. driver ne peut être qu'un des éléments suivants:
main_jar_file_uri

string

Facultatif. URI HCFS du fichier JAR contenant la classe principale.

main_class

string

Facultatif. Nom de la classe principale du pilote. Le fichier JAR contenant la classe doit se trouver dans le chemin d'accès aux classes ou être spécifié dans jar_file_uris.

SparkConnectConfig

Ce type ne comporte aucun champ.

Configuration de Spark Connect pour une session interactive.

SparkHistoryServerConfig

Configuration du serveur d'historique Spark pour la charge de travail.

Champs
dataproc_cluster

string

Facultatif. Nom de ressource d'un cluster Dataproc existant qui servira de serveur d'historique Spark pour la charge de travail.

Exemple :

  • projects/[project_id]/regions/[region]/clusters/[cluster_name]

SparkRBatch

Configuration permettant d'exécuter une charge de travail par lot Apache SparkR.

Champs
main_r_file_uri

string

Obligatoire. URI HCFS du fichier R principal à utiliser comme pilote. Doit être un fichier .R ou .r.

args[]

string

Facultatif. Arguments à transmettre au pilote Spark. N'incluez pas d'arguments pouvant être définis comme des propriétés de lot, tels que --conf, car une collision peut se produire, ce qui entraîne une soumission de lot incorrecte.

file_uris[]

string

Facultatif. URI HCFS des fichiers à placer dans le répertoire de travail de chaque exécuteur.

archive_uris[]

string

Facultatif. URI HCFS des archives à extraire dans le répertoire de travail de chaque exécuteur. Types de fichiers compatibles: .jar, .tar, .tar.gz, .tgz et .zip

SparkSqlBatch

Configuration permettant d'exécuter des requêtes Apache Spark SQL en tant que charge de travail par lot.

Champs
query_file_uri

string

Obligatoire. URI HCFS du script contenant les requêtes SQL Spark à exécuter.

query_variables

map<string, string>

Facultatif. Mappage des noms de variables de requête sur des valeurs (équivalent à la commande Spark SQL: SET name="value";).

jar_file_uris[]

string

Facultatif. URI HCFS des fichiers JAR à ajouter au CLASSPATH Spark.

TerminateSessionRequest

Requête visant à arrêter une session interactive.

Champs
name

string

Obligatoire. Nom de la ressource de session à arrêter.

L'autorisation IAM suivante est requise pour la ressource name indiquée :

  • dataproc.sessions.terminate
request_id

string

Facultatif. Identifiant unique permettant d'identifier la requête. Si le service reçoit deux TerminateSessionRequest avec le même ID, la deuxième requête est ignorée.

Recommandation: Définissez cette valeur sur un UUID.

La valeur ne doit contenir que des lettres (a-z, A-Z), des chiffres (0-9), des traits de soulignement (_) et des tirets (-). Sa longueur maximale est de 40 caractères.

UpdateSessionTemplateRequest

Requête permettant de mettre à jour un modèle de session.

Champs
session_template

SessionTemplate

Obligatoire. Modèle de session mis à jour.

L'autorisation IAM suivante est requise pour la ressource sessionTemplate indiquée :

  • dataproc.sessionTemplates.update

UsageMetrics

Les métriques d'utilisation représentent une approximation du total des ressources consommées par une charge de travail.

Champs
milli_dcu_seconds

int64

Facultatif. Utilisation des unités de calcul de données (DCU) en (milliDCU x seconds) (voir Tarifs de Dataproc sans serveur).

shuffle_storage_gb_seconds

int64

Facultatif. Utilisation de l'espace de stockage de Shuffle en (GB x seconds) (voir Tarifs de Dataproc sans serveur).

milli_accelerator_seconds

int64

Facultatif. Utilisation de l'accélérateur en (milliAccelerator x seconds) (voir les tarifs de Dataproc sans serveur).

accelerator_type

string

Facultatif. Type d'accélérateur utilisé, le cas échéant

UsageSnapshot

L'instantané d'utilisation représente les ressources consommées par une charge de travail à un moment donné.

Champs
milli_dcu

int64

Facultatif. Milli-unités de calcul de données (DCUs, Dataproc Compute Units) (voir Tarifs de Dataproc sans serveur).

shuffle_storage_gb

int64

Facultatif. Espace de stockage de Shuffle en gigaoctets (Go). (voir Tarifs de Dataproc sans serveur)

milli_dcu_premium

int64

Facultatif. Millième (mille millième) d'unités de calcul de données (DCU) facturées au niveau premium (voir Tarifs de Dataproc sans serveur).

shuffle_storage_gb_premium

int64

Facultatif. Espace de stockage Shuffle en gigaoctets (Go) facturé au niveau Premium. (voir Tarifs de Dataproc sans serveur)

milli_accelerator

int64

Facultatif. Accélérateur milli (mille millièmes). (voir Tarifs de Dataproc sans serveur)

accelerator_type

string

Facultatif. Type d'accélérateur utilisé, le cas échéant

snapshot_time

Timestamp

Facultatif. Code temporel de l'instantané d'utilisation.