Utilizzare i file YAML con i flussi di lavoro

Puoi definire un modello di workflow in un file YAML, quindi istanziarlo per eseguire il workflow. Puoi anche importare ed esportare un file YAML del modello di workflow per creare e aggiornare una risorsa del modello di workflow Dataproc.

Esegui un flusso di lavoro utilizzando un file YAML

Per eseguire un flusso di lavoro senza prima creare una risorsa modello di workflow, utilizza il comando gcloud dataproc workflow-templates instantiate-from-file.

  1. Definisci il modello di flusso di lavoro in un file YAML. Il file YAML deve includere tutti i campi WorkflowTemplate obbligatori, ad eccezione del campo id, e deve escludere anche il campo version e tutti i campi di sola output. Nell'esempio di flusso di lavoro riportato di seguito, l'elenco prerequisiteStepIds nel passaggio terasort garantisce che il passaggio terasort inizi solo dopo il completamento del passaggio teragen.
    jobs:
    - hadoopJob:
        args:
        - teragen
        - '1000'
        - hdfs:///gen/
        mainJarFileUri: file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar
      stepId: teragen
    - hadoopJob:
        args:
        - terasort
        - hdfs:///gen/
        - hdfs:///sort/
        mainJarFileUri: file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar
      stepId: terasort
      prerequisiteStepIds:
        - teragen
    placement:
      managedCluster:
        clusterName: my-managed-cluster
        config:
          gceClusterConfig:
            zoneUri: us-central1-a
    
  2. Esegui il workflow:
    gcloud dataproc workflow-templates instantiate-from-file \
        --file=TEMPLATE_YAML \
        --region=REGION
    

Istanzia un flusso di lavoro utilizzando un file YAML con il posizionamento automatico delle zone di Dataproc

  1. Definisci il modello di flusso di lavoro in un file YAML. Questo file YAML è uguale al file YAML precedente, tranne per il fatto che il campo zoneUri è impostato sulla stringa vuota ("") per consentire al posizionamento automatico delle zone di Dataproc di selezionare la zona per il cluster.
    jobs:
    - hadoopJob:
        args:
        - teragen
        - '1000'
        - hdfs:///gen/
        mainJarFileUri: file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar
      stepId: teragen
    - hadoopJob:
        args:
        - terasort
        - hdfs:///gen/
        - hdfs:///sort/
        mainJarFileUri: file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar
      stepId: terasort
      prerequisiteStepIds:
        - teragen
    placement:
      managedCluster:
        clusterName: my-managed-cluster
        config:
          gceClusterConfig:
            zoneUri: ''
    
  2. Esegui il flusso di lavoro. Quando utilizzi il posizionamento automatico, devi trasmettere una regione al comando gcloud.
    gcloud dataproc workflow-templates instantiate-from-file \
        --file=TEMPLATE_YAML \
        --region=REGION
    

Importare ed esportare un file YAML del modello di workflow

Puoi importare ed esportare file YAML del modello di flusso di lavoro. In genere, un modello di workflow viene prima esportato come file YAML, poi il file YAML viene modificato e infine il file YAML modificato viene importato per aggiornare il modello.

  1. Esporta il modello di flusso di lavoro in un file YAML. Durante l'operazione di esportazione, i campi id e version e tutti i campi di sola output vengono filtrati dall'output e non vengono visualizzati nel file YAML esportato.

    gcloud dataproc workflow-templates export TEMPLATE_ID or TEMPLATE_NAME \
        --destination=TEMPLATE_YAML \
        --region=REGION
    
    Puoi passare il WorkflowTemplate id o la risorsa modello completa name ("projects/PROJECT_ID/regions/REGION/workflowTemplates/TEMPLATE_ID") al comando.

  2. Modifica il file YAML in locale. Tieni presente che i campi id, version e di solo output, che sono stati filtrati dal file YAML durante l'esportazione del modello, non sono consentiti nel file YAML importato.

  3. Importa il file YAML del modello di flusso di lavoro aggiornato:

    gcloud dataproc workflow-templates import TEMPLATE_ID or TEMPLATE_NAME \
        --source=TEMPLATE_YAML \
        --region=REGION
    
    Puoi passare il WorkflowTemplate id o la risorsa modello completa name ("projects/PROJECT_ID/regions/region/workflowTemplates/TEMPLATE_ID") al comando. La risorsa modello con lo stesso nome verrà sovrascritta (aggiornata) e il relativo numero di versione verrà incrementato. Se non esiste un modello con lo stesso nome, verrà creato.