Questa pagina è stata tradotta dall'API Cloud Translation.

Modello di protocollo Pub/Sub a BigQuery con UDF Python

Il modello di protocollo Pub/Sub-BigQuery è una pipeline in modalità flusso che importa i dati di protocollo da una sottoscrizione Pub/Sub in una tabella BigQuery. Eventuali errori che si verificano durante la scrittura nella tabella BigQuery vengono inseriti in modalità flusso in un argomento Pub/Sub non elaborato.

È possibile fornire una funzione definita dall'utente (UDF) Python per trasformare i dati. Gli errori durante l'esecuzione dell'UDF possono essere inviati a un argomento Pub/Sub separato o allo stesso argomento non elaborato degli errori di BigQuery.

Requisiti della pipeline

Deve esistere la sottoscrizione Pub/Sub di input.
In Cloud Storage deve esistere il file di schema per i record di protocollo.
Deve esistere l'argomento Pub/Sub di output.
Deve esistere il set di dati BigQuery di output.
Se la tabella BigQuery è esistente, deve avere uno schema corrispondente ai dati proto indipendentemente dal valore createDisposition.

Parametri del modello

Parametro	Descrizione
`protoSchemaPath`	La posizione in Cloud Storage del file di schema proto autonomo. Ad esempio, `gs://path/to/my/file.pb`. Questo file può essere generato con il flag `--descriptor_set_out` del comando `protoc`. Il flag `--include_imports` garantisce che il file sia autonomo.
`fullMessageName`	Il nome completo del messaggio proto. Ad esempio, `package.name.MessageName`, dove `package.name` è il valore fornito per l'istruzione `package` e non per l'istruzione `java_package`.
`inputSubscription`	La sottoscrizione Pub/Sub di input da cui leggere. Ad esempio, `projects/<project>/subscriptions/<subscription>`.
`outputTopic`	L'argomento Pub/Sub da utilizzare per i record non elaborati. Ad esempio, `projects/<project-id>/topics/<topic-name>`.
`outputTableSpec`	La posizione della tabella di output BigQuery. Ad esempio, `my-project:my_dataset.my_table`. A seconda del valore createDisposition specificato, la tabella di output potrebbe essere creata automaticamente utilizzando il file dello schema di input.
`preserveProtoFieldNames`	(Facoltativo) `true` per preservare il nome del campo Proto originale in JSON. `false` per utilizzare nomi JSON più standard. Ad esempio, `false` modificherebbe `field_name` in `fieldName`. (valore predefinito: `false`)
`bigQueryTableSchemaPath`	(Facoltativo) Percorso Cloud Storage al percorso dello schema BigQuery. Ad esempio, `gs://path/to/my/schema.json`. Se non viene fornito, lo schema viene dedotto dallo schema Proto.
`pythonExternalTextTransformGcsPath`	(Facoltativo) L'URI Cloud Storage del file di codice Python che definisce la funzione definita dall'utente (UDF) che vuoi utilizzare. Ad esempio, `gs://my-bucket/my-udfs/my_file.py`.
`pythonExternalTextTransformFunctionName`	(Facoltativo) Il nome della funzione definita dall'utente (UDF) Python che vuoi utilizzare.
`udfOutputTopic`	(Facoltativo) L'argomento Pub/Sub che memorizza gli errori delle funzioni definite dall'utente. Ad esempio, `projects/<project-id>/topics/<topic-name>`. Se non viene fornito, gli errori delle funzioni definite dall'utente vengono inviati allo stesso argomento di `outputTopic`.
`writeDisposition`	(Facoltativo) Il `WriteDisposition` BigQuery. Ad esempio, `WRITE_APPEND`, `WRITE_EMPTY` o `WRITE_TRUNCATE`. Valore predefinito: `WRITE_APPEND`.
`createDisposition`	(Facoltativo) Il `CreateDisposition` BigQuery. Ad esempio, `CREATE_IF_NEEDED`, `CREATE_NEVER`. Valore predefinito: `CREATE_IF_NEEDED`.
`useStorageWriteApi`	Facoltativo: se `true`, la pipeline utilizza l' API BigQuery Storage Write. Il valore predefinito è `false`. Per ulteriori informazioni, consulta Utilizzare l'API Storage Write.
`useStorageWriteApiAtLeastOnce`	(Facoltativo) Quando utilizzi l'API Storage Write, specifica la semantica di scrittura. Per utilizzare la semantica almeno una volta , imposta questo parametro su `true`. Per utilizzare la semantica esattamente una volta, imposta il parametro su `false`. Questo parametro si applica solo quando `useStorageWriteApi` è `true`. Il valore predefinito è `false`.
`numStorageWriteApiStreams`	(Facoltativo) Quando utilizzi l'API Storage Write, specifica il numero di stream di scrittura. Se `useStorageWriteApi` è `true` e `useStorageWriteApiAtLeastOnce` è `false`, devi impostare questo parametro.
`storageWriteApiTriggeringFrequencySec`	(Facoltativo) Quando utilizzi l'API Storage Write, specifica la frequenza di attivazione in secondi. Se `useStorageWriteApi` è `true` e `useStorageWriteApiAtLeastOnce` è `false`, devi impostare questo parametro.

Funzione definita dall'utente

Se vuoi, puoi estendere questo modello scrivendo una funzione definita dall'utente (UDF). Il modello chiama la UDF per ogni elemento di input. I payload degli elementi vengono serializzati come stringhe JSON. Per ulteriori informazioni, consulta Creare funzioni predefinite dall'utente per i modelli Dataflow.

Specifiche della funzione

La UDF ha la seguente specifica:

Input: il campo dei dati del messaggio Pub/Sub, serializzato come stringa JSON.

Output: una stringa JSON che corrisponde allo schema della tabella di destinazione BigQuery.

Esegui il modello

Console

Vai alla pagina Crea job da modello di Dataflow.

Vai a Crea job da modello

Nel campo Nome job, inserisci un nome univoco per il job.
(Facoltativo) Per Endpoint a livello di regione, seleziona un valore dal menu a discesa. La regione predefinita è us-central1.
Per un elenco delle regioni in cui puoi eseguire un job Dataflow, consulta Località di Dataflow.
Nel menu a discesa Modello di flusso di dati, seleziona the Pub/Sub Proto to BigQuery with Python UDF template.
Nei campi dei parametri forniti, inserisci i valori dei parametri.
Fai clic su Esegui job.

gcloud

Nella shell o nel terminale, esegui il modello:

gcloud dataflow flex-template run JOB_NAME \
    --region=REGION_NAME \
    --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/PubSub_Proto_to_BigQuery_Xlang \
    --parameters \
schemaPath=SCHEMA_PATH,\
fullMessageName=PROTO_MESSAGE_NAME,\
inputSubscription=SUBSCRIPTION_NAME,\
outputTableSpec=BIGQUERY_TABLE,\
outputTopic=UNPROCESSED_TOPIC

Sostituisci quanto segue:

JOB_NAME: un nome di job univoco a tua scelta
REGION_NAME: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1
VERSION: la versione del modello che vuoi utilizzare
Puoi utilizzare i seguenti valori:
- latest per utilizzare la versione più recente del modello, disponibile nella cartella principale senza data del bucket: gs://dataflow-templates-REGION_NAME/latest/
- il nome della versione, ad esempio 2023-09-12-00_RC00, per utilizzare una versione specifica del modello, che si trova nidificata nella rispettiva cartella principale datata nel bucket: gs://dataflow-templates-REGION_NAME/
Attenzione: la versione più recente dei modelli potrebbe aggiornarsi con modifiche sostanziali. Gli ambienti di produzione devono utilizzare i modelli conservati nella cartella principale più recente datata per impedire che queste modifiche non compatibili influiscano sui flussi di lavoro di produzione.
SCHEMA_PATH: il percorso di Cloud Storage del file dello schema Proto (ad esempio gs://MyBucket/file.pb)
PROTO_MESSAGE_NAME: il nome del messaggio Proto (ad esempio package.name.MessageName)
SUBSCRIPTION_NAME: il nome della sottoscrizione Pub/Sub di input
BIGQUERY_TABLE: il nome della tabella di output BigQuery
UNPROCESSED_TOPIC: l'argomento Pub/Sub da utilizzare per la coda non elaborata

API

Per eseguire il modello utilizzando l'API REST, invia una richiesta POST HTTP. Per ulteriori informazioni sull'API e sui relativi ambiti di autorizzazione, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch
{
   "launch_parameter": {
      "jobName": "JOB_NAME",
      "containerSpecGcsPath": "gs://dataflow-templates-REGION_NAME/VERSION/flex/PubSub_Proto_to_BigQuery_Xlang",
      "parameters": {
          "schemaPath": "SCHEMA_PATH",
          "fullMessageName": "PROTO_MESSAGE_NAME",
          "inputSubscription": "SUBSCRIPTION_NAME",
          "outputTableSpec": "BIGQUERY_TABLE",
          "outputTopic": "UNPROCESSED_TOPIC"
      }
   }
}