Questa pagina è stata tradotta dall'API Cloud Translation.

Creare una pipeline di flusso utilizzando un modello Dataflow

Questa guida rapida mostra come creare una pipeline di inserimento flussi utilizzando un modello Dataflow fornito da Google. Nello specifico, questa guida rapida utilizza il modello Da Pub/Sub a BigQuery come esempio.

Il modello da Pub/Sub a BigQuery è una pipeline di flusso che può leggere messaggi con formattazione JSON da un argomento Pub/Sub e scriverli in una tabella BigQuery.

Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:

Procedura guidata

Prima di iniziare

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager APIs.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager APIs.

Enable the APIs

Crea un bucket Cloud Storage:

In the Google Cloud console, go to the Cloud Storage Buckets page.
Go to Buckets
Click Create.
On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
1. For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
2. In the Choose where to store your data section, do the following:
  1. Select a Location type.
  2. Choose a location where your bucket's data is permanently stored from the Location type drop-down menu.
    - If you select the dual-region location type, you can also choose to enable turbo replication by using the relevant checkbox.
  3. To set up cross-bucket replication, select Add cross-bucket replication via Storage Transfer Service and follow these steps:
    Set up cross-bucket replication
    
    In the Bucket menu, select a bucket.
    
    In the Replication settings section, click Configure to configure settings for the replication job.
    
    The Configure cross-bucket replication pane appears.
    
    To filter objects to replicate by object name prefix, enter a prefix that you want to include or exclude objects from, then click Add a prefix.
    
    To set a storage class for the replicated objects, select a storage class from the Storage class menu. If you skip this step, the replicated objects will use the destination bucket's storage class by default.
    
    Click Done.
3. In the Choose how to store your data section, do the following:
  1. In the Set a default class section, select the following: Standard.
  2. To enable hierarchical namespace, in the Optimize storage for data-intensive workloads section, select Enable hierarchical namespace on this bucket.
    Note: You cannot enable hierarchical namespace in existing buckets.
4. In the Choose how to control access to objects section, select whether or not your bucket enforces public access prevention, and select an access control method for your bucket's objects.
  Note: You cannot change the Prevent public access setting if this setting is enforced at an organization policy.
5. In the Choose how to protect object data section, do the following:
  - Select any of the options under Data protection that you want to set for your bucket.
    - To enable soft delete, click the Soft delete policy (For data recovery) checkbox, and specify the number of days you want to retain objects after deletion.
    - To set Object Versioning, click the Object versioning (For version control) checkbox, and specify the maximum number of versions per object and the number of days after which the noncurrent versions expire.
    - To enable the retention policy on objects and buckets, click the Retention (For compliance) checkbox, and then do the following:
      - To enable Object Retention Lock, click the Enable object retention checkbox.
      - To enable Bucket Lock, click the Set bucket retention policy checkbox, and choose a unit of time and a length of time for your retention period.
  - To choose how your object data will be encrypted, expand the Data encryption section (), and select a Data encryption method.
Click Create.

Copia quanto segue, poiché ti serviranno in una sezione successiva:
- Il nome del bucket Cloud Storage.
- L'ID del tuo progetto Google Cloud.
  
  Per trovare questo ID, consulta Identificazione dei progetti.

Per completare i passaggi di questa guida introduttiva, il tuo account utente deve disporre del ruolo Amministratore Dataflow e del ruolo Utente account di servizio. L'account di servizio predefinito di Compute Engine deve disporre del ruolo Dataflow Worker, del ruolo Amministratore oggetti archiviazione, del ruolo Editor Pub/Sub, del ruolo Editor dati BigQuery e del ruolo Visualizzatore. Per aggiungere i ruoli richiesti nella console Google Cloud:
1. Vai alla pagina IAM e seleziona il tuo progetto.
  Vai a IAM
2. Nella riga contenente il tuo account utente, fai clic su Modifica entità. Fai clic su Aggiungi un altro ruolo e aggiungi i seguenti ruoli: Amministratore Dataflow e Utente account di servizio.
3. Fai clic su Salva.
4. Nella riga contenente l'account di servizio predefinito Compute Engine (PROJECT_NUMBER-compute@developer.gserviceaccount.com), fai clic su Modifica entità.
5. Fai clic su Aggiungi un altro ruolo e aggiungi i seguenti ruoli: Worker Dataflow, Amministratore oggetti archiviazione, Editor Pub/Sub, Editor dati BigQuery, Visualizzatore.
6. Fai clic su Salva.
  
  Per ulteriori informazioni sulla concessione dei ruoli, consulta Concedere un ruolo IAM utilizzando la console.
Per impostazione predefinita, ogni nuovo progetto viene avviato con una rete predefinita. Se la rete predefinita per il progetto è disattivata o è stata eliminata, devi avere una rete nel progetto per la quale il tuo account utente dispone del ruolo Utente di rete Compute (roles/compute.networkUser).

Creare un set di dati e una tabella BigQuery

Crea un set di dati e una tabella BigQuery con lo schema appropriato per il tuo argomento Pub/Sub utilizzando la console Google Cloud.

In questo esempio, il nome del set di dati è taxirides e il nome della tabella è realtime. Per creare questo set di dati e questa tabella:

Vai alla pagina BigQuery.
Vai a BigQuery
Nel riquadro Explorer, accanto al progetto in cui vuoi creare il set di dati, fai clic su Visualizza azioni e poi su Crea set di dati.
Nota: l'esperienza predefinita è la console Google Cloud in anteprima. Se hai fatto clic su Nascondi funzionalità di anteprima per andare alla console Google Cloud, esegui invece il seguente passaggio: nel pannello di navigazione, nella sezione Risorse, seleziona il tuo progetto.
Nel riquadro Crea set di dati, segui questi passaggi:

In ID set di dati, inserisci taxirides. Gli ID set di dati sono univoci per ogni progetto Google Cloud.
Per Tipo di località, scegli Più regioni e poi Stati Uniti (più regioni negli Stati Uniti). I set di dati pubblici sono archiviati nella località US con più regioni. Per semplicità, inserisci il tuo set di dati nella stessa posizione.
Lascia invariate le altre impostazioni predefinite e fai clic su Crea set di dati.

Nel riquadro Explorer, espandi il progetto.
Accanto al set di dati taxirides, fai clic su Visualizza azioni e poi su Crea tabella.
Nota: l'esperienza predefinita è la console Google Cloud in anteprima. Se hai fatto clic su Nascondi funzionalità di anteprima per andare alla console Google Cloud, esegui invece il seguente passaggio: nel pannello di navigazione, nella sezione Risorse, seleziona il set di dati taxirides che hai creato.
Nel riquadro Crea tabella, segui questi passaggi:

Nella sezione Origine, per Crea tabella da, seleziona Tabella vuota.
Nella sezione Destinazione, in Tabella, inserisci realtime.

Nella sezione Schema, fai clic sull'opzione di attivazione/disattivazione Modifica come testo e incolla la seguente definizione di schema nel riquadro:

ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,
meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer

Nella sezione Impostazioni di cluster e partizionamento, per Partizionamento, seleziona il campo timestamp.

Lascia invariate le altre impostazioni predefinite e fai clic su Crea tabella.

esegui la pipeline.

Esegui una pipeline in modalità flusso utilizzando il modello Da Pub/Sub a BigQuery fornito da Google. La pipeline riceve i dati in arrivo dall'argomento di input.

Vai alla pagina Job Dataflow:
Vai a Job
Fai clic su Crea job da modello.
Inserisci taxi-data come Nome job per il tuo job Dataflow.
In Modello Dataflow, seleziona il modello Da Pub/Sub a BigQuery.
In Tabella di output BigQuery, inserisci quanto segue:
```
PROJECT_ID:taxirides.realtime
```
Sostituisci PROJECT_ID con l'ID del progetto in cui hai creato il set di dati BigQuery.
Nella sezione Parametri facoltativi dell'origine, fai clic su Inserisci argomento manualmente in Argomento di input Pub/Sub.

Nella finestra di dialogo, in Nome argomento, inserisci quanto segue e poi fai clic su Salva:

projects/pubsub-public-data/topics/taxirides-realtime

Questo argomento Pub/Sub disponibile pubblicamente si basa sul set di dati aperto della NYC Taxi & Limousine Commission. Di seguito è riportato un messaggio di esempio di questo argomento in formato JSON:

{
  "ride_id": "19c41fc4-e362-4be5-9d06-435a7dc9ba8e",
  "point_idx": 217,
  "latitude": 40.75399,
  "longitude": -73.96302,
  "timestamp": "2021-03-08T02:29:09.66644-05:00",
  "meter_reading": 6.293821,
  "meter_increment": 0.029003782,
  "ride_status": "enroute",
  "passenger_count": 1
}

Per Località temporanea, inserisci quanto segue:
```
gs://BUCKET_NAME/temp/
```
Sostituisci BUCKET_NAME con il nome del tuo bucket Cloud Storage. La cartella temp memorizza file temporanei, come il job della pipeline sottoposto a gestione temporanea.
Se il progetto non ha una rete predefinita, inserisci una Rete e una Subnet. Per saperne di più, consulta la sezione Specificare una rete e una sottorete.
Nota: a meno che non sia specificato tramite l'opzione network, il programma di esecuzione Dataflow esegue i job nella rete Virtual Private Cloud default. Se il progetto non ha una rete predefinita e non ne specifichi una, si verifica un errore. Potresti non avere una rete predefinita se è stata eliminata o se un vincolo dei criteri dell'organizzazione impedisce la creazione della rete predefinita.
Fai clic su Esegui job.

Visualizza i tuoi risultati

Per visualizzare i dati scritti nella tabella realtime:

Vai alla pagina BigQuery.

Vai a BigQuery
Fai clic su Crea una nuova query. Si apre una nuova scheda Editor.
```
SELECT * FROM `PROJECT_ID.taxirides.realtime`
WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)
LIMIT 1000
```
Sostituisci PROJECT_ID con l'ID del progetto in cui hai creato il set di dati BigQuery. La visualizzazione dei dati nella tabella può richiedere fino a cinque minuti.
Fai clic su Esegui.

La query restituisce le righe che sono state aggiunte alla tabella nelle ultime 24 ore. Puoi anche eseguire query utilizzando SQL standard.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il Google Cloud progetto che hai creato per la guida rapida.

Attenzione: l'eliminazione di un progetto ha i seguenti effetti:

L'intero contenuto del progetto viene eliminato. Se hai utilizzato un progetto esistente per le attività descritte in questo documento, quando lo elimini elimini anche tutto il lavoro svolto nel progetto.
Gli ID progetto personalizzati non sono più disponibili. Quando hai creato questo progetto, potresti aver creato un ID progetto personalizzato che vuoi utilizzare in futuro. Per conservare gli URL che utilizzano l'ID progetto, ad esempio un URL appspot.com, elimina le risorse selezionate all'interno del progetto anziché eliminare l'intero progetto.

Se intendi esplorare più architetture, tutorial o guide rapide, il riuso dei progetti può aiutarti a non superare i limiti di quota.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Elimina le singole risorse

Se vuoi mantenere il Google Cloud progetto utilizzato in questo quickstart, elimina le singole risorse:

Vai alla pagina Job Dataflow:
Vai a Job
Seleziona il tuo job di streaming dall'elenco dei job.
Nella barra di navigazione, fai clic su Interrompi.
Nella finestra di dialogo Arresta job, annulla o svuota la pipeline, quindi fai clic su Arresta job.
Vai alla pagina BigQuery.
Vai a BigQuery
Nel riquadro Explorer, espandi il progetto.
Accanto al set di dati che vuoi eliminare, fai clic su Visualizza azioni e poi su Apri.
Nel riquadro dei dettagli, fai clic su Elimina set di dati e segui le istruzioni.
In the Google Cloud console, go to the Cloud Storage Buckets page.
Go to Buckets
Click the checkbox for the bucket that you want to delete.
To delete the bucket, click Delete, and then follow the instructions.

Creare una pipeline di flusso utilizzando un modello Dataflow

Prima di iniziare

Set up cross-bucket replication

Creare un set di dati e una tabella BigQuery

esegui la pipeline.

Visualizza i tuoi risultati

Esegui la pulizia

Elimina il progetto

Elimina le singole risorse

Passaggi successivi