Questa pagina è stata tradotta dall'API Cloud Translation.

Importare dati da database non Spanner

Questa pagina descrive come preparare i file Avro esportati da database non Spanner e poi importarli in Spanner. Queste procedure includono informazioni per i database con dialetto GoogleSQL e PostgreSQL. Se vuoi importare un database Spanner che hai esportato in precedenza, consulta Importare file Avro Spanner.

Il processo utilizza Dataflow; importa i dati da un bucket Cloud Storage che contiene un insieme di file Avro e un file manifest JSON che specifica le tabelle di destinazione e i file Avro che popolano ogni tabella.

Prima di iniziare

Per importare un database Spanner, devi prima attivare le API Spanner, Cloud Storage, Compute Engine e Dataflow:

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Devi anche disporre di una quota sufficiente e delle autorizzazioni IAM richieste.

Requisiti di quota

I requisiti di quota per i job di importazione sono i seguenti:

Spanner: devi disporre di una capacità di calcolo sufficiente per supportare la quantità di dati che stai importando. Per importare un database non è necessaria capacità di calcolo aggiuntiva, anche se potrebbe essere necessario aggiungerne altra per consentire al job di terminare in un periodo di tempo ragionevole. Per ulteriori dettagli, consulta la sezione Ottimizzare i job.
Cloud Storage: per l'importazione, devi disporre di un bucket contenente i file esportati in precedenza. Non devi impostare una dimensione per il bucket.
Dataflow: i job di importazione sono soggetti alle stesse quote di CPU, utilizzo del disco e indirizzo IP di Compute Engine degli altri job Dataflow.
Compute Engine: prima di eseguire il job di importazione, devi configurare le quote iniziali per Compute Engine, che viene utilizzato da Dataflow. Queste quote rappresentano il numero massimo di risorse che consenti a Dataflow di utilizzare per il tuo job. I valori iniziali consigliati sono:
- CPU: 200
- Indirizzi IP in uso: 200
- Disco permanente standard: 50 TB
In genere, non devi apportare altre modifiche. Dataflow fornisce la scalabilità automatica in modo da pagare solo le risorse effettivamente utilizzate durante l'importazione. Se il tuo job può utilizzare più risorse, l'interfaccia utente di Dataflow mostra un'icona di avviso. Il job deve terminare anche se è presente un'icona di avviso.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per esportare un database, chiedi all'amministratore di concederti i seguenti ruoli IAM sul account di servizio worker Dataflow:

Visualizzatore Cloud Spanner (roles/spanner.viewer)
Dataflow Worker (roles/dataflow.worker)
Amministratore spazio di archiviazione (roles/storage.admin)
Lettore database Spanner (roles/spanner.databaseReader)
Database Admin (roles/spanner.databaseAdmin)

Esporta i dati da un database non Spanner in file Avro

Il processo di importazione importa i dati dai file Avro che si trovano in un bucket Cloud Storage. Puoi esportare i dati in formato Avro da qualsiasi origine e puoi utilizzare qualsiasi metodo disponibile.

Per esportare i dati da un database non Spanner in file Avro, segui questi passaggi:

Quando esporti i dati, tieni presente quanto segue:

Puoi esportare utilizzando uno qualsiasi dei tipi primitivi Avro, nonché il tipo complesso array.
Ogni colonna dei file Avro deve utilizzare uno dei seguenti tipi di colonna:
- ARRAY
- BOOL
- BYTES^*
- DOUBLE
- FLOAT
- INT
- LONG^†
- STRING^‡
^* Una colonna di tipo BYTES viene utilizzata per importare un NUMERIC Spanner. Per informazioni dettagliate, consulta la seguente sezione mapping consigliati.

^†,‡ Puoi importare un LONG che memorizza un timestamp o un STRING che memorizza un timestamp come TIMESTAMP Spanner. Per maggiori dettagli, consulta la seguente sezione Mappature consigliate.
Non devi includere o generare metadati quando esporti i file Avro.
Non devi seguire alcuna convenzione di denominazione particolare per i tuoi file.

Se non esporti i file direttamente in Cloud Storage, devi caricare i file Avro in un bucket Cloud Storage. Per istruzioni dettagliate, consulta la sezione Caricare oggetti in Cloud Storage.

Importa file Avro da database non Spanner a Spanner

Per importare file Avro da un database non Spanner in Spanner:

Crea tabelle di destinazione e definisci lo schema per il database Spanner.
Crea un file spanner-export.json nel bucket Cloud Storage.
Esegui un job di importazione Dataflow utilizzando gcloud CLI.

Passaggio 1: crea lo schema per il database Spanner

Prima di eseguire l'importazione, devi creare la tabella di destinazione in Spanner e definirne lo schema.

Devi creare uno schema che utilizzi il tipo di colonna appropriato per ogni colonna nei file Avro.

Mappature consigliate

GoogleSQL

Tipo di colonna Avro	Tipo di colonna Spanner
`ARRAY`	`ARRAY`
`BOOL`	`BOOL`
`BYTES`	`BYTES` `NUMERIC` (quando il tipo di colonna è `BYTES` e `logicalType=decimal`, `precision=38` e `scale=9`. Se queste specifiche esatte vengono omesse, il campo viene trattato come un valore `BYTES` di Spanner. Per ulteriori informazioni, consulta la documentazione relativa al tipo logico decimale Avro.
`DOUBLE`	`FLOAT64`
`FLOAT`	`FLOAT64`
`INT`	`INT64`
`LONG`	`INT64` `TIMESTAMP` quando `LONG` rappresenta un timestamp del numero di microsecondi dal 1° gennaio 1970 alle ore 00:00:00 UTC
`STRING`	`STRING` `TIMESTAMP` quando `STRING` rappresenta un timestamp nel formato canonico per le query SQL

PostgreSQL

Tipo di colonna Avro	Tipo di colonna Spanner
`ARRAY`	`ARRAY`
`BOOL`	`BOOLEAN`
`BYTES`	`BYTEA` `NUMERIC` (quando il tipo di colonna è `BYTEA` e `logicalType=decimal`, `precision=147455` e `scale=16383`. Se queste specifiche esatte vengono omesse, il campo viene trattato come valore `BYTEA`. Per ulteriori informazioni, consulta la documentazione relativa al tipo logico decimale Avro.
`DOUBLE`	`DOUBLE PRECISION`
`FLOAT`	`DOUBLE PRECISION`
`INT`	`BIGINT`
`LONG`	`BIGINT` `TIMESTAMP` quando `LONG` rappresenta un timestamp del numero di microsecondi dal 1° gennaio 1970 alle ore 00:00:00 UTC
`STRING`	`CHARACTER VARYING` `TIMESTAMP` quando `STRING` rappresenta un timestamp nel formato canonico per le query SQL, ad esempio "2022-05-28T07:08:21.123456789Z" o "2021-12-19T16:39:57-08:00".

Passaggio 2: crea un file spanner-export.json

Devi anche creare un file denominato spanner-export.json nel tuo bucket Cloud Storage. Questo file specifica il dialetto del database e contiene un array tables che elenca il nome e le posizioni dei file di dati per ogni tabella.

I contenuti del file hanno il seguente formato:

{
  "tables": [
   {
    "name": "TABLE1",
    "dataFiles": [
      "RELATIVE/PATH/TO/TABLE1_FILE1",
      "RELATIVE/PATH/TO/TABLE1_FILE2"
    ]
   },
   {
    "name": "TABLE2",
    "dataFiles": ["RELATIVE/PATH/TO/TABLE2_FILE1"]
   }
  ],
  "dialect":"DATABASE_DIALECT"
}

Dove DATABASE_DIALECT = {GOOGLE_STANDARD_SQL | POSTGRESQL}

Se l'elemento dialect viene omesso, il dialetto predefinito è GOOGLE_STANDARD_SQL.

Passaggio 3: esegui un job di importazione Dataflow utilizzando gcloud CLI

Per avviare il job di importazione, segui le istruzioni per l'utilizzo di Google Cloud CLI per eseguire un job con il modello da Avro a Spanner.

Dopo aver avviato un job di importazione, puoi visualizzare i dettagli del job nella console Google Cloud .

Al termine del job di importazione, aggiungi gli indici secondari e le chiavi esterne necessari.

Scegli una regione per il job di importazione

Potresti voler scegliere un'altra regione in base alla posizione del tuo bucket Cloud Storage. Per evitare addebiti per il trasferimento di dati in uscita, scegli una regione che corrisponda alla località del bucket Cloud Storage.

Se la posizione del bucket Cloud Storage è una regione, puoi usufruire dell'utilizzo gratuito della rete scegliendo la stessa regione per il job di importazione, se disponibile.
Se la posizione del bucket Cloud Storage è una doppia regione, puoi usufruire dell'utilizzo gratuito della rete scegliendo una delle due regioni che compongono la doppia regione per il job di importazione, supponendo che una delle regioni sia disponibile.

Se una regione colocalizzata non è disponibile per il tuo job di importazione o se la località del bucket Cloud Storage è una multiregione, si applicano addebiti per il trasferimento di dati in uscita. Consulta i prezzi del trasferimento di dati di Cloud Storage per scegliere una regione che comporti gli addebiti per il trasferimento di dati più bassi.

Visualizzare o risolvere i problemi relativi ai job nell'interfaccia utente di Dataflow

Dopo aver avviato un job di importazione, puoi visualizzare i dettagli del job, inclusi i log, nella sezione Dataflow della console Google Cloud .

Visualizza i dettagli del job Dataflow

Per visualizzare i dettagli di tutti i job di importazione o esportazione eseguiti nell'ultima settimana, inclusi quelli in esecuzione:

Vai alla pagina Panoramica del database per il database.
Fai clic sulla voce di menu Importa/Esporta nel riquadro a sinistra. La pagina Importa/Esporta del database mostra un elenco dei job recenti.
Nella pagina Importa/Esporta del database, fai clic sul nome del job nella colonna Nome job Dataflow:

La console Google Cloud mostra i dettagli del job Dataflow.

Per visualizzare un job eseguito più di una settimana fa:

Vai alla pagina Job Dataflow nella console Google Cloud .

Vai a Job
Trova il tuo lavoro nell'elenco e fai clic sul suo nome.

La console Google Cloud mostra i dettagli del job Dataflow.

Visualizzare i log Dataflow per il job

Per visualizzare i log di un job Dataflow, vai alla pagina dei dettagli del job, quindi fai clic su Log a destra del nome del job.

Se un job non va a buon fine, cerca gli errori nei log. Se si verificano errori, il conteggio degli errori viene visualizzato accanto a Log:

Esempio di conteggio degli errori accanto al pulsante Log

Per visualizzare gli errori del job:

Fai clic sul conteggio degli errori accanto a Log.

La console Google Cloud mostra i log del job. Potresti dover scorrere per visualizzare gli errori.
Individua le voci con l'icona di errore .
Fai clic su una singola voce di log per espandere i relativi contenuti.

Per saperne di più sulla risoluzione dei problemi relativi ai job Dataflow, vedi Risolvere i problemi della pipeline.

Risolvere i problemi relativi ai job di importazione non riusciti

Se visualizzi i seguenti errori nei log dei job:

com.google.cloud.spanner.SpannerException: NOT_FOUND: Session not found

--or--

com.google.cloud.spanner.SpannerException: DEADLINE_EXCEEDED: Deadline expired before operation could complete.

Controlla la latenza di scrittura del 99% nella scheda Monitoraggio del tuo database Spanner nella consoleGoogle Cloud . Se mostra valori elevati (più secondi), significa che l'istanza è sovraccarica, causando timeout e errori di scrittura.

Una delle cause dell'elevata latenza è che il job Dataflow viene eseguito utilizzando troppi worker, il che comporta un carico eccessivo sull'istanza Spanner.

Per specificare un limite al numero di worker Dataflow, anziché utilizzare la scheda Importa/Esporta nella pagina dei dettagli dell'istanza del database Spanner nella console Google Cloud , devi avviare l'importazione utilizzando il modello Cloud Storage Avro to Spanner e specificare il numero massimo di worker come descritto di seguito:

Console

Se utilizzi la console Dataflow, il parametro Numero massimo di worker si trova nella sezione Parametri facoltativi della pagina Crea job da modello.

Vai a Dataflow

gcloud

Esegui il comando gcloud dataflow jobs run e specifica l'argomento max-workers. Ad esempio:

  gcloud dataflow jobs run my-import-job \
    --gcs-location='gs://dataflow-templates/latest/GCS_Avro_to_Cloud_Spanner' \
    --region=us-central1 \
    --parameters='instanceId=test-instance,databaseId=example-db,inputDir=gs://my-gcs-bucket' \
    --max-workers=10 \
    --network=network-123

Risolvere l'errore di rete

Quando esporti i database Spanner, potrebbe verificarsi il seguente errore:

Workflow failed. Causes: Error: Message: Invalid value for field
'resource.properties.networkInterfaces[0].subnetwork': ''. Network interface
must specify a subnet if the network resource is in custom subnet mode.
HTTP Code: 400

Questo errore si verifica perché Spanner presuppone che tu voglia utilizzare una rete VPC in modalità automatica denominata default nello stesso progetto del job Dataflow. Se non hai una rete VPC predefinita nel progetto o se la tua rete VPC è in modalità personalizzata, devi creare un job Dataflow e specificare una rete o una subnet alternativa.

Ottimizzare i job di importazione a esecuzione lenta

Se hai seguito i suggerimenti nelle impostazioni iniziali, in genere non dovresti apportare altre modifiche. Se il job viene eseguito lentamente, puoi provare alcune altre ottimizzazioni:

Ottimizza la posizione del job e dei dati: esegui il job Dataflow nella stessa regione in cui si trovano l'istanza Spanner e il bucket Cloud Storage.
Assicurati che le risorse Dataflow siano sufficienti: se le quote di Compute Engine pertinenti limitano le risorse del job Dataflow, la pagina Dataflow nella console Google Cloud mostra un'icona di avviso e messaggi di log:

In questa situazione, aumentare le quote per CPU, indirizzi IP in uso e disco permanente standard potrebbe ridurre il tempo di esecuzione del job, ma potresti incorrere in costi maggiori di Compute Engine.
Controlla l'utilizzo della CPU di Spanner: se noti che l'utilizzo della CPU per l'istanza è superiore al 65%, puoi aumentare la capacità di calcolo in quell'istanza. La capacità aggiunge più risorse Spanner e il job dovrebbe accelerare, ma si verificano più addebiti Spanner.

Fattori che influiscono sulle prestazioni del job di importazione

Diversi fattori influiscono sul tempo necessario per completare un job di importazione.

Dimensioni del database Spanner: l'elaborazione di più dati richiede più tempo e risorse.
Schema del database Spanner, tra cui:
- Il numero di tavoli
- La dimensione delle righe
- Numero di indici secondari
- Il numero di chiavi esterne
- Numero di modifiche in tempo reale

Posizione dei dati: i dati vengono trasferiti tra Spanner e Cloud Storage utilizzando Dataflow. Idealmente, tutti e tre i componenti si trovano nella stessa regione. Se i componenti non si trovano nella stessa regione, lo spostamento dei dati tra le regioni rallenta il job.
Numero di worker Dataflow: per ottenere buone prestazioni sono necessari worker Dataflow ottimali. Utilizzando la scalabilità automatica, Dataflow sceglie il numero di worker per il job in base alla quantità di lavoro da svolgere. Il numero di worker sarà comunque limitato dalle quote per CPU, indirizzi IP in uso e disco permanente standard. L'interfaccia utente Dataflow mostra un'icona di avviso se rileva limiti di quota. In questa situazione, l'avanzamento è più lento, ma il lavoro dovrebbe comunque essere completato. La scalabilità automatica può sovraccaricare Spanner, causando errori quando è presente una grande quantità di dati da importare.
Carico esistente su Spanner: un job di importazione aggiunge un carico significativo della CPU a un'istanza Spanner. Se l'istanza ha già un carico esistente sostanziale, il job viene eseguito più lentamente.
Quantità di capacità di calcolo di Spanner: se l'utilizzo della CPU per l'istanza è superiore al 65%, il job viene eseguito più lentamente.

Ottimizzare i worker per prestazioni di importazione ottimali

Quando avvii un job di importazione Spanner, i worker Dataflow devono essere impostati su un valore ottimale per garantire un buon rendimento. Un numero eccessivo di worker sovraccarica Spanner, mentre un numero insufficiente di worker comporta prestazioni di importazione deludenti.

Il numero massimo di worker dipende molto dalle dimensioni dei dati, ma idealmente l'utilizzo totale della CPU Spanner dovrebbe essere compreso tra il 70% e il 90%. Questo offre un buon equilibrio tra l'efficienza di Spanner e il completamento dei job senza errori.

Per raggiungere questo target di utilizzo nella maggior parte degli schemi e degli scenari, consigliamo un numero massimo di vCPU worker compreso tra 4 e 6 volte il numero di nodi Spanner.

Ad esempio, per un'istanza Spanner a 10 nodi, utilizzando worker n1-standard-2, imposteresti il numero massimo di worker su 25, ottenendo 50 vCPU.