Eseguire il backup di un servizio Dataproc Metastore

Questa pagina spiega come creare un backup di un servizio Dataproc Metastore.

Un backup acquisisce uno snapshot del servizio, salva le impostazioni di configurazione correnti e tutti i metadati archiviati.

Dopo aver creato un backup, puoi utilizzare la funzionalità Ripristina da un backup per compilare un nuovo servizio Dataproc Metastore con i dati salvati nello snapshot.

Prima di iniziare

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per eseguire il backup di un servizio Dataproc Metastore, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per eseguire il backup di un servizio Dataproc Metastore. Per visualizzare le autorizzazioni esatte richieste, espandi la sezione Autorizzazioni richieste:

Autorizzazioni obbligatorie

Per eseguire il backup di un servizio Dataproc Metastore sono necessarie le seguenti autorizzazioni:

  • Per eseguire il backup di un servizio di metadati: metastore.backups.create
  • Per utilizzare l'oggetto Cloud Storage:
    • orgpolicy.policy.get
    • resourcemanager.projects.get
    • resourcemanager.projects.list
    • storage.managedFolders.create
    • storage.managedFolders.delete
    • storage.managedFolders.get
    • storage.managedFolders.list
    • storage.multipartUploads.*
    • storage.objects.create
    • storage.objects.delete
    • storage.objects.get
    • storage.objects.list
    • storage.objects.restore
    • storage.objects.update

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Per ulteriori informazioni su ruoli e autorizzazioni specifici di Dataproc Metastore, consulta la panoramica di IAM di Dataproc Metastore.

Considerazioni sul backup

Prima di eseguire un'operazione di backup, tieni presente le seguenti considerazioni:

  • Per ogni servizio Dataproc Metastore, puoi creare e archiviare fino a sette backup alla volta. Se provi a superare i sette backup, il processo di backup non va a buon fine. Se vuoi creare un altro backup, devi prima eliminare manualmente uno dei file di backup archiviati.
  • Mentre è in esecuzione un'operazione di backup, non puoi aggiornare il servizio Dataproc Metastore, ad esempio non puoi modificare le impostazioni di configurazione. Tuttavia, puoi comunque utilizzare il servizio per le normali operazioni, ad esempio accedere ai metadati da cluster Dataproc o autogestiti collegati.
  • Puoi creare backup pianificati che vengono eseguiti a vari intervalli di cron, ad esempio ogni giorno.

Crea backup

Per eseguire il backup di un servizio Dataproc Metastore, completa i passaggi in una delle seguenti schede:

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore:

    Apri Dataproc Metastore

  2. Nella pagina Dataproc Metastore, fai clic sul nome del servizio di cui vuoi eseguire il backup.

    Viene visualizzata la pagina Dettagli del servizio.

    Pagina dei dettagli del servizio
    Figura 1. Pagina dei dettagli del servizio Dataproc Metastore
  3. Nella parte superiore della pagina, fai clic su Backup.

    Viene visualizzata la pagina Backup.

  4. Inserisci il nome del backup.

  5. (Facoltativo) Inserisci una Descrizione del backup.

  6. Per avviare l'operazione di backup, fai clic su Backup.

    Torna alla pagina Dataproc Metastore e verifica che il backup del servizio sia stato eseguito correttamente.

    Al termine del backup, Dataproc Metastore ritorna automaticamente allo stato attivo, indipendentemente dal fatto che il backup sia riuscito o meno.

Interfaccia a riga di comando gcloud

  1. Per eseguire il backup di un servizio Dataproc Metastore, esegui il seguente comando gcloud metastore services backups create:

    gcloud metastore services backups create BACKUP \
        --location=LOCATION \
        --service=SERVICE \
        --description=DESCRIPTION
    

    Sostituisci quanto segue:

    • BACKUP: l'ID o l'identificatore completamente qualificato per il backup.
    • LOCATION: la regione Google Cloud in cui risiede il servizio Dataproc Metastore.
    • SERVICE: il nome del servizio Dataproc Metastore.
    • DESCRIPTION: una descrizione del backup.
  2. Verifica che il backup del servizio sia stato eseguito correttamente.

    Al termine del backup, Dataproc Metastore ritorna automaticamente allo stato attivo, indipendentemente dal fatto che il backup sia riuscito o meno.

REST

Segui le istruzioni dell'API per eseguire il backup dei metadati di un servizio utilizzando Explorer API.

Al termine del backup, Dataproc Metastore ritorna automaticamente allo stato attivo, indipendentemente dal fatto che il backup sia riuscito o meno.

Visualizzare la cronologia dei backup

Per visualizzare la cronologia dei backup di un servizio Dataproc Metastore nella console Google Cloud, completa i seguenti passaggi:

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.
  2. Nella barra di navigazione, fai clic su Backup/Ripristino.

    La cronologia dei backup viene visualizzata in una tabella in Backup.

    La cronologia mostra fino agli ultimi 7 backup.

    L'eliminazione di un servizio Dataproc Metastore comporta anche l'eliminazione di tutta la cronologia dei backup associati.

Eliminare un backup

Per eliminare un backup di Dataproc Metastore nella console Google Cloud, completa i seguenti passaggi:

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.
  2. Nella barra di navigazione, fai clic su Backup/Ripristino.
  3. Individua il backup che vuoi eliminare e fai clic sul pulsante delle impostazioni.
  4. Fai clic su Elimina.

Pianificare un backup

I backup possono essere pianificati in modo da essere eseguiti a intervalli di job cron specificati dall'utente, ad esempio giornalieri, settimanali o mensili. Una pianificazione cron utilizza il formato di stringa unix-cron (* * * * *) che è un insieme di cinque campi in una riga che indica quando deve essere eseguito il job.

Ad esempio, puoi impostare un intervallo personalizzato per creare un backup ogni settimana, ad esempio ogni mercoledì alle 14:00 PST.

Considerazioni sul backup pianificato

  • I backup pianificati devono specificare una posizione di backup, che deve essere un percorso Cloud Storage.
  • I backup pianificati vengono sempre creati nel formato file Avro.
  • Per impostazione predefinita, i backup pianificati sono configurati nel fuso orario UTC. Puoi modificare il fuso orario quando crei il backup per la prima volta.
  • I backup pianificati possono essere impostati per essere eseguiti a intervalli di un'ora, giornalieri, settimanali o mensili. L'intervallo orario minimo che puoi impostare è di 4 ore.

Creare un backup pianificato

Le pianificazioni dei backup possono essere impostate quando crei il servizio per la prima volta o aggiunte in un secondo momento quando aggiorni il servizio.

Per creare un servizio Dataproc Metastore 2 con un backup pianificato, compila i passaggi in una delle seguenti schede:

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.

  2. Nella parte superiore della pagina Dataproc Metastore, fai clic sul pulsante Crea.

    Viene visualizzata la pagina Crea servizio.

  3. Seleziona Dataproc Metastore 2.

  4. In Backup pianificati, imposta il pulsante di attivazione/disattivazione su Attiva.

  5. In Posizione, seleziona la posizione di Cloud Storage in cui vuoi archiviare il backup pianificato.

  6. (Facoltativo) In Programma, seleziona quanto segue:

    1. In Si ripete, seleziona la ripetizione, ad esempio Giornaliera o Settimanale.
    2. Per All'ora, seleziona l'ora della ripetizione, ad esempio 00:00.
    3. In Fuso orario, seleziona il fuso orario appropriato, ad esempio UTC-8.
  7. Per le restanti opzioni di configurazione del servizio, utilizza quelle predefinite.

  8. Fai clic su Invia.

Interfaccia a riga di comando gcloud

  1. Per pianificare un backup di un servizio Dataproc Metastore, esegui il seguente comando gcloud metastore services backups create:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION
    

    Sostituisci quanto segue:

    • SERVICE: l'ID o l'identificatore completamente qualificato per il backup.
    • LOCATION: la regione Google Cloud in cui risiede il servizio Dataproc Metastore.
    • SCHEDULED_BACKUP_CRON: la frequenza del backup, specificata nel formato dell'ora CRON. Ad esempio, un valore cron pari a 0 0 * * * pianifica un backup giornaliero.
    • SCHEDULED_BACKUP_LOCATION: la posizione del backup in Cloud Storage. Ad esempio: gs://my-bucket/path/to/location.

    o

    Puoi anche pianificare un backup memorizzando i valori precedenti in un file di configurazione:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Sostituisci quanto segue:

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: un percorso a un file JSON contenente i valori di configurazione del backup enabled, cront_schedule, time_zone e backup_location.

    L'esempio seguente mostra un file di configurazione del backup che attiva i backup pianificati, imposta la pianificazione del backup su ogni ora, specifica il fuso orario come PST e definisce la posizione del backup come un bucket Cloud Storage. Puoi scegliere i fusi orari dall'elenco dei fusi orari del database tz comuni.

    {
    "enabled": true,
    "cron_schedule": "0 0 * * *",
    "time_zone": "PST",
    "backup_location": "gs://my-bucket/path/to/location"
    }
    

REST

Segui le istruzioni dell'API per creare un backup pianificato utilizzando Explorer API.

Aggiornare un backup pianificato

Per aggiornare un servizio Dataproc Metastore 2 configurato con un backup pianificato, completa i passaggi in una delle seguenti schede:

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.

  2. Nella pagina Dataproc Metastore, fai clic sul nome del servizio per cui vuoi pianificare un backup.

  3. In Backup pianificati, imposta l'opzione su Attivato.

  4. In Posizione, seleziona la posizione di Cloud Storage in cui vuoi archiviare il backup pianificato.

  5. (Facoltativo) In Pianifica, seleziona i valori per i seguenti campi:

    1. In Si ripete, seleziona la ripetizione, ad esempio Giornaliera o Settimanale.
    2. Per All'ora, seleziona l'ora della ripetizione, ad esempio 00:00.
    3. In Fuso orario, seleziona il fuso orario appropriato, ad esempio UTC-8.

Interfaccia a riga di comando gcloud

  1. Per pianificare un backup di un servizio Dataproc Metastore, esegui il seguente comando gcloud metastore services backups update:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION \
    

    Sostituisci quanto segue:

    • SERVICE: l'ID o l'identificatore completamente qualificato per il backup pianificato.
    • LOCATION: la regione Google Cloud in cui risiede il servizio Dataproc Metastore.
    • SCHEDULED_BACKUP_CRON: la frequenza del backup, specificata nel formato dell'ora CRON. Ad esempio, un valore cron pari a 0 0 * * * pianifica un backup giornaliero.
    • SCHEDULED_BACKUP_LOCATION: la posizione Cloud Storage del backup pianificato. Ad esempio: gs://my-bucket/path/to/location.

    Puoi anche aggiornare un backup pianificato utilizzando i valori precedenti memorizzati in un file di configurazione:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Sostituisci quanto segue:

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: un percorso a un file JSON contenente la configurazione del backup.

    L'esempio seguente mostra un file di configurazione di backup che disattiva un backup pianificato.

    {
    "enabled": false,
    }
    

REST

Segui le istruzioni dell'API per aggiornare un backup pianificato utilizzando Explorer API.

Visualizzare un backup pianificato

Per visualizzare un servizio Dataproc Metastore 2 configurato con un backup pianificato, completa i passaggi in una delle seguenti schede:

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.

  2. Nella parte superiore della pagina, fai clic su Backup.

    Viene visualizzata la pagina Backup, che mostra i backup pianificati. Tieni presente che i backup vengono effettivamente archiviati nel bucket Cloud Storage fornito nella configurazione del backup pianificato.

Interfaccia a riga di comando gcloud

  1. Esegui questo comando gcloud storage ls:

    gcloud storage ls gs://BUCKET_NAME/SERVICE/LOCATION
    

    Sostituisci quanto segue:

    • BUCKET_NAME: il percorso del bucket Cloud Storage che memorizza il backup pianificato che vuoi visualizzare.
    • SERVICE: l'ID o l'identificatore completo per il backup pianificato.
    • LOCATION: la regione Google Cloud in cui risiede il servizio Dataproc Metastore.

REST

Segui le istruzioni dell'API per visualizzare un backup pianificato utilizzando Explorer API.

Risolvere i problemi comuni

Passaggi successivi