Sauvegarder un service Dataproc Metastore

Cette page explique comment créer une sauvegarde d'un service Dataproc Metastore.

Une sauvegarde prend un instantané de votre service, enregistre ses paramètres de configuration actuels et toutes les métadonnées stockées.

Après avoir créé une sauvegarde, vous pouvez utiliser la fonctionnalité Restore from a backup (Restaurer à partir d'une sauvegarde) pour renseigner un nouveau service Dataproc Metastore avec les données enregistrées dans l'instantané.

Avant de commencer

Rôles requis

Pour obtenir les autorisations nécessaires pour sauvegarder un service Metastore Dataproc, demandez à votre administrateur de vous accorder les rôles IAM suivants:

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour sauvegarder un service Metastore Dataproc. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour sauvegarder un service Dataproc Metastore:

  • Pour sauvegarder un service de métadonnées : metastore.backups.create
  • Pour utiliser l'objet Cloud Storage :
    • orgpolicy.policy.get
    • resourcemanager.projects.get
    • resourcemanager.projects.list
    • storage.managedFolders.create
    • storage.managedFolders.delete
    • storage.managedFolders.get
    • storage.managedFolders.list
    • storage.multipartUploads.*
    • storage.objects.create
    • storage.objects.delete
    • storage.objects.get
    • storage.objects.list
    • storage.objects.restore
    • storage.objects.update

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur les rôles et les autorisations spécifiques de Dataproc Metastore, consultez la page Présentation de l'IAM Dataproc Metastore.

Considérations concernant la sauvegarde

Avant d'exécuter une opération de sauvegarde, tenez compte des points suivants:

  • Pour chaque service Dataproc Metastore, vous pouvez créer et stocker jusqu'à sept sauvegardes à la fois. Si vous essayez de dépasser sept sauvegardes, le processus de sauvegarde échoue. Si vous souhaitez créer une autre sauvegarde, vous devez d'abord supprimer manuellement l'un de vos fichiers de sauvegarde stockés.
  • Lorsqu'une opération de sauvegarde est en cours, vous ne pouvez pas mettre à jour votre service Dataproc Metastore. Par exemple, vous ne pouvez pas modifier les paramètres de configuration. Toutefois, vous pouvez toujours utiliser votre service pour les opérations normales, telles que l'accès aux métadonnées de clusters Dataproc associés ou autogérés.
  • Vous pouvez créer des sauvegardes planifiées qui s'exécutent à différents intervalles Cron, par exemple tous les jours.

Créer une sauvegarde

Pour sauvegarder un service Dataproc Metastore, procédez comme suit dans l'un des onglets suivants:

Console

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore:

    Ouvrir Dataproc Metastore

  2. Sur la page Dataproc Metastore, cliquez sur le nom du service que vous souhaitez sauvegarder.

    La page Informations sur le service s'ouvre.

    Page d'information sur le service
    Figure 1 Page d'informations sur le service Dataproc Metastore
  3. En haut de la page, cliquez sur Sauvegarder.

    La page Sauvegarde s'affiche.

  4. Saisissez le nom de la sauvegarde.

  5. (Facultatif) Saisissez une Description de la sauvegarde.

  6. Pour lancer l'opération de sauvegarde, cliquez sur Sauvegarder.

    Revenez sur la page Dataproc Metastore et vérifiez que votre service a bien été sauvegardé.

    Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que la sauvegarde ait réussi ou non.

CLI gcloud

  1. Pour sauvegarder un service Dataproc Metastore, exécutez la commande gcloud metastore services backups create suivante:

    gcloud metastore services backups create BACKUP \
        --location=LOCATION \
        --service=SERVICE \
        --description=DESCRIPTION
    

    Remplacez les éléments suivants :

    • BACKUP: ID ou identifiant complet de la sauvegarde.
    • LOCATION: région Google Cloud dans laquelle se trouve votre service Dataproc Metastore.
    • SERVICE: nom de votre service Dataproc Metastore.
    • DESCRIPTION: description de votre sauvegarde.
  2. Vérifiez que votre service a bien été sauvegardé.

    Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que la sauvegarde ait réussi ou non.

REST

Suivez les instructions de l'API pour sauvegarder les métadonnées d'un service à l'aide de l'APIs Explorer d'API.

Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que la sauvegarde ait réussi ou non.

Afficher l'historique des sauvegardes

Pour afficher l'historique des sauvegardes d'un service Dataproc Metastore dans la console Google Cloud, procédez comme suit:

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore.
  2. Dans la barre de navigation, cliquez sur Sauvegarder/Restaurer.

    Votre historique des sauvegardes s'affiche dans un tableau sous Sauvegardes.

    L'historique affiche les sept dernières sauvegardes maximum.

    La suppression d'un service Dataproc Metastore entraîne également la suppression de l'ensemble de l'historique des sauvegardes associées.

Supprimer une sauvegarde

Pour supprimer une sauvegarde Dataproc Metastore dans la console Google Cloud, procédez comme suit:

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore.
  2. Dans la barre de navigation, cliquez sur Sauvegarder/Restaurer.
  3. Recherchez la sauvegarde que vous souhaitez supprimer, puis cliquez sur le bouton "Paramètres".
  4. Cliquez sur Supprimer.

Programmer une sauvegarde

Les sauvegardes peuvent être planifiées pour s'exécuter à des intervalles de tâches cron spécifiés par l'utilisateur, y compris quotidiennement, hebdomadairement ou mensuellement. Un calendrier Cron utilise le format de chaîne unix-cron (* * * * *) qui est un ensemble de cinq champs sur une ligne, indiquant quand la tâche doit être exécutée.

Par exemple, vous pouvez définir un intervalle personnalisé pour créer une sauvegarde chaque semaine, par exemple tous les mercredis à 14h PST.

Considérations concernant les sauvegardes planifiées

  • Les sauvegardes planifiées doivent spécifier un emplacement de sauvegarde, qui doit être un chemin d'accès Cloud Storage.
  • Les sauvegardes planifiées sont toujours créées au format de fichier Avro.
  • Par défaut, les sauvegardes planifiées sont configurées dans le fuseau horaire UTC. Vous pouvez modifier le fuseau horaire lorsque vous créez la sauvegarde pour la première fois.
  • Les sauvegardes planifiées peuvent être définies pour s'exécuter toutes les heures, tous les jours, toutes les semaines ou tous les mois. L'intervalle horaire minimal que vous pouvez définir est de quatre heures.

Créer une sauvegarde planifiée

Vous pouvez définir des planifications de sauvegarde lorsque vous créez votre service pour la première fois ou les ajouter plus tard lorsque vous mettez à jour votre service.

Pour créer un service Dataproc Metastore 2 avec une sauvegarde planifiée, suivez la procédure décrite dans l'un des onglets suivants:

Console

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore.

  2. En haut de la page Dataproc Metastore, cliquez sur le bouton Créer.

    La page Create service (Créer un service) s'ouvre.

  3. Sélectionnez Dataproc Metastore 2.

  4. Sous Scheduled Backups (Sauvegardes planifiées), définissez le bouton sur Enable (Activer).

  5. Sous Emplacement, sélectionnez l'emplacement Cloud Storage dans lequel vous souhaitez stocker votre sauvegarde planifiée.

  6. Facultatif: Sous "Calendrier", sélectionnez les éléments suivants:

    1. Pour Repeats (Répéter), sélectionnez la fréquence, par exemple Daily (Quotidienne) ou Weekly (Hebdomadaire).
    2. Pour À l'heure, sélectionnez l'heure de la répétition, par exemple 00h00.
    3. Pour Fuseau horaire, sélectionnez le fuseau horaire approprié, par exemple UTC-8.
  7. Pour les autres options de configuration du service, utilisez les valeurs par défaut fournies.

  8. Cliquez sur Envoyer.

CLI gcloud

  1. Pour planifier une sauvegarde d'un service Dataproc Metastore, exécutez la commande gcloud metastore services backups create suivante:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION
    

    Remplacez les éléments suivants :

    • SERVICE: ID ou identifiant complet de la sauvegarde.
    • LOCATION: région Google Cloud dans laquelle se trouve votre service Dataproc Metastore.
    • SCHEDULED_BACKUP_CRON: fréquence de votre sauvegarde, spécifiée au format cron. Par exemple, une valeur cron de 0 0 * * * planifie une sauvegarde quotidienne.
    • SCHEDULED_BACKUP_LOCATION: emplacement Cloud Storage de votre sauvegarde. Exemple : gs://my-bucket/path/to/location.

    ou

    Vous pouvez également planifier une sauvegarde en stockant les valeurs précédentes dans un fichier de configuration:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Remplacez les éléments suivants :

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: chemin d'accès à un fichier JSON contenant les valeurs de configuration de sauvegarde enabled, cront_schedule, time_zone et backup_location.

    L'exemple suivant montre un fichier de configuration de sauvegarde qui active les sauvegardes planifiées, définit la planification des sauvegardes sur toutes les heures, spécifie le fuseau horaire en tant que PST et définit l'emplacement de sauvegarde en tant que bucket Cloud Storage. Vous pouvez choisir parmi les fuseaux horaires courants de la base de données tz.

    {
    "enabled": true,
    "cron_schedule": "0 0 * * *",
    "time_zone": "PST",
    "backup_location": "gs://my-bucket/path/to/location"
    }
    

REST

Suivez les instructions de l'API pour créer une sauvegarde planifiée à l'aide de l&#APIs Explorer d'API.

Mettre à jour une sauvegarde planifiée

Pour mettre à jour un service Dataproc Metastore 2 configuré avec une sauvegarde planifiée, procédez comme suit dans l'un des onglets suivants:

Console

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore.

  2. Sur la page Dataproc Metastore, cliquez sur le nom du service pour lequel vous souhaitez planifier une sauvegarde.

  3. Sous Scheduled Backups (Sauvegardes planifiées), définissez le bouton sur Enabled (Activé).

  4. Sous Emplacement, sélectionnez l'emplacement Cloud Storage dans lequel vous souhaitez stocker votre sauvegarde planifiée.

  5. Facultatif: Sous Planifier, sélectionnez des valeurs pour les champs suivants:

    1. Pour Repeats (Répéter), sélectionnez la fréquence, par exemple Daily (Quotidienne) ou Weekly (Hebdomadaire).
    2. Pour À l'heure, sélectionnez l'heure de la répétition, par exemple 00h00.
    3. Pour Fuseau horaire, sélectionnez le fuseau horaire approprié, par exemple UTC-8.

CLI gcloud

  1. Pour planifier une sauvegarde d'un service Dataproc Metastore, exécutez la commande gcloud metastore services backups update suivante:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION \
    

    Remplacez les éléments suivants :

    • SERVICE: ID ou identifiant complet de la sauvegarde planifiée.
    • LOCATION: région Google Cloud dans laquelle se trouve votre service Dataproc Metastore.
    • SCHEDULED_BACKUP_CRON: fréquence de votre sauvegarde, spécifiée au format cron. Par exemple, une valeur cron de 0 0 * * * planifie une sauvegarde quotidienne.
    • SCHEDULED_BACKUP_LOCATION: emplacement Cloud Storage de votre sauvegarde planifiée. Exemple : gs://my-bucket/path/to/location.

    Vous pouvez également mettre à jour une sauvegarde planifiée à l'aide des valeurs précédentes stockées dans un fichier de configuration:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Remplacez les éléments suivants :

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: chemin d'accès à un fichier JSON contenant la configuration de sauvegarde.

    L'exemple suivant montre un fichier de configuration de sauvegarde qui désactive une sauvegarde planifiée.

    {
    "enabled": false,
    }
    

REST

Suivez les instructions de l'API pour mettre à jour une sauvegarde planifiée à l'aide de l'APIs Explorer d'API.

Afficher une sauvegarde planifiée

Pour afficher un service Dataproc Metastore 2 configuré avec une sauvegarde planifiée, procédez comme suit dans l'un des onglets suivants:

Console

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore.

  2. En haut de la page, cliquez sur Sauvegarder.

    La page Sauvegarde s'ouvre et affiche vos sauvegardes planifiées. Notez que les sauvegardes sont en fait stockées dans le bucket Cloud Storage que vous avez fourni dans la configuration de la sauvegarde planifiée.

CLI gcloud

  1. Exécutez la commande gcloud storage ls suivante :

    gcloud storage ls gs://BUCKET_NAME/SERVICE/LOCATION
    

    Remplacez les éléments suivants :

    • BUCKET_NAME: chemin d'accès au bucket Cloud Storage qui stocke la sauvegarde planifiée que vous souhaitez afficher.
    • SERVICE: ID ou identifiant complet de la sauvegarde planifiée.
    • LOCATION: région Google Cloud dans laquelle se trouve votre service Dataproc Metastore.

REST

Suivez les instructions de l'API pour afficher une sauvegarde planifiée à l'aide de l&#APIs Explorer d'API.

Résoudre les problèmes courants

Étape suivante