Pianificazione di un'esportazione

Questa pagina descrive come pianificare le esportazioni dei dati di Firestore in modalità Datastore. Per eseguire le esportazioni in base a una pianificazione, ti consigliamo di utilizzare Cloud Run Functions e Cloud Scheduler. Crea una Cloud Function che avvii le esportazioni e utilizza Cloud Scheduler per eseguirla.

Prima di iniziare

Prima di pianificare le esportazioni di dati, devi completare le seguenti attività:

  1. Abilita la fatturazione per il tuo progetto Google Cloud . Solo Google Cloud i progetti con la fatturazione abilitata possono utilizzare la funzionalità di esportazione e importazione.
  2. Crea un bucket Cloud Storage in una località vicina alla posizione del database in modalità Datastore. Le operazioni di esportazione richiedono un bucket Cloud Storage di destinazione. Non puoi utilizzare un bucket con pagamento a carico del richiedente per le operazioni di esportazione.

Crea una Cloud Function e un job Cloud Scheduler

Segui questi passaggi per creare una Cloud Function che avvii le esportazioni di dati e un job Cloud Scheduler per chiamare la funzione:

Crea una Cloud Function datastore_export

  1. Vai alla pagina Cloud Functions nella console Google Cloud :

    Vai a Cloud Functions

  2. Fai clic su Crea funzione.
  3. Inserisci un nome funzione, ad esempio datastoreExport.
  4. In Trigger, seleziona Cloud Pub/Sub. Cloud Scheduler utilizza l'argomento Pub/Sub per chiamare la funzione.
  5. Nel campo Argomento, seleziona Crea un argomento. Inserisci un nome per l'argomento Pub/Sub, ad esempio startDatastoreExport. Prendi nota del nome dell'argomento, in quanto ti servirà per creare il job Cloud Scheduler.
  6. In Codice sorgente, seleziona Editor incorporato.
  7. Nel menu a discesa Runtime, seleziona Python 3.7.
  8. Inserisci il seguente codice per main.py:
    # Copyright 2021 Google LLC All Rights Reserved.
    #
    # Licensed under the Apache License, Version 2.0 (the "License");
    # you may not use this file except in compliance with the License.
    # You may obtain a copy of the License at
    #
    #     http://www.apache.org/licenses/LICENSE-2.0
    #
    # Unless required by applicable law or agreed to in writing, software
    # distributed under the License is distributed on an "AS IS" BASIS,
    # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    # See the License for the specific language governing permissions and
    # limitations under the License.
    
    import base64
    import json
    import os
    
    from google.cloud import datastore_admin_v1
    
    project_id = os.environ.get("GCP_PROJECT")
    client = datastore_admin_v1.DatastoreAdminClient()
    
    
    def datastore_export(event, context):
        """Triggers a Datastore export from a Cloud Scheduler job.
    
        Args:
            event (dict): event[data] must contain a json object encoded in
                base-64. Cloud Scheduler encodes payloads in base-64 by default.
                Object must include a 'bucket' value and can include 'kinds'
                and 'namespaceIds' values.
            context (google.cloud.functions.Context): The Cloud Functions event
                metadata.
        """
        if "data" in event:
            # Triggered via Cloud Scheduler, decode the inner data field of the json payload.
            json_data = json.loads(base64.b64decode(event["data"]).decode("utf-8"))
        else:
            # Otherwise, for instance if triggered via the Cloud Console on a Cloud Function, the event is the data.
            json_data = event
    
        bucket = json_data["bucket"]
        entity_filter = datastore_admin_v1.EntityFilter()
    
        if "kinds" in json_data:
            entity_filter.kinds = json_data["kinds"]
    
        if "namespaceIds" in json_data:
            entity_filter.namespace_ids = json_data["namespaceIds"]
    
        export_request = datastore_admin_v1.ExportEntitiesRequest(
            project_id=project_id, output_url_prefix=bucket, entity_filter=entity_filter
        )
        operation = client.export_entities(request=export_request)
        response = operation.result()
        print(response)
    
  9. In requirements.txt, aggiungi la seguente dipendenza:
    google-cloud-datastore==2.20.0
    
  10. In Entry point (Punto di ingresso), inserisci datastore_export, il nome della funzione in main.py.
  11. Fai clic su Esegui il deployment per eseguire il deployment della Cloud Function.

Configurare le autorizzazioni di accesso

Successivamente, concedi alla funzione Cloud Function l'autorizzazione per avviare le operazioni di esportazione e scrivere nel bucket Cloud Storage.

Questa funzione Cloud utilizza il account di servizio predefinito del tuo progetto per autenticare e autorizzare le operazioni di esportazione. Quando crei un progetto, viene creato un account di servizio predefinito con il seguente nome:

project_id@appspot.gserviceaccount.com

Questo account di servizio deve disporre dell'autorizzazione per avviare le operazioni di esportazione e per scrivere nel bucket Cloud Storage. Per concedere queste autorizzazioni, assegna i seguenti ruoli IAM al account di servizio predefinito:

  • Cloud Datastore Import Export Admin
  • Ruolo Storage Object User nel bucket

Puoi utilizzare Google Cloud CLI per assegnare questi ruoli. Puoi accedere a questo strumento da Cloud Shell nella console: Google Cloud
Avvia Cloud Shell

  1. Assegna il ruolo Cloud Datastore Import Export Admin. Sostituisci project_id ed esegui questo comando:

    gcloud projects add-iam-policy-binding project_id \
        --member serviceAccount:project_id@appspot.gserviceaccount.com \
        --role roles/datastore.importExportAdmin
  2. Assegna il ruolo Utente oggetti Storage al tuo bucket. Sostituisci bucket_name e project_id ed esegui il seguente comando:

    gcloud storage buckets add-iam-policy-binding gs://bucket_name \
        --member=serviceAccount:project_id@appspot.gserviceaccount.com \
        --role=roles/storage.objectUser

Crea un job Cloud Scheduler

Successivamente, crea un job Cloud Scheduler che chiami la Cloud Function datastore_export:

  1. Vai alla pagina Cloud Scheduler nella console Google Cloud :

    Vai a Cloud Scheduler

  2. Fai clic su Crea job.

  3. Inserisci un Nome per il job, ad esempio scheduledDatastoreExport.

  4. Inserisci una frequenza nel formato cron Unix.

  5. Seleziona un fuso orario.

  6. In Target, seleziona Pub/Sub. Nel campo Argomento, inserisci il nome dell'argomento Pub/Sub che hai definito insieme alla tua Cloud Function, startDatastoreExport nell'esempio precedente.

  7. Nel campo Payload, inserisci un oggetto JSON per configurare l'operazione di esportazione. La Cloud Function datastore_export richiede un valore bucket. Se vuoi, puoi includere i valori kinds o namespaceIDs per impostare un filtro entità, ad esempio:

    Esporta tutte le entità

    {
    "bucket": "gs://bucket_name"
    }
    

    Esportare con il filtro delle entità

    • Esporta le entità del tipo User o Task da tutti gli spazi dei nomi:

      {
      "bucket": "gs://bucket_name",
      "kinds": ["User", "Task"]
      }
      

    • Esporta entità di tipo User o Task dagli spazi dei nomi predefiniti e Testers. Utilizza una stringa vuota ("") per specificare lo spazio dei nomi predefinito:

      {
      "bucket": "gs://bucket_name",
      "kinds": ["User", "Task"],
      "namespaceIds": ["", "Testers"]
      }
      

    • Esporta entità di qualsiasi tipo dagli spazi dei nomi predefiniti e Testers. Utilizza una stringa vuota ("") per specificare lo spazio dei nomi predefinito:

      {
      "bucket": "gs://bucket_name",
      "namespaceIds": ["", "Testers"]
      }
      

    Dove bucket_name è il nome del tuo bucket Cloud Storage.

  8. Fai clic su Crea.

Testare le esportazioni programmate

Per testare la Cloud Function e il job Cloud Scheduler, esegui il job Cloud Scheduler nella pagina Cloud Scheduler della console Google Cloud . Se l'operazione ha esito positivo, viene avviata un'esportazione reale.

  1. Vai alla pagina Cloud Scheduler nella Google Cloud console.
    Vai a Cloud Scheduler

  2. Nella riga del nuovo job Cloud Scheduler, fai clic su Esegui ora.

    Dopo alcuni secondi, fai clic su Aggiorna. Il job Cloud Scheduler dovrebbe aggiornare la colonna dei risultati a Successo e Ultima esecuzione all'ora corrente.

La pagina Cloud Scheduler conferma solo che il job ha inviato un messaggio all'argomento Pub/Sub. Per verificare se la richiesta di esportazione è andata a buon fine, visualizza i log della tua Cloud Functiond.

Visualizza i log di Cloud Function

Per verificare se la Cloud Function ha avviato correttamente un'operazione di esportazione, consulta la pagina Esplora log nella console Google Cloud .

Vai a Esplora log

Il log della Cloud Function segnala errori e avvii di esportazione riusciti.

Visualizzare l'avanzamento dell'esportazione

Puoi utilizzare il comando gcloud datastore operations list per visualizzare l'avanzamento delle operazioni di esportazione. Consulta Elenco di tutte le operazioni a lunga esecuzione.

Al termine di un'operazione di esportazione, puoi visualizzare i file di output nel bucket Cloud Storage. Il servizio di esportazione gestito utilizza un timestamp per organizzare le operazioni di esportazione:

Vai a Cloud Storage