Présentation de l'administration de BigQuery

Ce document présente les tâches d'administration de BigQuery et les fonctionnalités de BigQuery qui vous aideront à les accomplir.

Les administrateurs BigQuery effectuent généralement les types de tâches suivants :

  • Gérer des ressources, telles que des projets, des ensembles de données et des tables.
  • Sécuriser des ressources, afin que l'accès soit limité aux comptes principaux qui en ont besoin.
  • Gérer les charges de travail, telles que les tâches, les requêtes et la capacité de calcul (réservations).
  • Surveiller les ressources, y compris les quotas, les tâches et l'utilisation.
  • Optimiser les charges de travail pour obtenir des performances optimales tout en contrôlant les coûts.
  • Résoudre les problèmes liés aux messages d'erreur, à la facturation et aux quotas.

Ce document présente les fonctionnalités fournies par BigQuery pour vous aider à effectuer ces tâches.

Pour découvrir les fonctionnalités d'administration des données de BigQuery directement dans la console Google Cloud, cliquez sur Visite guidée.

Visite guidée

Outils

BigQuery fournit plusieurs interfaces qui vous permettent d'effectuer des tâches d'administration. En général, une tâche donnée peut être effectuée en utilisant plusieurs outils, ce qui vous permet de choisir celui qui vous convient le mieux. Par exemple, vous pouvez créer une table à l'aide du volet Explorateur de Google Cloud Console, d'une commande bq mk --table ou d'une instruction SQL CREATE TABLE.

  • Console Google Cloud Google Cloud Console comporte plusieurs pages dédiées à l'administration de BigQuery. Pour en savoir plus, consultez la page Utiliser la console Google Cloud.
  • Instructions SQL La page BigQuery de la console Google Cloud dispose d'un éditeur de requête qui vous permet d'effectuer des tâches administratives à l'aide d'instructions LDD et LCD. Pour en savoir plus, consultez les pages Langage de définition de données (LDD) et Langage de contrôle de données (LCD).

    Vous pouvez utiliser des procédures stockées pour automatiser les tâches administratives utilisant des instructions SQL. Pour en savoir plus, consultez la page Utiliser des procédures stockées.

  • Commandes bq L'outil de ligne de commande bq vous permet d'effectuer de nombreuses tâches administratives à l'aide des commandes bq. L'outil de ligne de commande bq permet d'effectuer des tâches non compatibles avec la console Google Cloud ou de créer des prototypes de capacités avant de les encoder dans des requêtes ou des méthodes d'API, ou si vous préférez travailler dans une interface de ligne de commande. Pour en savoir plus, consultez la section Utiliser l'outil de ligne de commande bq.

Gérer les ressources

Les ressources BigQuery incluent les organisations, les dossiers, les projets, les ensembles de données et les tables. Cette section explique comment gérer les ressources de votre organisation.

Pour en savoir plus sur la hiérarchie des ressources BigQuery, consultez la page Organiser les ressources BigQuery. Plus particulièrement, vous pouvez créer une ressource "Organisation" qui vous permet d'effectuer certaines tâches, telles que la définition de contrôles d'accès au niveau de l'organisation.

Gérer les ensembles de données

Les ensembles de données sont des conteneurs pour tables. Vous pouvez créer des tables dans un ensemble de données, puis les gérer en tant que groupe. Par exemple, vous pouvez configurer le délai d'expiration de table par défaut d'un ensemble de données, qui s'applique à toutes les tables de l'ensemble de données, à moins que vous ne remplaciez. Vous pouvez copier un groupe de tables en copiant leur ensemble de données, et en contrôler l'accès au niveau de l'ensemble de données.

Reportez-vous aux documents suivants pour en savoir plus sur l'administration des ensembles de données :

Gérer les tables

Dans BigQuery, les données sont stockées dans des tables, où elles peuvent être interrogées. Vous pouvez créer des tables, charger des données dans des tables provenant de différents types de sources et dans différents formats, partitionner des tables en fonction d'une colonne spécifique ou par date d'ingestion, mettre en cluster des tables, mettre à jour les propriétés des tables et exporter les données de table.

Reportez-vous aux documents suivants pour en savoir plus sur l'administration des tables :

Ressources par libellé

Pour vous aider à organiser vos ressources BigQuery, vous pouvez ajouter des étiquettes à vos ensembles de données, tables et vues. Les étiquettes sont des paires clé/valeur que vous pouvez associer à une ressource. Une fois vos ressources étiquetées, vous pouvez les rechercher grâce aux valeurs associées aux étiquettes. Vous pouvez par exemple utiliser des libellés pour regrouper des ensembles de données par service en ajoutant des libellés tels que dept:sales, dept:marketing ou dept:analytics. Vous pouvez ensuite répartir les frais facturés par service à l'aide des libellés.

Pour en savoir plus, consultez la section Présentation des libellés.

Obtenir des informations sur les ressources

Vous pouvez obtenir des informations sur vos ressources BigQuery en interrogeant les vues INFORMATION_SCHEMA. BigQuery fournit des vues pour chaque type de ressource. Par exemple, la vue INFORMATION_SCHEMA.TABLES contient des informations sur vos tables.

Voici quelques exemples d'informations que vous pouvez obtenir en interrogeant les vues INFORMATION_SCHEMA :

  • Afficher la date de création d'une table.
  • Obtenir les noms et les types de données de chaque colonne d'une table.
  • Rechercher toutes les tâches en cours d'exécution dans un projet.
  • Obtenir la liste des instantanés de table créés à partir d'une table de base.
  • Pour un ensemble de données, une table, une vue ou une routine, obtenir l'instruction LDD qui peut être utilisée pour créer la ressource.
  • Obtenir les options utilisées pour créer une table (par exemple, expiration de la table).
  • Rechercher les colonnes de partitionnement et de clustering d'une table.
  • Obtenir la réservation attribuée à un projet et sa capacité d'emplacements.

Pour en savoir plus, consultez la page Présentation de BigQuery INFORMATION_SCHEMA.

Copier les données

Vous pouvez vouloir créer des copies de vos données pour des raisons diverses, telles que la protection contre les erreurs humaines, ou pour conserver les données à des fins de comparaison à l'avenir. BigQuery propose plusieurs options pour copier les données d'une table à un moment précis.

  • Fonctionnalité temporelle Vous devrez peut-être accéder à l'état d'une table tel qu'il était au cours de la semaine précédente. Par exemple, si les données sont corrompues en raison d'une erreur humaine. BigQuery conserve les données de l'historique de vos tables pendant sept jours. Vous pouvez accéder aux données récentes de l'historique d'une table à l'aide de la fonctionnalité temporelle.

    Pour en savoir plus, consultez la page Accéder aux données de l'historique en utilisant les fonctionnalités temporelles.

  • Instantanés de table Si vous souhaitez pouvoir accéder à l'état d'une table il y a plus d'une semaine, pensez à créer régulièrement des instantanés de table. Les instantanés de table sont des copies légères, en lecture seule, qui vous permettent de conserver indéfiniment l'état de vos tables. Grâce aux instantanés de table, par exemple, vous pouvez comparer les données actuelles d'une table aux données du début de l'année, ce qui n'est pas possible avec les fonctionnalités temporelles. Le stockage des données qui diffèrent entre la table de base et son instantané vous est facturé uniquement.

    Pour en savoir plus, consultez la page Présentation des instantanés de table.

  • Clones de tables. Si vous souhaitez créer une copie légère et modifiable d'une table, vous pouvez utiliser des clones de table. Vous ne payez que pour le stockage des données qui diffèrent entre une table de base et son clone de table. Par exemple, vous pouvez créer des clones de table dans un environnement de test pour tester des copies de données de production sans affecter les données de production et sans avoir à payer le stockage de copies complètes des tables.

    Pour en savoir plus, consultez la page Présentation des clones de table.

Suivre la traçabilité des données

La traçabilité des données est une fonctionnalité Dataplex qui vous permet de suivre la manière dont les données transitent par vos systèmes : leur origine, la cible de transmission, et les transformations qui leur sont appliquées. Pour plus d'informations sur la manière dont la traçabilité des données peut vous aider à suivre les mouvements de données dans votre projet, consultez la section À propos de la traçabilité des données dans Dataplex.

Ressources sécurisées

La sécurité de BigQuery est basée sur Google Cloud Identity and Access Management. BigQuery vous permet de contrôler l'accès à vos ressources à plusieurs niveaux, y compris l'accès à l'organisation, aux dossiers, aux projets, aux ensembles de données, aux tables, aux colonnes de table et aux lignes de table.

Pour en savoir plus sur le contrôle de l'accès à vos ressources BigQuery, consultez la section Présentation de la sécurité et de la gouvernance des données.

Gérer les charges de travail

BigQuery effectue de nombreuses tâches pour le compte de vos utilisateurs, y compris l'ingestion, l'interrogation et l'exportation de données. Chaque tâche est effectuée par une tâche BigQuery. Cette section explique comment surveiller et gérer les tâches de votre organisation.

Gérer les jobs

Les tâches sont des actions que BigQuery exécute au nom d'un utilisateur pour charger, exporter, interroger ou copier des données. Lorsqu'un utilisateur lance l'une de ces tâches à l'aide de la console Google Cloud, de l'outil de ligne de commande bq, d'une instruction SQL ou d'un appel d'API, BigQuery crée automatiquement un job pour exécuter la tâche.

En tant qu'administrateur BigQuery, vous pouvez surveiller, gérer et résoudre les problèmes liés aux tâches de votre organisation afin de vous assurer qu'elles fonctionnent correctement.

Pour en savoir plus, consultez la page Présentation des tâches.

Gérer les réservations

Lorsque BigQuery exécute des requêtes, il utilise des unités de calcul appelées emplacements. BigQuery calcule le nombre d'emplacements nécessaires pour exécuter chaque requête, en fonction de la taille et de la complexité de cette requête.

BigQuery propose deux modèles de tarification pour la facturation des emplacements qui exécutent vos requêtes :

  • Facturation à la demande Vos requêtes utilisent un pool d'emplacements partagé. Le nombre d'octets traités par vos requêtes est donc facturé.
  • Facturation basée sur la capacité. Vous attribuez une réservation ou un engagement de capacité à une édition, chacun disposant de son propre ensemble de fonctionnalités et de son prix pour vous fournir l'environnement de travail qui vous convient le mieux.

Ces modèles de tarification s'appliquent par projet. Vous pouvez donc avoir des projets qui utilisent la facturation à la demande et d'autres qui utilisent la facturation basée sur la capacité.

Avec la facturation à la demande, une fois que votre allocation mensuelle d'utilisation gratuite est consommée, vous êtes facturé pour le nombre d'octets traités par chaque requête. Le débit est limité à un quota d'emplacements prédéfini, qui est partagé entre les requêtes exécutées dans un projet.

Avec la facturation des éditions BigQuery, vous allouez des emplacements à votre organisation via des réservations d'autoscaling et des engagements de capacité facultatifs mais plus économiques. Les emplacements de chaque édition sont proposés à leur propre prix et offrent leur propre ensemble de fonctionnalités. Pour en savoir plus sur les éditions BigQuery et les fonctionnalités qui leur sont associées, consultez la page Présentation des éditions BigQuery.

Reportez-vous aux documents suivants pour en savoir plus sur la gestion de la capacité de calcul pour le traitement de vos requêtes :

Surveiller les ressources

Google Cloud offre la possibilité de surveiller et d'auditer vos ressources, y compris les ressources BigQuery. Cette section décrit les fonctionnalités de surveillance et d'audit de Google Cloud qui s'appliquent à BigQuery.

Pour en savoir plus, consultez la page Présentation de la surveillance BigQuery.

Tableau de bord Cloud Monitoring

Cloud Monitoring fournit un tableau de bord de surveillance BigQuery. Ce tableau de bord vous permet d'afficher des informations sur les incidents, les ensembles de données, les tables, les projets, le temps d'interrogation et l'utilisation des emplacements BigQuery.

Pour en savoir plus, consultez la page Afficher le tableau de bord Monitoring.

Graphiques d'administration et alertes

Vous pouvez utiliser Cloud Monitoring pour créer des graphiques personnalisés basés sur les ressources, les métriques et l'agrégation que vous spécifiez.

Pour en savoir plus, consultez la page Utiliser des tableaux de bord et des graphiques.

Vous pouvez également créer des règles d'alerte qui vous informent si l'alerte configurée est déclenchée. Par exemple, vous pouvez créer une alerte qui envoie un e-mail à une adresse e-mail spécifiée si le temps d'exécution d'une requête dépasse une limite spécifiée.

Pour en savoir plus, consultez la page Créer une alerte.

Surveiller les réservations

Vous pouvez surveiller votre utilisation des emplacements en consultant la page Gestion de la capacité de la console Google Cloud. Vous pouvez afficher vos engagements de capacité et voir où vos réservations d'emplacements ont été attribuées. Vous pouvez également utiliser l'estimateur d'emplacement (bêta) pour vous aider à estimer les besoins en capacité de votre organisation en fonction des métriques de performances historiques.

Pour en savoir plus, consultez la page Surveiller les réservations BigQuery.

Quotas

Google Cloud définit des limites sur l'utilisation des ressources, y compris les ressources BigQuery, à la fois pour garantir une utilisation équitable des ressources partagées et pour vous protéger des coûts imprévus. Vous pouvez afficher votre utilisation des ressources BigQuery dotées de quotas et demander un quota plus élevé si nécessaire, à l'aide de la console Google Cloud.

Pour en savoir plus, consultez la page Quotas et limites de BigQuery.

Journaux d'audit

Les journaux d'audit Cloud conservent un enregistrement des événements Google Cloud, y compris des événements BigQuery. Vous pouvez utiliser l'explorateur de journaux pour interroger les journaux sur les événements liés aux tâches, aux ensembles de données, aux transferts BigQuery, etc. Le tableau de bord des journaux affiche des informations sur les erreurs récentes. Vous pouvez utiliser des métriques basées sur les journaux pour compter les entrées de journal correspondant à un filtre donné.

Pour en savoir plus, consultez la documentation Google Cloud Logging.

Optimiser les charges de travail

Vous pouvez optimiser votre configuration BigQuery pour contrôler à la fois les coûts de stockage et de traitement des requêtes.

Conseils en fiabilité

Ce document fournit des informations sur la fiabilité de BigQuery, y compris sur la disponibilité, la durabilité, la cohérence des données, la cohérence des performances et la récupération des données dans BigQuery, ainsi que ainsi qu'un examen des considérations relatives à la gestion des exceptions. Pour en savoir plus sur la fiabilité et la planification des sinistres, consultez la page Comprendre la fiabilité.

Résoudre les problèmes

Outre les fonctionnalités décrites dans ce document pour surveiller et gérer le système BigQuery de votre organisation, les ressources suivantes sont disponibles pour résoudre les problèmes pouvant survenir :

Si vous avez besoin d'une aide supplémentaire, consultez la page Assistance.

Étapes suivantes