Préparer des données avec Gemini
Ce document explique comment générer et gérer des suggestions de code SQL pour la préparation de vos données dans BigQuery.
Pour en savoir plus, consultez Présentation de la préparation des données BigQuery.
Avant de commencer
Ouvrir l'éditeur de préparation des données dans BigQuery
Vous pouvez ouvrir l'éditeur de préparation des données dans BigQuery en créant une préparation des données, en en créant une à partir d'une table existante ou en ouvrant une préparation des données existante. Pour en savoir plus sur ce qui se passe lorsque vous créez une préparation des données, consultez Points d'entrée de la préparation des données.
Sur la page BigQuery, vous pouvez accéder à l'éditeur de préparation des données de différentes manières :
Créer
Pour créer une préparation de données dans BigQuery, procédez comme suit :
- Dans la console Google Cloud , accédez à la page BigQuery.
Accéder à BigQuery - Accédez à la liste Créer, puis cliquez sur Préparation des données. L'éditeur de préparation des données s'affiche dans un nouvel onglet de préparation des données sans titre.
- Dans la barre de recherche de l'éditeur, saisissez le nom de votre tableau ou des mots clés, puis sélectionnez un tableau. L'éditeur de préparation des données pour le tableau s'ouvre. Il affiche un aperçu de vos données dans l'onglet Données, ainsi qu'un ensemble initial de suggestions de préparation des données de Gemini.
Une ressource de préparation des données s'affiche dans le volet Explorateur, où vous pourrez accéder à cette préparation à l'avenir. - Facultatif : Pour simplifier votre vue, activez le mode plein écran en cliquant sur Plein écran Plein écran.
Créer à partir d'un tableau
Pour créer une préparation des données à partir d'une table existante, procédez comme suit :
- Dans la console Google Cloud , accédez à la page BigQuery.
Accéder à BigQuery - Dans le volet Explorateur, pointez sur une table.
- Cliquez sur more_vert
Menu > Requête dans > Préparation des données. L'éditeur de préparation des données pour le tableau s'ouvre, affichant un aperçu de vos données dans l'onglet Données, ainsi qu'un ensemble initial de suggestions de préparation des données de Gemini.
Une ressource de préparation des données s'affiche dans le volet Explorateur, où vous pourrez accéder à cette préparation à l'avenir. - Facultatif : Pour simplifier votre vue, activez le mode plein écran en cliquant sur Plein écran Plein écran.
Ouvrir un projet existant
Pour ouvrir l'éditeur d'une préparation de données existante, procédez comme suit :
- Dans la console Google Cloud , accédez à la page BigQuery.
Accéder à BigQuery - Dans le volet Explorateur, cliquez sur le nom de votre projet, puis sur Préparations des données.
- Sélectionnez la préparation des données existante. La vue graphique du pipeline de préparation des données s'affiche.
- Sélectionnez l'un des nœuds du graphique. L'éditeur de préparation des données du tableau s'ouvre, affichant un aperçu de vos données dans l'onglet Données et un ensemble initial de suggestions de préparation des données de Gemini.
- Facultatif : Pour simplifier votre vue, activez le mode plein écran en cliquant sur Plein écran Plein écran.
Ajouter des étapes de préparation des données
Vous préparez les données par étapes. Vous pouvez prévisualiser ou appliquer les étapes suggérées par Gemini. Vous pouvez également améliorer les suggestions ou appliquer vos propres étapes.
Appliquer et améliorer les suggestions de Gemini
Lorsque vous ouvrez l'éditeur de préparation des données pour votre tableau, Gemini inspecte les données et le schéma du tableau que vous avez chargé, puis génère des suggestions de filtres et de transformations. Les suggestions s'affichent sur des fiches dans la liste Étapes.
L'image suivante montre où vous pouvez appliquer et améliorer les étapes suggérées par Gemini :
Pour appliquer une suggestion de Gemini en tant qu'étape de préparation des données, procédez comme suit :
- Dans la vue Données, cliquez sur un nom de colonne ou sur une cellule spécifique. Gemini génère des suggestions pour filtrer et transformer les données.
Facultatif : Pour améliorer les suggestions, modifiez les valeurs d'une à trois cellules du tableau afin de montrer à quoi devraient ressembler les valeurs d'une colonne. Par exemple, saisissez une date au format souhaité pour toutes les dates. Gemini génère de nouvelles suggestions en fonction de vos modifications.
L'image suivante montre comment modifier les valeurs pour améliorer les étapes suggérées par Gemini :
Sélectionnez une carte de suggestion.
- Facultatif : Pour prévisualiser le résultat de la fiche de suggestion, cliquez sur Aperçu.
- Facultatif : Pour modifier la fiche de suggestion en langage naturel, cliquez sur Modifier.
Cliquez sur Appliquer.
Ajouter des étapes avec des expressions en langage naturel ou SQL
Si les suggestions existantes ne répondent pas à vos besoins, ajoutez une étape. Choisissez des colonnes ou un type d'étape, puis décrivez ce que vous souhaitez en langage naturel.
Ajouter une transformation
- Dans la vue des données ou du schéma, sélectionnez l'option Transformer. Vous pouvez également choisir des colonnes ou ajouter des exemples pour aider Gemini à comprendre la transformation de vos données.
- Dans le champ Description, saisissez une requête, par exemple
Convert the state column to uppercase
. Cliquez sur Envoyer Envoyer.
Gemini génère une expression SQL et une nouvelle description en fonction de votre requête.
Dans la liste Colonne cible, sélectionnez ou saisissez le nom d'une colonne.
Facultatif : Pour mettre à jour l'expression SQL, modifiez la requête et cliquez sur Envoyer Envoyer, ou saisissez manuellement une expression SQL.
Facultatif : Cliquez sur Aperçu et vérifiez l'étape.
Cliquez sur Appliquer.
Aplatir les colonnes JSON
Vous pouvez simplifier les données JSON d'une source lors de la préparation des données. Ce processus, appelé "aplatissement", extrait toutes les paires clé/valeur des colonnes JSON en une seule fois et les transforme en colonnes distinctes dans votre tableau. Cela peut être utile lorsque vous devez faciliter l'analyse de structures JSON complexes ou les combiner avec d'autres données.
Gemini pour BigQuery suggère des opérations qui extraient des champs uniquement à partir du niveau supérieur du fichier JSON. Si ces champs extraits contiennent d'autres objets JSON, vous pouvez les aplatir lors d'étapes supplémentaires pour accéder à leur contenu.
- Dans la vue de données d'une table source JSON, sélectionnez une colonne ou des cellules.
- Cliquez sur Flatten pour générer des suggestions.
- Facultatif : Pour mettre à jour l'expression SQL, vous pouvez la saisir manuellement.
- Facultatif : Cliquez sur Aperçu et vérifiez l'étape.
- Cliquez sur Appliquer.
L'aplatissement présente les comportements suivants :
- L'option Flatten s'affiche dans la vue Données après que vous avez sélectionné des cellules ou des colonnes contenant du code JSON. Il ne s'affiche pas par défaut lorsque vous cliquez sur Ajouter une étape.
- Si une clé JSON n'est pas présente dans les lignes sélectionnées, la suggestion générée ne contient pas cette clé. Ce problème peut entraîner l'omission de certaines colonnes lors de l'aplatissement des données.
- Si des noms de colonnes entrent en conflit lors de l'aplatissement, les noms de colonnes répétés se terminent par le format suivant :
_<i>
. Par exemple, s'il existe déjà une colonne nomméeaddress
, la nouvelle colonne aplatie est nomméeaddress_1
. - Les noms de colonnes aplatis suivent les conventions de dénomination des colonnes de BigQuery.
- Si vous laissez le champ de clé JSON vide, le format de nom de colonne par défaut est
f<i>_
.
Filtrer les lignes
Pour ajouter un filtre qui supprime des lignes, procédez comme suit :
- Dans la vue des données ou du schéma, sélectionnez l'option Filtrer. Vous pouvez également choisir des colonnes pour aider Gemini à comprendre votre filtre de données.
- Dans le champ Description, saisissez une requête, par exemple
Column ID should not be NULL
. - Cliquez sur Générer. Gemini génère une expression SQL et une nouvelle description en fonction de votre requête.
- Facultatif : Pour mettre à jour l'expression SQL, modifiez la requête et cliquez sur Envoyer Envoyer, ou saisissez manuellement une expression SQL.
- Facultatif : Cliquez sur Aperçu et vérifiez l'étape.
- Cliquez sur Appliquer.
Format de l'expression de filtre
Les expressions SQL pour les filtres conservent les lignes qui correspondent à la condition spécifiée. Cela équivaut à une instruction SELECT … WHERE SQL_EXPRESSION
.
Par exemple, pour conserver les enregistrements où la colonne year
est supérieure ou égale à 2000
, la condition est year >= 2000
.
Les expressions doivent respecter la syntaxe SQL BigQuery pour la clause WHERE
.
Configurer la table d'erreurs et ajouter une règle de validation
Vous pouvez ajouter un filtre qui crée une règle de validation, laquelle envoie les erreurs à une table d'erreurs ou fait échouer l'exécution de la préparation des données.
Configurer la table d'erreurs
Pour configurer votre tableau d'erreurs, procédez comme suit :
- Dans l'éditeur de préparation des données, accédez à la barre d'outils, puis cliquez sur Plus > Table des erreurs.
- Cliquez sur Activer le tableau des erreurs.
- Définissez l'emplacement de la table.
- Facultatif : Définissez une durée maximale de conservation des erreurs.
- Cliquez sur Enregistrer.
Ajouter une règle de validation
Pour ajouter une règle de validation :
- Dans la vue des données ou du schéma, cliquez sur l'option Filtrer. Vous pouvez également choisir des colonnes pour aider Gemini à comprendre votre filtre de données.
- Saisissez une description pour l'étape.
- Saisissez une expression SQL sous la forme d'une clause
WHERE
. - Facultatif : Si vous souhaitez que l'expression SQL agisse comme une règle de validation, cochez la case Les lignes de validation ayant échoué sont envoyées vers la table d'erreurs. Vous pouvez également transformer un filtre en validation dans la barre d'outils de préparation des données en cliquant sur Plus > Tableau des erreurs.
- Facultatif : Cliquez sur Aperçu et vérifiez l'étape.
- Cliquez sur Appliquer.
Supprimer une colonne
Pour supprimer une ou plusieurs colonnes d'une préparation de données, procédez comme suit :
- Dans la vue des données ou du schéma, sélectionnez les colonnes que vous souhaitez supprimer.
- Cliquez sur Abandonner. Une nouvelle étape appliquée est ajoutée pour les colonnes supprimées.
Ajouter une opération de jointure avec Gemini
Pour ajouter une étape d'opération de jointure entre deux sources dans la préparation de vos données, procédez comme suit :
- Dans la vue Données d'un nœud de préparation des données, accédez à la liste Suggestions, puis cliquez sur l'option Joindre.
- Dans la boîte de dialogue Ajouter une jointure, cliquez sur Parcourir, puis sélectionnez l'autre table impliquée dans l'opération de jointure (appelée "côté droit de la jointure").
- Facultatif : Sélectionnez le type d'opération de jointure que vous souhaitez effectuer, par exemple Jointure interne.
Consultez les informations sur la clé de jointure générées par Gemini dans les champs suivants :
- Description de la jointure : description en langage naturel de l'expression SQL pour l'opération de jointure. Lorsque vous modifiez cette description et que vous cliquez sur Envoyer Envoyer, Gemini suggère de nouvelles conditions de jointure SQL.
Conditions de jointure : expressions SQL dans la clause
ON
pour l'opération de jointure. Vous pouvez utiliser les qualificateursL
etR
pour faire référence aux tables sources de gauche et de droite, respectivement. Par exemple, pour joindre la colonnecustomer_id
de la table de gauche à la colonnecustomer_id
de la table de droite, saisissezL.customerId = R.customerId
. Ces qualificatifs ne sont pas sensibles à la casse.
Facultatif : Pour affiner les suggestions de Gemini, modifiez le champ Description de l'adhésion, puis cliquez sur Envoyer Envoyer.
Facultatif : Pour prévisualiser les paramètres de l'opération de jointure de votre préparation des données, cliquez sur Aperçu.
Cliquez sur Appliquer.
L'étape de l'opération de jointure est créée. La table source que vous avez sélectionnée (à droite de la jointure) et l'opération de jointure sont reflétées dans la liste des étapes appliquées et dans les nœuds de la vue graphique de la préparation des données.
Ajouter ou modifier une table de destination
Pour ajouter ou modifier une table de destination pour les résultats de la préparation de vos données, procédez comme suit :
- Dans la vue des données ou du schéma, sélectionnez l'option Destination.
- Sélectionnez le projet dans lequel la table de destination est stockée.
- Sélectionnez l'un des ensembles de données ou chargez-en un nouveau.
- Saisissez une table de destination. Si la table n'existe pas, la préparation des données en crée une lors de la première exécution. Pour en savoir plus, consultez Mode Écriture.
- Sélectionnez votre ensemble de données comme ensemble de données de destination.
- Cliquez sur Enregistrer.
Afficher l'échantillon de données et le schéma d'une étape appliquée
Pour afficher des exemples et des détails de schéma à une étape spécifique de la préparation des données, procédez comme suit :
- Dans l'éditeur de préparation des données, accédez à la liste Étapes, puis cliquez sur Étapes appliquées.
- Sélectionnez une étape. Les onglets Données et Schéma s'affichent, présentant l'échantillon de données et le schéma à cette étape précise.
Modifier une étape appliquée
Pour modifier une étape appliquée :
- Dans l'éditeur de préparation des données, accédez à la liste Étapes, puis cliquez sur Étapes appliquées.
- Sélectionnez une étape.
- À côté de l'étape, cliquez sur more_vert Menu > Modifier.
- Dans la boîte de dialogue Modifier l'étape appliquée, vous pouvez effectuer les opérations suivantes :
- Modifiez la description de l'étape.
- Obtenez des suggestions de Gemini en modifiant la description et en cliquant sur Envoyer Envoyer.
- Modifiez l'expression SQL.
- Dans le champ Colonne cible, sélectionnez une colonne.
- Facultatif : Cliquez sur Aperçu et vérifiez l'étape.
- Cliquez sur Appliquer.
Supprimer une étape appliquée
Pour supprimer une étape appliquée :
- Dans l'éditeur de préparation des données, accédez à la liste Étapes, puis cliquez sur Étapes appliquées.
- Sélectionnez une étape.
- Cliquez sur more_vert Menu > Supprimer.
Exécuter la préparation des données
Une fois que vous avez ajouté vos étapes de préparation des données, configuré la destination et corrigé les éventuelles erreurs de validation, vous pouvez effectuer des tests sur un échantillon de données, ou déployer les étapes et planifier les exécutions de préparation des données. Pour en savoir plus, consultez Planifier des préparations de données.
Actualiser les exemples de préparation des données
Les données de l'échantillon ne sont pas actualisées automatiquement. Si les données des tables sources pour la préparation des données ont changé, mais que les modifications ne sont pas reflétées dans l'échantillon de données de la préparation, cliquez sur Plus > Actualiser l'échantillon.
Étapes suivantes
- Découvrez comment planifier des préparations de données.
- Découvrez comment gérer les préparations de données.
- Découvrez les quotas et limites de Gemini dans BigQuery.
- Consultez les tarifs de Gemini dans BigQuery.