Préparer des données avec Gemini

Ce document explique comment générer et gérer des suggestions de code SQL pour la préparation de vos données dans BigQuery.

Pour en savoir plus, consultez Présentation de la préparation des données BigQuery.

Avant de commencer

Ouvrir l'éditeur de préparation des données dans BigQuery

Vous pouvez ouvrir l'éditeur de préparation des données dans BigQuery en créant une préparation des données, en en créant une à partir d'une table ou d'un fichier Cloud Storage existants, ou en ouvrant une préparation des données existante. Pour en savoir plus sur ce qui se passe lorsque vous créez une préparation des données, consultez Points d'entrée de la préparation des données.

Sur la page BigQuery, vous pouvez accéder à l'éditeur de préparation des données de différentes manières :

Créer

Pour créer une préparation de données dans BigQuery, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page BigQuery.
    Accéder à BigQuery
  2. Accédez à la liste Créer, puis cliquez sur Préparation des données. L'éditeur de préparation des données s'affiche dans un nouvel onglet de préparation des données sans titre.
  3. Dans la barre de recherche de l'éditeur, saisissez le nom de votre tableau ou des mots clés, puis sélectionnez un tableau. L'éditeur de préparation des données pour le tableau s'ouvre. Il affiche un aperçu de vos données dans l'onglet Données, ainsi qu'un ensemble initial de suggestions de préparation des données de Gemini.
  4. Facultatif : Pour simplifier votre affichage, activez le mode plein écran en cliquant sur Plein écran Plein écran.
  5. Facultatif : Pour afficher les détails de la préparation des données ou l'historique des versions, ajouter des commentaires ou répondre à des commentaires existants, utilisez la barre d'outils (Aperçu).
  6. Explorez la barre d'outils de préparation des données.

Créer à partir d'un tableau

Pour créer une préparation des données à partir d'une table existante, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page BigQuery.
    Accéder à BigQuery
  2. Dans le volet Explorateur, pointez sur une table.
  3. Cliquez sur more_vert Menu > Requête dans > Préparation des données. L'éditeur de préparation des données pour le tableau s'ouvre, affichant un aperçu de vos données dans l'onglet Données et un ensemble initial de suggestions de préparation des données de Gemini.
  4. Facultatif : Pour simplifier votre affichage, activez le mode plein écran en cliquant sur Plein écran Plein écran.
  5. Facultatif : Pour afficher les détails de la préparation des données ou l'historique des versions, ajouter des commentaires ou répondre à des commentaires existants, utilisez la barre d'outils (Aperçu).
  6. Explorez la barre d'outils de préparation des données.

Créer à partir d'un fichier Cloud Storage

Pour créer une préparation de données à partir d'un fichier dans Cloud Storage, procédez comme suit :

Charger le fichier

  1. Dans la console Google Cloud , accédez à la page BigQuery.
    Accéder à BigQuery
  2. Dans la liste Créer, cliquez sur Préparation des données. L'éditeur de préparation des données s'affiche dans un nouvel onglet de préparation des données sans titre.
  3. Dans la liste des sources de données, cliquez sur Google Cloud Storage. La boîte de dialogue Préparer les données s'ouvre.
  4. Dans la section Source, sélectionnez le fichier à partir d'un bucket Cloud Storage ou saisissez le chemin d'accès à votre source. Par exemple, saisissez le chemin d'accès à votre fichier CSV : STORAGE_BUCKET_NAME/FILE_NAME.csv. Les recherches avec des caractères génériques, telles que *.csv, sont acceptées.

    Le format du fichier est détecté automatiquement. Les formats compatibles sont Avro, CSV, JSONL, ORC et Parquet. Les autres types de fichiers compatibles, tels que DAT, TSV et TXT, sont lus au format CSV.
  5. Définissez la table intermédiaire externe dans laquelle vous importerez les fichiers. Dans la section Table intermédiaire, saisissez les noms du projet, de l'ensemble de données et de la table pour la nouvelle table.
  6. Dans la section Schéma, vérifiez le schéma. Gemini vérifie les noms de colonnes de votre fichier. Si elle n'en trouve pas, elle fournit des suggestions.

     Par défaut, votre fichier de préparation des données charge les données sous forme de chaînes. Vous pouvez définir des types de données plus spécifiques lorsque vous préparez les données du fichier.
  7. Facultatif : Dans Options avancées, vous pouvez ajouter des informations, comme le nombre d'erreurs autorisées avant l'échec de la tâche. Gemini propose des options supplémentaires en fonction du contenu de votre fichier.
  8. Cliquez sur Créer. L'éditeur de préparation des données pour le fichier s'ouvre, affichant un aperçu de vos données dans l'onglet Données et un ensemble initial de suggestions de préparation des données de Gemini.
  9. Facultatif : Pour simplifier votre affichage, activez le mode plein écran en cliquant sur Plein écran Plein écran.
  10. Facultatif : Pour afficher les détails de la préparation des données ou l'historique des versions, ajouter des commentaires ou répondre à des commentaires existants, utilisez la barre d'outils (Aperçu).
  11. Explorez la barre d'outils de préparation des données.

Préparer le fichier

Dans la vue Données, préparez les données Cloud Storage intermédiaires que vous avez chargées en procédant comme suit :

  1. Facultatif : Définissez des types de données plus précis pour les colonnes concernées en parcourant la liste des suggestions de transformation ou en sélectionnant une colonne et en générant des suggestions pour celle-ci.
  2. Facultatif : définissez des règles de validation. Pour en savoir plus, consultez Configurer la table des erreurs et ajouter une règle de validation.
  3. Ajoutez une table de destination.
  4. Pour charger les données Cloud Storage dans la table de destination, exécutez la préparation des données.
  5. Facultatif : Planifiez l'exécution de la préparation des données.
  6. Facultatif : Optimisez la préparation des données en les traitant de manière incrémentielle.

Ouvrir un projet existant

Pour ouvrir l'éditeur d'une préparation de données existante, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page BigQuery.
    Accéder à BigQuery
  2. Dans le volet Explorateur, cliquez sur le nom de votre projet, puis sur Préparations des données.
  3. Sélectionnez la préparation des données existante. La vue graphique du pipeline de préparation des données s'affiche.
  4. Sélectionnez l'un des nœuds du graphique. L'éditeur de préparation des données du tableau s'ouvre, affichant un aperçu de vos données dans l'onglet Données et un ensemble initial de suggestions de préparation des données de Gemini.
  5. Facultatif : Pour simplifier votre affichage, activez le mode plein écran en cliquant sur Plein écran Plein écran.
  6. Facultatif : Pour afficher les détails de la préparation des données ou l'historique des versions, ajouter des commentaires ou répondre à des commentaires existants, utilisez la barre d'outils (Aperçu).
  7. Explorez la barre d'outils de préparation des données.

Ajouter des étapes de préparation des données

Vous préparez les données par étapes. Vous pouvez prévisualiser ou appliquer les étapes suggérées par Gemini. Vous pouvez également améliorer les suggestions ou appliquer vos propres étapes.

Appliquer et améliorer les suggestions de Gemini

Lorsque vous ouvrez l'éditeur de préparation des données pour votre tableau, Gemini inspecte les données et le schéma du tableau que vous avez chargé, puis génère des suggestions de filtres et de transformations. Les suggestions s'affichent sur des fiches dans la liste Étapes.

L'image suivante montre où vous pouvez appliquer et améliorer les étapes suggérées par Gemini :

Vue des données dans l'éditeur de préparation des données, avec des options permettant de prévisualiser, de modifier ou d'appliquer les suggestions de Gemini.

Pour appliquer une suggestion de Gemini en tant qu'étape de préparation des données, procédez comme suit :

  1. Dans la vue Données, cliquez sur un nom de colonne ou sur une cellule spécifique. Gemini génère des suggestions pour filtrer et transformer les données.
  2. Facultatif : Pour améliorer les suggestions, modifiez les valeurs d'une à trois cellules du tableau afin de montrer à quoi devraient ressembler les valeurs d'une colonne. Par exemple, saisissez une date de la manière dont vous souhaitez formater toutes les dates. Gemini génère de nouvelles suggestions en fonction de vos modifications.

    L'image suivante montre comment modifier les valeurs pour améliorer les étapes suggérées par Gemini :

    Améliorez les suggestions en modifiant les valeurs dans les cellules pour montrer à quoi devraient ressembler les valeurs de la colonne.

  3. Sélectionnez une carte de suggestion.

    1. Facultatif : Pour prévisualiser le résultat de la fiche de suggestion, cliquez sur Aperçu.
    2. Facultatif : Pour modifier la fiche de suggestion en langage naturel, cliquez sur Modifier.
  4. Cliquez sur Appliquer.

Ajouter des étapes avec des expressions en langage naturel ou SQL

Si les suggestions existantes ne répondent pas à vos besoins, ajoutez une étape. Choisissez des colonnes ou un type d'étape, puis décrivez ce que vous souhaitez en langage naturel.

Ajouter une transformation

  1. Dans la vue des données ou du schéma, sélectionnez l'option Transformer. Vous pouvez également choisir des colonnes ou ajouter des exemples pour aider Gemini à comprendre la transformation de vos données.
  2. Dans le champ Description, saisissez un prompt, tel que Convert the state column to uppercase.
  3. Cliquez sur Envoyer Envoyer.

    Gemini génère une expression SQL et une nouvelle description en fonction de votre requête.

  4. Dans la liste Colonne cible, sélectionnez ou saisissez le nom d'une colonne.

  5. Facultatif : Pour mettre à jour l'expression SQL, modifiez la requête, puis cliquez sur Envoyer Envoyer ou saisissez manuellement une expression SQL.

  6. Facultatif : Cliquez sur Aperçu et vérifiez l'étape.

  7. Cliquez sur Appliquer.

Aplatir les colonnes JSON

Pour faciliter l'accès aux paires clé/valeur et leur analyse, aplatissez les colonnes JSON. Par exemple, si vous avez une colonne JSON nommée user_properties qui contient les clés country et device_type, l'aplatissement de cette colonne extrait country et device_type dans leurs propres colonnes de niveau supérieur afin que vous puissiez les utiliser directement dans votre analyse.

Gemini pour BigQuery suggère des opérations qui extraient des champs uniquement à partir du niveau supérieur du fichier JSON. Si ces champs extraits contiennent d'autres objets JSON, vous pouvez les aplatir lors d'étapes supplémentaires pour accéder à leur contenu.

  1. Dans la vue de données d'une table source JSON, sélectionnez une colonne ou des cellules.
  2. Cliquez sur Aplatir pour générer des suggestions.
  3. Facultatif : Pour mettre à jour l'expression SQL, vous pouvez saisir manuellement une expression SQL.
  4. Facultatif : Cliquez sur Aperçu et vérifiez l'étape.
  5. Cliquez sur Appliquer.

L'aplatissement présente les comportements suivants :

  • L'option Aplatir s'affiche dans la vue Données après que vous avez sélectionné des cellules ou des colonnes contenant du code JSON. Il ne s'affiche pas par défaut lorsque vous cliquez sur Ajouter une étape.
  • Si une clé JSON n'est pas présente dans les lignes sélectionnées, la suggestion générée ne contient pas cette clé. Ce problème peut entraîner l'omission de certaines colonnes lors de l'aplatissement des données.
  • Si des noms de colonnes entrent en conflit lors de l'aplatissement, les noms de colonnes répétés se terminent par le format suivant : _<i>. Par exemple, s'il existe déjà une colonne nommée address, la nouvelle colonne aplatie est nommée address_1.
  • Les noms de colonnes aplatis suivent les conventions de dénomination des colonnes de BigQuery.
  • Si vous laissez le champ de clé JSON vide, le format de nom de colonne par défaut est f<i>_.

Aplatir les colonnes RECORD ou STRUCT

Pour faciliter l'accès aux champs imbriqués et leur analyse, aplatissez les colonnes avec le type de données RECORD ou STRUCT. Par exemple, si vous avez un enregistrement event_log qui contient les champs timestamp et action, l'aplatissement de cet enregistrement extrait timestamp et action dans leurs propres colonnes de premier niveau afin que vous puissiez les transformer directement.

Ce processus extrait toutes les colonnes imbriquées de l'enregistrement, jusqu'à 10 niveaux de profondeur, et crée une colonne pour chacune d'elles. Les nouveaux noms de colonnes sont créés en combinant le nom de la colonne parente avec le nom du champ imbriqué, séparés par un trait de soulignement (par exemple, PARENT-COLUMN-NAME_FIELD-NAME). La colonne d'origine est supprimée. Pour conserver la colonne d'origine, vous pouvez supprimer l'étape Supprimer la colonne de la liste Étapes appliquées.

Pour aplatir les enregistrements, procédez comme suit :

  1. Dans la vue de données d'une table source, choisissez une colonne d'enregistrement.
  2. Cliquez sur Aplatir pour générer des suggestions.
  3. Facultatif : Pour mettre à jour l'expression SQL, vous pouvez saisir manuellement une expression SQL.
  4. Facultatif : Cliquez sur Aperçu et vérifiez l'étape.
  5. Cliquez sur Appliquer.

Filtrer les lignes

Pour ajouter un filtre qui supprime des lignes, procédez comme suit :

  1. Dans la vue des données ou du schéma, sélectionnez l'option Filtrer. Vous pouvez également choisir des colonnes pour aider Gemini à comprendre votre filtre de données.
  2. Dans le champ Description, saisissez un prompt, tel que Column ID should not be NULL.
  3. Cliquez sur Générer. Gemini génère une expression SQL et une nouvelle description en fonction de votre requête.
  4. Facultatif : Pour mettre à jour l'expression SQL, modifiez la requête et cliquez sur Envoyer Envoyer, ou saisissez manuellement une expression SQL.
  5. Facultatif : Cliquez sur Aperçu et vérifiez l'étape.
  6. Cliquez sur Appliquer.

Format de l'expression de filtre

Les expressions SQL pour les filtres conservent les lignes qui correspondent à la condition spécifiée. Cela équivaut à une instruction SELECT … WHERE SQL_EXPRESSION.

Par exemple, pour conserver les enregistrements où la colonne year est supérieure ou égale à 2000, la condition est year >= 2000.

Les expressions doivent respecter la syntaxe SQL BigQuery pour la clause WHERE.

Dédupliquer des données

Pour supprimer les lignes en double de vos données, procédez comme suit :

  1. Dans la vue des données ou du schéma, sélectionnez l'option Supprimer les doublons. Gemini fournit une première suggestion de déduplication.
  2. Facultatif : Pour affiner la suggestion, saisissez une nouvelle description, puis cliquez sur Envoyer Envoyer.
  3. Facultatif : Pour configurer manuellement l'étape de déduplication, utilisez les options suivantes :
    • Dans la liste Sélection de l'enregistrement, sélectionnez l'une des stratégies suivantes :
      • Première : pour chaque groupe de lignes ayant les mêmes valeurs de clé de déduplication, cette stratégie choisit la première ligne en fonction de l'expression ORDER BY et supprime les autres.
      • Dernière : pour chaque groupe de lignes ayant les mêmes valeurs de clé de déduplication, cette stratégie choisit la dernière ligne en fonction de l'expression ORDER BY et supprime les autres.
      • N'importe quelle ligne : pour chaque groupe de lignes ayant les mêmes valeurs de clé de déduplication, cette stratégie choisit une ligne de ce groupe et supprime les autres.
      • Distinct : supprime toutes les lignes en double dans toutes les colonnes du tableau.
    • Dans le champ Clés de déduplication, sélectionnez une ou plusieurs colonnes ou expressions pour identifier les lignes en double. Ce champ s'applique lorsque la stratégie de sélection des enregistrements est Premier, Dernier ou N'importe quel.
    • Dans le champ Expression "Trier par", saisissez une expression qui définit l'ordre des lignes. Par exemple, pour choisir la ligne la plus récente, saisissez datetime DESC. Pour choisir la première ligne par ordre alphabétique en fonction du nom, saisissez un nom de colonne tel que last_name. L'expression suit les mêmes règles que la clause ORDER BY standard dans BigQuery. Ce champ ne s'applique que lorsque la stratégie de sélection des enregistrements est First (Premier) ou Last (Dernier).
  4. Facultatif : Cliquez sur Aperçu et vérifiez l'étape.
  5. Cliquez sur Appliquer.

Supprimer une colonne

Pour supprimer une ou plusieurs colonnes d'une préparation de données, procédez comme suit :

  1. Dans la vue des données ou du schéma, sélectionnez les colonnes que vous souhaitez supprimer.
  2. Cliquez sur Abandonner. Une nouvelle étape appliquée est ajoutée pour les colonnes supprimées.

Ajouter une opération de jointure avec Gemini

Pour ajouter une étape d'opération de jointure entre deux sources dans la préparation de vos données, procédez comme suit :

  1. Dans la vue Données d'un nœud de votre préparation des données, accédez à la liste Suggestions, puis cliquez sur l'option Joindre.
  2. Dans la boîte de dialogue Ajouter une jointure, cliquez sur Parcourir, puis sélectionnez l'autre table impliquée dans l'opération de jointure (appelée "côté droit de la jointure").
  3. Facultatif : Sélectionnez le type d'opération de jointure que vous souhaitez effectuer, par exemple Jointure interne.
  4. Consultez les informations sur la clé de jointure générées par Gemini dans les champs suivants :

    • Description de la jointure : description en langage naturel de l'expression SQL pour l'opération de jointure. Lorsque vous modifiez cette description et que vous cliquez sur Envoyer Envoyer, Gemini suggère de nouvelles conditions de jointure SQL.
    • Conditions de jointure : expressions SQL dans la clause ON pour l'opération de jointure. Vous pouvez utiliser les qualificateurs L et R pour faire référence aux tables sources de gauche et de droite, respectivement. Par exemple, pour joindre la colonne customer_id de la table de gauche à la colonne customer_id de la table de droite, saisissez L.customerId = R.customerId. Ces qualificatifs ne sont pas sensibles à la casse.

  5. Facultatif : Pour affiner les suggestions de Gemini, modifiez le champ Description de l'association, puis cliquez sur Envoyer Envoyer.

  6. Facultatif : Pour prévisualiser les paramètres de l'opération de jointure de votre préparation des données, cliquez sur Aperçu.

  7. Cliquez sur Appliquer.

    L'étape de l'opération de jointure est créée. La table source que vous avez sélectionnée (à droite de la jointure) et l'opération de jointure sont reflétées dans la liste des étapes appliquées et dans les nœuds de la vue graphique de la préparation des données.

Données agrégées

  1. Dans la vue Données ou Schéma, sélectionnez l'option Agrégat.
  2. Dans le champ Description, saisissez un prompt, tel que Find the total revenue for a region.
  3. Cliquez sur Envoyer.

    Gemini génère des clés de regroupement et des expressions d'agrégation en fonction de votre requête.

  4. Facultatif : Modifiez les clés de regroupement ou les expressions d'agrégation générées, si nécessaire.

  5. Facultatif : Vous pouvez ajouter manuellement des clés de regroupement et des expressions d'agrégation.

    • Dans le champ Clés de regroupement, saisissez un nom de colonne ou une expression. Si vous le laissez vide, le tableau obtenu comporte une ligne. Si vous saisissez une expression, elle doit comporter un alias (une clause AS), par exemple EXTRACT(YEAR FROM order_date) AS order_year. Les doublons ne sont pas autorisés.
    • Dans le champ Expressions d'agrégation, saisissez une expression d'agrégation qui comporte un alias (une clause AS), par exemple SUM(quantity) AS total_quantity. Vous pouvez saisir plusieurs expressions séparées par une virgule. Les doublons ne sont pas autorisés. Pour obtenir la liste des expressions d'agrégation compatibles, consultez Fonctions d'agrégation.
  6. Facultatif : Cliquez sur Aperçu et vérifiez l'étape.

  7. Cliquez sur Appliquer.

Configurer la table d'erreurs et ajouter une règle de validation

Vous pouvez ajouter un filtre qui crée une règle de validation, laquelle envoie les erreurs à une table d'erreurs ou fait échouer l'exécution de la préparation des données.

Configurer le tableau des erreurs

Pour configurer votre tableau d'erreurs, procédez comme suit :

  1. Dans l'éditeur de préparation des données, accédez à la barre d'outils, puis cliquez sur Plus > Table des erreurs.
  2. Cliquez sur Activer le tableau des erreurs.
  3. Définissez l'emplacement de la table.
  4. Facultatif : Définissez une durée maximale de conservation des erreurs.
  5. Cliquez sur Enregistrer.

Ajouter une règle de validation

Pour ajouter une règle de validation :

  1. Dans la vue des données ou du schéma, cliquez sur l'option Filtrer. Vous pouvez également choisir des colonnes pour aider Gemini à comprendre votre filtre de données.
  2. Saisissez une description pour l'étape.
  3. Saisissez une expression SQL sous la forme d'une clause WHERE.
  4. Facultatif : Si vous souhaitez que l'expression SQL agisse comme une règle de validation, cochez la case Les lignes de validation ayant échoué sont envoyées vers la table d'erreurs. Vous pouvez également transformer un filtre en validation dans la barre d'outils de préparation des données en cliquant sur Plus > Tableau des erreurs.
  5. Facultatif : Cliquez sur Aperçu et vérifiez l'étape.
  6. Cliquez sur Appliquer.

Ajouter ou modifier une table de destination

Pour ajouter ou modifier une table de destination pour les résultats de la préparation de vos données, procédez comme suit :

  1. Dans la vue des données ou du schéma, sélectionnez l'option Destination.
  2. Sélectionnez le projet dans lequel la table de destination est stockée.
  3. Sélectionnez l'un des ensembles de données ou chargez-en un nouveau.
  4. Saisissez une table de destination. Si la table n'existe pas, la préparation des données en crée une lors de la première exécution. Pour en savoir plus, consultez Mode Écriture.
  5. Sélectionnez votre ensemble de données comme ensemble de données de destination.
  6. Cliquez sur Enregistrer.

Afficher l'échantillon de données et le schéma d'une étape appliquée

Pour afficher des exemples et des détails de schéma à une étape spécifique de la préparation des données, procédez comme suit :

  1. Dans l'éditeur de préparation des données, accédez à la liste Étapes, puis cliquez sur Étapes appliquées.
  2. Sélectionnez une étape. Les onglets Données et Schéma s'affichent, présentant l'échantillon de données et le schéma à cette étape précise.

Modifier une étape appliquée

Pour modifier une étape appliquée :

  1. Dans l'éditeur de préparation des données, accédez à la liste Étapes, puis cliquez sur Étapes appliquées.
  2. Sélectionnez une étape.
  3. À côté de l'étape, cliquez sur more_vert Menu > Modifier.
  4. Dans la boîte de dialogue Modifier l'étape appliquée, vous pouvez effectuer les actions suivantes :
    • Modifiez la description de l'étape.
    • Obtenez des suggestions de Gemini en modifiant la description et en cliquant sur Envoyer Envoyer.
    • Modifiez l'expression SQL.
  5. Dans le champ Colonne cible, sélectionnez une colonne.
  6. Facultatif : Cliquez sur Aperçu et vérifiez l'étape.
  7. Cliquez sur Appliquer.

Supprimer une étape appliquée

Pour supprimer une étape appliquée :

  1. Dans l'éditeur de préparation des données, accédez à la liste Étapes, puis cliquez sur Étapes appliquées.
  2. Sélectionnez une étape.
  3. Cliquez sur more_vert Menu > Supprimer.

Exécuter la préparation des données

Une fois que vous avez ajouté vos étapes de préparation des données, configuré la destination et corrigé les éventuelles erreurs de validation, vous pouvez effectuer des tests sur un échantillon de données, ou déployer les étapes et planifier des exécutions de préparation des données. Pour en savoir plus, consultez Planifier la préparation des données.

Actualiser les exemples de préparation des données

Les données de l'échantillon ne sont pas actualisées automatiquement. Si les données des tables sources pour la préparation des données ont changé, mais que les modifications ne sont pas reflétées dans l'échantillon de données de la préparation, cliquez sur Plus > Actualiser l'échantillon.

Étapes suivantes