Utiliser BigQuery DataFrames
BigQuery DataFrames fournit un DataFrame en Python et une API de machine learning (ML) basés sur le moteur BigQuery.
BigQuery DataFrames est un package Open Source. Vous pouvez exécuter pip install --upgrade bigframes
pour installer la dernière version.
BigQuery DataFrames fournit trois bibliothèques:
bigframes.pandas
fournit une API pandas que vous pouvez utiliser pour analyser et manipuler des données dans BigQuery. De nombreuses charges de travail peuvent être migrées de pandas vers des bigframes en modifiant simplement quelques importations. L'APIbigframes.pandas
est évolutive pour prendre en charge le traitement de téraoctets de données BigQuery. Elle utilise le moteur de requêtes BigQuery pour effectuer des calculs.bigframes.bigquery
fournit de nombreuses fonctions SQL BigQuery qui n'ont peut-être pas d'équivalent pandas.bigframes.ml
fournit une API semblable à l'API scikit-learn pour le ML. Les fonctionnalités de ML de BigQuery DataFrames vous permettent de prétraiter des données, puis d'entraîner des modèles sur ces données. Vous pouvez également associer ces actions pour créer des pipelines de données.
Rôles requis
Pour obtenir les autorisations nécessaires pour effectuer les tâches décrites dans ce document, demandez à votre administrateur de vous accorder les rôles IAM suivants sur votre projet:
-
Utilisateur de tâche BigQuery (
roles/bigquery.jobUser
) -
Utilisateur de sessions de lecture BigQuery (
roles/bigquery.readSessionUser
) -
Utilisez BigQuery DataFrames dans un notebook BigQuery :
-
Utilisateur BigQuery (
roles/bigquery.user
) -
Utilisateur de l'environnement d'exécution de notebook (
roles/aiplatform.notebookRuntimeUser
) -
Créateur de code (
roles/dataform.codeCreator
)
-
Utilisateur BigQuery (
-
Utilisez les fonctions distantes BigQuery DataFrames :
-
Éditeur de données BigQuery (
roles/bigquery.dataEditor
) -
Administrateur de connexion BigQuery (
roles/bigquery.connectionAdmin
) -
Développeur Cloud Functions (
roles/cloudfunctions.developer
) -
Utilisateur du compte de service (
roles/iam.serviceAccountUser
) -
Lecteur d'objets de l'espace de stockage (
roles/storage.objectViewer
)
-
Éditeur de données BigQuery (
-
Utiliser des modèles BigQuery DataFrames ML distants :
Administrateur de connexion BigQuery (
roles/bigquery.connectionAdmin
)
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
De plus, lorsque vous utilisez des fonctions distantes BigQuery DataFrames ou des modèles distants de BigQuery DataFrames ML, vous avez besoin du rôle Administrateur de projet IAM (roles/resourcemanager.projectIamAdmin
) si vous utilisez une connexion BigQuery par défaut, ou du rôle Navigateur (roles/browser
) si vous utilisez une connexion préconfigurée. Cette exigence peut être évitée en définissant l'option bigframes.pandas.options.bigquery.skip_bq_connection_check
sur True
, auquel cas la connexion (par défaut ou préconfigurée) est utilisée telle quelle, sans aucune vérification d'existence ni d'autorisation. Si vous utilisez la connexion préconfigurée et que vous ignorez la vérification de connexion, vérifiez les points suivants:
- La connexion est créée au bon endroit.
- Si vous utilisez des fonctions distantes BigQuery DataFrames, le compte de service dispose du rôle Demandeur Cloud Run (
roles/run.invoker
) sur le projet. - Si vous utilisez des modèles ML BigQuery DataFrames distants, le compte de service dispose du rôle Utilisateur Vertex AI (
roles/aiplatform.user
) sur le projet.
Lorsque vous effectuez l'authentification d'un utilisateur final dans un environnement interactif tel qu'un notebook, un REPL Python ou la ligne de commande, BigQuery DataFrames vous invite à procéder à une authentification si nécessaire. Sinon, découvrez comment configurer les identifiants par défaut de l'application pour différents environnements.
Configurer les options d'installation
Après avoir installé BigQuery DataFrames, vous pouvez spécifier les options suivantes.
Emplacement et projet
Vous devez spécifier l'emplacement et le projet dans lesquels vous souhaitez utiliser BigQuery DataFrames.
Vous pouvez définir l'emplacement et le projet dans votre notebook de la manière suivante :
Emplacement de traitement des données
BigQuery DataFrames est conçu pour l'évolutivité, ce qui est obtenu en conservant les données et le traitement sur le service BigQuery. Toutefois, vous pouvez importer des données dans la mémoire de votre machine cliente en appelant .to_pandas()
sur un objet DataFrame ou Series. Si vous choisissez de le faire, les limites de mémoire de votre machine cliente s'appliquent.
Lieu de la séance
BigQuery DataFrames utilise un objet de session local pour gérer les métadonnées en interne. Cette session est associée à un emplacement. BigQuery DataFrames utilise l'emplacement multirégional US
par défaut, mais vous pouvez utiliser session_options.location
pour définir un emplacement différent. Chaque requête d'une session est exécutée dans l'emplacement où la session a été créée.
BigQuery DataFrames renseigne automatiquement bf.options.bigquery.location
avec l'emplacement de la table si l'utilisateur commence par read_gbq/read_gbq_table/read_gbq_query()
et spécifie une table, directement ou dans une instruction SQL.
Si vous souhaitez réinitialiser l'emplacement des objets DataFrame ou Series créés, vous pouvez fermer la session en exécutant bigframes.pandas.close_session()
. Vous pouvez ensuite réutiliser bigframes.pandas.options.bigquery.location
pour spécifier un autre emplacement.
read_gbq()
vous oblige à spécifier un emplacement si l'ensemble de données que vous interrogez ne se trouve pas dans l'emplacement multirégional US
. Si vous essayez de lire une table à partir d'un autre emplacement, une exception NotFound
s'affiche.
Migrer vers la version 2.0 de BigQuery DataFrames
La version 2.0 de BigQuery DataFrames améliore la sécurité et les performances de l'API BigQuery DataFrames, ajoute de nouvelles fonctionnalités et introduit des modifications importantes. Ce document décrit les modifications et fournit des conseils de migration. Vous pouvez appliquer ces recommandations avant d'installer la version 2.0 à l'aide de la dernière version 1.x de BigQuery DataFrames.
La version 2.0 de BigQuery DataFrames présente les avantages suivants:
- Les requêtes sont plus rapides et moins de tables sont créées lorsque vous exécutez des requêtes qui renvoient des résultats au client, car
allow_large_results
est défini par défaut surFalse
. Cela peut réduire les coûts de stockage, en particulier si vous utilisez la facturation en octets physiques. - Amélioration de la sécurité par défaut dans les fonctions distantes déployées par BigQuery DataFrames.
Installer la version 2.0 de BigQuery DataFrames
Pour éviter les modifications non compatibles, épinglez une version spécifique de BigQuery DataFrames dans votre fichier requirements.txt
(par exemple, bigframes==1.42.0
) ou votre fichier pyproject.toml
(par exemple, dependencies = ["bigframes = 1.42.0"]
). Lorsque vous êtes prêt à essayer la dernière version, vous pouvez exécuter pip install --upgrade bigframes
pour installer la dernière version de BigQuery DataFrames.
Utiliser l'option allow_large_results
BigQuery applique une limite de taille de réponse maximale aux tâches de requête.
À partir de la version 2.0 de BigQuery DataFrames, cette limite est appliquée par défaut dans les méthodes qui renvoient des résultats au client, telles que peek()
, to_pandas()
et to_pandas_batches()
. Si votre tâche renvoie de grands résultats, vous pouvez définir allow_large_results
sur True
dans votre objet BigQueryOptions
pour éviter de casser les modifications. Cette option est définie sur False
par défaut dans BigQuery DataFrames version 2.0.
import bigframes.pandas as bpd bpd.options.bigquery.allow_large_results = True
Vous pouvez remplacer l'option allow_large_results
à l'aide du paramètre allow_large_results
dans to_pandas()
et d'autres méthodes. Exemple :
bf_df = bpd.read_gbq(query) # ... other operations on bf_df ... pandas_df = bf_df.to_pandas(allow_large_results=True)
Utiliser le décorateur @remote_function
La version 2.0 de BigQuery DataFrames apporte quelques modifications au comportement par défaut du décorateur @remote_function
.
Les arguments de mot clé sont appliqués aux paramètres ambigus
Pour éviter de transmettre des valeurs à un paramètre non intentionnel, la version 2.0 et ultérieure de BigQuery DataFrames applique l'utilisation d'arguments de mot clé pour les paramètres suivants:
bigquery_connection
reuse
name
packages
cloud_function_service_account
cloud_function_kms_key_name
cloud_function_docker_repository
max_batching_rows
cloud_function_timeout
cloud_function_max_instances
cloud_function_vpc_connector
cloud_function_memory_mib
cloud_function_ingress_settings
Lorsque vous utilisez ces paramètres, indiquez leur nom. Exemple :
@remote_function( name="my_remote_function", ... ) def my_remote_function(parameter: int) -> str: return str(parameter)
Définir un compte de service
À partir de la version 2.0, BigQuery DataFrames n'utilise plus le compte de service Compute Engine par défaut pour les fonctions Cloud Run qu'il déploie. Pour limiter les autorisations de la fonction que vous déployez :
- Créez un compte de service avec des autorisations minimales.
- Fournissez l'adresse e-mail du compte de service au paramètre
cloud_function_service_account
du décorateur@remote_function
.
Exemple :
@remote_function( cloud_function_service_account="my-service-account@my-project.iam.gserviceaccount.com", ... ) def my_remote_function(parameter: int) -> str: return str(parameter)
Si vous souhaitez utiliser le compte de service Compute Engine, vous pouvez définir le paramètre cloud_function_service_account
du décorateur @remote_function
sur "default"
. Exemple :
# This usage is discouraged. Use only if you have a specific reason to use the # default Compute Engine service account. @remote_function(cloud_function_service_account="default", ...) def my_remote_function(parameter: int) -> str: return str(parameter)
Définir les paramètres d'entrée
À partir de la version 2.0, BigQuery DataFrames définit les paramètres d'entrée des fonctions Cloud Run qu'il déploie sur "internal-only"
. Auparavant, les paramètres d'entrée étaient définis sur "all"
par défaut. Vous pouvez modifier les paramètres d'entrée en définissant le paramètre cloud_function_ingress_settings
du décorateur @remote_function
.
Exemple :
@remote_function(cloud_function_ingress_settings="internal-and-gclb", ...) def my_remote_function(parameter: int) -> str: return str(parameter)
Utiliser des points de terminaison personnalisés
Dans les versions antérieures à 2.0 de BigQuery DataFrames, si une région n'était pas compatible avec les points de terminaison de service régionaux et bigframes.pandas.options.bigquery.use_regional_endpoints = True
, BigQuery DataFrames revenait aux points de terminaison géographiques. La version 2.0 de BigQuery DataFrames supprime ce comportement de remplacement. Pour vous connecter aux points de terminaison géographiques dans la version 2.0, définissez l'option bigframes.pandas.options.bigquery.client_endpoints_override
. Exemple :
import bigframes.pandas as bpd bpd.options.bigquery.client_endpoints_override = { "bqclient": "https://LOCATION-bigquery.googleapis.com", "bqconnectionclient": "LOCATION-bigqueryconnection.googleapis.com", "bqstoragereadclient": "LOCATION-bigquerystorage.googleapis.com", }
Remplacez LOCATION par le nom de l'emplacement BigQuery auquel vous souhaitez vous connecter.
Utiliser le module bigframes.ml.llm
Dans la version 2.0 de BigQuery DataFrames, la valeur model_name
par défaut de GeminiTextGenerator
a été remplacée par "gemini-2.0-flash-001"
. Nous vous recommandons de fournir directement un model_name
pour éviter les erreurs si le modèle par défaut change à l'avenir.
import bigframes.ml.llm model = bigframes.ml.llm.GeminiTextGenerator(model_name="gemini-2.0-flash-001")
Entrées et sorties
À l'aide de la bibliothèque bigframes.pandas
, vous pouvez accéder aux données à partir de diverses sources, y compris les fichiers CSV locaux, les fichiers Cloud Storage, les objets DataFrame pandas
, les modèles BigQuery et les fonctions BigQuery. Vous pouvez ensuite charger ces données dans un DataFrame BigQuery DataFrames. Vous pouvez également créer des tables BigQuery à partir de BigQuery DataFrames.
Charger des données à partir d'une table ou d'une requête BigQuery
Vous pouvez créer un DataFrame à partir d'une table ou d'une requête BigQuery de la manière suivante:
Charger des données à partir d'un fichier CSV
Vous pouvez créer un DataFrame à partir d'un fichier CSV local ou Cloud Storage de la manière suivante :
Types de données
Les objets BigQuery DataFrames acceptent les dtypes numpy et pandas suivants :
BigQuery | Objets BigQuery DataFrames et pandas |
---|---|
ARRAY |
pandas.ArrowDtype(pa.list_()) |
BOOL |
pandas.BooleanDtype() |
DATE |
pandas.ArrowDtype(pa.date32()) |
DATETIME |
pandas.ArrowDtype(pa.timestamp("us")) |
FLOAT64 |
pandas.Float64Dtype() |
GEOGRAPHY |
Compatible uniquement avec |
INT64 |
pandas.Int64Dtype() |
JSON |
pandas.ArrowDtype(pa.json_(pa.string()) dans la version 3.0 ou ultérieure de pandas et la version 19.0 ou ultérieure de pyarrow, sinon les colonnes JSON sont exposées en tant que pandas.ArrowDtype(db_dtypes.JSONArrowType()) . |
STRING |
pandas.StringDtype(storage="pyarrow") |
STRUCT |
pandas.ArrowDtype(pa.struct()) |
TIME |
pandas.ArrowDtype(pa.time64("us")) |
TIMESTAMP |
pandas.ArrowDtype(pa.timestamp("us", tz="UTC")) |
BigQuery DataFrames n'accepte pas les types de données BigQuery suivants:
NUMERIC
BIGNUMERIC
INTERVAL
RANGE
Tous les autres types de données BigQuery s'affichent sous la forme de type d'objet.
Manipulation de données
Les sections suivantes décrivent les fonctionnalités de manipulation des données pour les BigQuery DataFrames. Vous trouverez les fonctions décrites dans la bibliothèque bigframes.bigquery
.
API pandas
Une caractéristique notable de BigQuery DataFrames est que l'API bigframes.pandas
est conçue pour être semblable aux API de la bibliothèque pandas. Cette conception vous permet d'utiliser des modèles de syntaxe familiers pour les tâches de manipulation de données. Les opérations définies via l'API BigQuery DataFrames sont exécutées côté serveur, opérant directement sur les données stockées dans BigQuery et éliminant le besoin de transférer des ensembles de données hors de BigQuery.
Pour vérifier quelles API pandas sont compatibles avec BigQuery DataFrames, consultez la section API pandas compatibles.
Inspecter et manipuler des données
Vous pouvez utiliser l'API bigframes.pandas
pour effectuer des opérations d'inspection et de calcul des données. L'exemple de code suivant utilise la bibliothèque bigframes.pandas
pour inspecter la colonne body_mass_g
, calculer la moyenne body_mass
et calculer la moyenne body_mass
par species
:
Bibliothèque BigQuery
La bibliothèque BigQuery fournit des fonctions SQL BigQuery qui peuvent ne pas avoir d'équivalent pandas. Les sections suivantes présentent quelques exemples.
Traiter les valeurs de tableau
Vous pouvez utiliser la fonction bigframes.bigquery.array_agg()
de la bibliothèque bigframes.bigquery
pour agréger des valeurs après une opération groupby
:
Vous pouvez également utiliser les fonctions de tableau array_length()
et array_to_string()
.
Créer une série de structs
Vous pouvez utiliser la fonction bigframes.bigquery.struct()
de la bibliothèque bigframes.bigquery
pour créer une série struct avec des sous-champs pour chaque colonne d'un DataFrame:
Convertir des codes temporels en époques Unix
Vous pouvez utiliser la fonction bigframes.bigquery.unix_micros()
de la bibliothèque bigframes.bigquery
pour convertir les codes temporels en microsecondes Unix:
Vous pouvez également utiliser les fonctions temporelles unix_seconds()
et unix_millis()
.
Utiliser la fonction scalaire SQL
Vous pouvez utiliser la fonction bigframes.bigquery.sql_scalar()
de la bibliothèque bigframes.bigquery
pour accéder à une syntaxe SQL arbitraire représentant une expression de colonne unique:
Fonctions Python personnalisées
BigQuery DataFrames vous permet de transformer vos fonctions Python personnalisées en artefacts BigQuery que vous pouvez exécuter à grande échelle sur des objets BigQuery DataFrames. Cette prise en charge de l'extensibilité vous permet d'effectuer des opérations au-delà de ce qui est possible avec BigQuery DataFrames et les API SQL. Vous pouvez ainsi tirer parti des bibliothèques Open Source. Les deux variantes de ce mécanisme d'extensibilité sont décrites dans les sections suivantes.
Fonctions définies par l'utilisateur
Avec les fonctions définies par l'utilisateur (bêta), vous pouvez transformer votre fonction Python personnalisée en fonction définie par l'utilisateur Python. Pour obtenir un exemple d'utilisation, consultez la section Créer une fonction définie par l'utilisateur Python persistante.
Créer une UDF par l'utilisateur dans BigQuery DataFrames crée une routine BigQuery en tant que fonction définie par l'utilisateur Python dans l'ensemble de données spécifié. Pour obtenir la liste complète des paramètres acceptés, consultez udf.
Effectuer un nettoyage
En plus de nettoyer les artefacts cloud directement dans la console Google Cloud ou avec d'autres outils, vous pouvez nettoyer les fonctions définies par l'utilisateur BigQuery DataFrames créées avec un argument de nom explicite à l'aide de la commande bigframes.pandas.get_global_session().bqclient.delete_routine(routine_id)
.
Conditions requises
Pour utiliser une fonction définie par l'utilisateur BigQuery DataFrames, activez l'API BigQuery dans votre projet. Si vous fournissez le paramètre bigquery_connection
dans votre projet, vous devez également activer l'API BigQuery Connection.
Limites
- Le code de la UDF;utilisateur doit être autonome, c'est-à-dire qu'il ne doit pas contenir de références à une importation ou à une variable définie en dehors du corps de la fonction.
- Le code de la UDF;utilisateur doit être compatible avec Python 3.11, car il s'agit de l'environnement dans lequel le code est exécuté dans le cloud.
- Si vous exécutez à nouveau le code de définition de la UDF définie par l'utilisateur après avoir apporté des modifications mineures au code de la fonction (par exemple, en renommant une variable ou en insérant une nouvelle ligne), la UDF est recréée, même si ces modifications n'ont aucune incidence sur le comportement de la fonction.
- Le code utilisateur est visible par les utilisateurs disposant d'un accès en lecture aux routines BigQuery. Par conséquent, vous ne devez inclure du contenu sensible qu'avec précaution.
- Un projet peut contenir jusqu'à 1 000 fonctions Cloud Run à la fois dans un emplacement BigQuery.
La fonction définie par l'utilisateur BigQuery DataFrames déploie une fonction Python BigQuery définie par l'utilisateur, et les limites associées s'appliquent.
Fonctions à distance
BigQuery DataFrames vous permet de transformer vos fonctions scalaires personnalisées en fonctions distantes BigQuery. Pour obtenir un exemple d'utilisation, consultez la section Créer une fonction distante. Pour obtenir la liste complète des paramètres acceptés, consultez remote_function.
La création d'une fonction distante dans BigQuery DataFrames crée les éléments suivants:
- une fonction Cloud Run ;
- une connexion BigQuery.
Par défaut, une connexion nommée
bigframes-default-connection
est utilisée. Si vous préférez, vous pouvez utiliser une connexion BigQuery préconfigurée, auquel cas la création de la connexion est ignorée. Le compte de service de la connexion par défaut se voit attribuer le rôle Cloud Run (roles/run.invoker
). - Fonction distante BigQuery qui utilise la fonction Cloud Run créée avec la connexion BigQuery.
Les connexions BigQuery sont créées au même emplacement que la session BigQuery DataFrames, en utilisant le nom que vous fournissez dans la définition de la fonction personnalisée. Pour afficher et gérer les connexions, procédez comme suit :
Dans la console Google Cloud , accédez à la page BigQuery.
Sélectionnez le projet dans lequel vous avez créé la fonction à distance.
Dans le volet Explorer, développez le projet, puis Connexions externes.
Les fonctions distantes BigQuery sont créées dans l'ensemble de données que vous spécifiez ou dans un ensemble de données anonyme, qui est un type d'ensemble de données masqué.
Si vous ne définissez pas de nom pour une fonction distante lors de sa création, BigQuery DataFrames applique un nom par défaut commençant par le préfixe bigframes
. Pour afficher et gérer les fonctions distantes créées dans un ensemble de données spécifié par l'utilisateur, procédez comme suit:
Dans la console Google Cloud , accédez à la page BigQuery.
Sélectionnez le projet dans lequel vous avez créé la fonction à distance.
Dans le volet Explorer, développez le projet, l'ensemble de données dans lequel vous avez créé la fonction distante, puis développez Routines.
Pour afficher et gérer les fonctions Cloud Run, procédez comme suit:
Accédez à la page Cloud Run
Sélectionnez le projet dans lequel vous avez créé la fonction.
Filtrez la liste des services disponibles sur Type de déploiement de fonction.
Pour identifier les fonctions créées par BigQuery DataFrames, recherchez des noms de fonction avec le préfixe
bigframes
.
Effectuer un nettoyage
En plus de nettoyer les artefacts cloud directement dans la console Google Cloud ou avec d'autres outils, vous pouvez nettoyer les fonctions distantes BigQuery créées sans argument de nom explicite et leurs fonctions Cloud Run associées de la manière suivante:
- Pour une session BigQuery DataFrames, utilisez la commande
session.close()
. - Pour la session BigQuery DataFrames par défaut, utilisez la commande
bigframes.pandas.close_session()
. - Pour une session passée avec
session_id
, utilisez la commandebigframes.pandas.clean_up_by_session_id(session_id)
.
Vous pouvez également nettoyer les fonctions distantes BigQuery créées avec un argument de nom explicite et leurs fonctions Cloud Run associées à l'aide de la commande bigframes.pandas.get_global_session().bqclient.delete_routine(routine_id)
.
Conditions requises
Pour utiliser les fonctions distantes BigQuery DataFrames, vous devez activer les API suivantes:
- API BigQuery (
bigquery.googleapis.com
) - API BigQuery Connection (
bigqueryconnection.googleapis.com
) - API Cloud Functions (
cloudfunctions.googleapis.com
) - API Cloud Run Admin (
run.googleapis.com
) - API Artifact Registry (
artifactregistry.googleapis.com
) - API Cloud Build (
cloudbuild.googleapis.com
) - API Compute Engine (
compute.googleapis.com
) API Cloud Resource Manager (
cloudresourcemanager.googleapis.com
)Vous pouvez éviter cette exigence en définissant l'option
bigframes.pandas.options.bigquery.skip_bq_connection_check
surTrue
. Dans ce cas, la connexion (par défaut ou préconfigurée) est utilisée telle quelle sans vérifier l'existence de la connexion ou la vérification de ses autorisations.
Limites
- Les fonctions distantes sont utilisables en environ 90 secondes lorsque vous les créez. Des dépendances de paquets supplémentaires peuvent augmenter la latence.
- Si vous exécutez à nouveau le code de définition de la fonction distante après avoir apporté des modifications mineures au code de la fonction (par exemple, en renommant une variable, en insérant une nouvelle ligne ou en insérant une nouvelle cellule dans le notebook), la fonction distante peut être recréée, même si ces modifications n'ont aucune incidence sur le comportement de la fonction.
- Le code utilisateur est visible par les utilisateurs disposant d'un accès en lecture aux fonctions Cloud Run. Vous devez donc inclure du contenu sensible avec précaution.
- Un projet peut contenir jusqu'à 1 000 fonctions Cloud Run à la fois dans une région. Pour en savoir plus, consultez la page consacrée aux quotas.
ML et IA
Les sections suivantes décrivent les fonctionnalités de ML et d'IA pour les DataFrames BigQuery. Ces fonctionnalités utilisent la bibliothèque bigframes.ml
.
Emplacements de ML
La bibliothèque bigframes.ml
est disponible dans les mêmes emplacements que BigQuery ML. La prédiction de modèle BigQuery ML et d'autres fonctions de ML sont acceptées dans toutes les régions BigQuery. La compatibilité de l'entraînement de modèle varie selon les régions. Pour en savoir plus, consultez la page Emplacements BigQuery ML.
Procéder au prétraitement des données
Créez des transformateurs pour préparer les données à utiliser dans des estimateurs (modèles) à l'aide des modules bigframes.ml.preprocessing et bigframes.ml.compose. BigQuery DataFrames propose les transformations suivantes :
Utilisez la classe KBinsDiscretizer dans le module
bigframes.ml.preprocessing
pour regrouper des données continues en intervalles.Utilisez la classe LabelEncoder dans le module
bigframes.ml.preprocessing
pour normaliser les étiquettes cibles sous forme de valeurs entières.Utilisez la classe MaxAbsScaler dans le module
bigframes.ml.preprocessing
pour adapter chaque caractéristique à la plage[-1, 1]
en fonction de sa valeur absolue maximale.Utilisez la classe MinMaxScaler dans le module
bigframes.ml.preprocessing
pour standardiser les caractéristiques en les ajustant à la plage[0, 1]
.Utilisez la classe StandardScaler dans le module
bigframes.ml.preprocessing
pour standardiser les caractéristiques en supprimant la moyenne et en effectuant un scaling à la hausse de la variance unitaire.Utilisez la classe OneHotEncoder dans le module
bigframes.ml.preprocessing
pour transformer les valeurs catégorielles en format numérique.Utilisez la classe ColumnTransformer dans le module
bigframes.ml.compose
pour appliquer des transformateurs aux colonnes DataFrames.
Entraîner des modèles
Vous pouvez créer des estimateurs pour entraîner des modèles dans BigQuery DataFrames.
Modèles de clustering
Vous pouvez créer des estimateurs pour les modèles de clustering à l'aide du module bigframes.ml.cluster.
- Utilisez la classe KMeans pour créer des modèles de clustering en k-moyennes. Utilisez ces modèles pour la segmentation des données. Par exemple, pour identifier des segments de clientèle. L'algorithme k-moyennes étant une technique d'apprentissage non supervisée, l'entraînement ou l'évaluation du modèle ne nécessitent pas d'étiquettes ni de données fractionnées.
Vous pouvez utiliser le module bigframes.ml.cluster
pour créer des estimateurs pour les modèles de clustering.
L'exemple de code suivant montre comment utiliser la classe bigframes.ml.cluster KMeans
pour créer un modèle de clustering en k-moyennes pour la segmentation des données:
Modèles de décomposition
Vous pouvez créer des estimateurs pour les modèles de décomposition à l'aide du module bigframes.ml.decomposition.
- Utilisez la classe d'analyse des composants principaux pour créer des modèles d'analyse des composants principaux. Utilisez ces modèles pour calculer les composants principaux et les utiliser pour effectuer un changement de base sur les données. Cela permet de réduire la dimensionnalité en ne projetant chaque point de données que sur les premiers composants principaux afin d'obtenir des données de dimension inférieure tout en conservant autant que possible les variations de données.
Modèles ensemblistes
Vous pouvez créer des estimateurs pour les modèles d'ensemble à l'aide du module bigframes.ml.ensemble.
Utilisez la classe RandomForestClassifier pour créer des modèles de classificateur de forêt d'arbres décisionnels. Utilisez ces modèles pour créer plusieurs arbres de décision de méthode d'apprentissage pour la classification.
Utilisez la classe RandomForestRegressor pour créer des modèles de régression de forêt d'arbres décisionnels. Utilisez ces modèles pour créer plusieurs arbres de décision de méthode d'apprentissage pour la régression.
Utilisez la classe XGBClassifier pour créer des modèles de classificateur d'arbre de décision à boosting de gradient. Utilisez ces modèles pour créer de manière additive plusieurs arbres de décision de méthode d'apprentissage pour la classification.
Utilisez la classe XGBRegressor pour créer des modèles de régression d'arbre de décision à boosting de gradient. Utilisez ces modèles pour créer de manière additive plusieurs arbres de décision de méthode d'apprentissage pour la régression.
Modèles de prévision
Vous pouvez créer des estimateurs pour les modèles de prévision à l'aide du module bigframes.ml.forecasting.
- Utilisez la classe ARIMAPlus pour créer des modèles de prévision de séries temporelles.
Modèles importés
Vous pouvez créer des estimateurs pour les modèles importés à l'aide du module bigframes.ml.imported.
Utilisez la classe ONNXModel pour importer des modèles Open Neural Network Exchange (ONNX).
Utilisez la classe TensorFlowModel pour importer des modèles TensorFlow.
Utilisez la classe XGBoostModel pour importer des modèles XGBoostModel.
Modèles linéaires
Créez des estimateurs pour les modèles linéaires à l'aide du module bigframes.ml.linear_model.
Utilisez la classe LinearRegression pour créer des modèles de régression linéaire. Utilisez ces modèles pour effectuer des prévisions. Par exemple, pour prévoir les ventes d'un article un jour donné.
Utilisez la classe LogisticRegression pour créer des modèles de régression logistique. Utilisez ces modèles pour classer au moins deux valeurs possibles (par exemple, si une entrée est
low-value
,medium-value
ouhigh-value
).
L'exemple de code suivant montre comment utiliser bigframes.ml
pour effectuer les opérations suivantes:
- Charger des données à partir de BigQuery
- Nettoyer et préparer les données d'entraînement
- Créer et appliquer un modèle de régression bigframes.ml.LinearRegression
Grands modèles de langage
Vous pouvez créer des estimateurs pour les LLM à l'aide du module bigframes.ml.llm.
Utilisez la classe GeminiTextGenerator pour créer des modèles génératifs de texte Gemini. Utilisez ces modèles pour les tâches de génération de texte.
Utilisez le module bigframes.ml.llm pour créer des estimateurs pour les grands modèles de langage (LLM) distants.
L'exemple de code suivant montre comment utiliser la classe bigframes.ml.llm
GeminiTextGenerator pour créer un modèle Gemini pour la génération de code:
Modèles distants
Pour utiliser des modèles distants de DataFrame BigQuery ML (bigframes.ml.remote
ou bigframes.ml.llm
), vous devez activer les API suivantes:
API Cloud Resource Manager (
cloudresourcemanager.googleapis.com
)Vous pouvez éviter cette exigence en définissant l'option
bigframes.pandas.options.bigquery.skip_bq_connection_check
surTrue
. Dans ce cas, la connexion (par défaut ou préconfigurée) est utilisée telle quelle sans vérifier l'existence de la connexion ou la vérification de ses autorisations.
La création d'un modèle distant dans BigQuery DataFrames crée une connexion BigQuery.
Par défaut, une connexion nommée bigframes-default-connection
est utilisée. Si vous préférez, vous pouvez utiliser une connexion BigQuery préconfigurée, auquel cas la création de la connexion est ignorée. Le compte de service pour la connexion par défaut se voit attribuer le rôle Utilisateur Vertex AI (roles/aiplatform.user
) sur le projet.
Créer des pipelines
Vous pouvez créer des pipelines de ML à l'aide du module bigframes.ml.pipeline. Les pipelines vous permettent de combiner plusieurs étapes de ML pour qu'elles puissent faire l'objet d'une validation croisée tout en définissant différents paramètres. Cela simplifie votre code et vous permet de déployer ensemble les étapes de prétraitement des données et un estimateur.
Utilisez la classe Pipeline pour créer un pipeline de transformations avec un estimateur final.
Sélectionner des modèles
Utilisez le module bigframes.ml.model_selection pour diviser vos ensembles de données d'entraînement et de test, puis sélectionner les meilleurs modèles:
Utilisez la fonction
train_test_split
pour répartir les données en ensembles d'entraînement et de test (d'évaluation), comme illustré dans l'exemple de code suivant:X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
Utilisez la classe
KFold
et la méthodeKFold.split
pour créer des ensembles d'entraînement et de test multi-pliqués afin d'entraîner et d'évaluer des modèles, comme indiqué dans l'exemple de code suivant. Cette fonctionnalité est utile pour les petits ensembles de données.kf = KFold(n_splits=5) for i, (X_train, X_test, y_train, y_test) in enumerate(kf.split(X, y)): # Train and evaluate models with training and testing sets
Utilisez la fonction
cross_validate
pour créer automatiquement des ensembles d'entraînement et de test multi-pliqués, entraîner et évaluer le modèle, et obtenir le résultat de chaque pli, comme illustré dans l'exemple de code suivant:scores = cross_validate(model, X, y, cv=5)
Optimisation des performances
Cette section présente des moyens d'optimiser les performances de vos BigQuery DataFrames.
Mode de tri partiel
BigQuery DataFrames propose une fonctionnalité de mode de tri. Définissez la propriété ordering_mode
sur partial
pour générer des requêtes plus efficaces.
Le mode de tri partial
est différent du mode strict
par défaut, qui crée un tri total sur toutes les lignes. Un tri total rend les BigQuery DataFrames plus compatible avec pandas en fournissant un accès basé sur le tri aux lignes avec la propriété DataFrame.iloc
. Toutefois, le tri total et l'index séquentiel par défaut de ce tri signifient que ni les filtres de colonne ni les filtres de ligne ne réduisent le nombre d'octets analysés, sauf si ces filtres sont appliqués en tant que paramètres aux fonctions read_gbq
et read_gbq_table
. Pour fournir un tri total sur toutes les lignes du DataFrame, BigQuery DataFrames crée un hachage de toutes les lignes. Cela peut entraîner une analyse complète des données qui ignore les filtres de ligne et de colonne.
Si vous définissez la propriété ordering_mode
sur partial
, BigQuery DataFrames ne génère pas de tri total des lignes. Le mode de tri partiel désactive également les fonctionnalités qui nécessitent un tri total sur toutes les lignes, comme la propriété DataFrame.iloc
.
Le mode de tri partiel définit la classe DefaultIndexKind
sur un index nul, au lieu d'un index séquentiel basé sur le tri.
Lorsque vous filtrez un DataFrame avec la propriété ordering_mode
définie sur partial
, BigQuery DataFrames n'a plus besoin de calculer les lignes manquantes dans l'index séquentiel. Il génère donc des requêtes plus rapides et plus efficaces. L'API BigQuery DataFrames est toujours l'API pandas familière, tout comme l'expérience par défaut avec le mode de tri strict.
Toutefois, le mode de tri partiel diffère du comportement habituel de pandas. Par exemple, il n'effectue pas de jointures implicites par indice.
Avec les modes de tri partiel et strict, vous payez les ressources BigQuery que vous utilisez. Toutefois, l'utilisation du mode de tri partiel peut réduire les coûts lorsque vous utilisez des tables volumineuses regroupées et partitionnées, car les filtres de ligne sur les colonnes de cluster et de partition réduisent le nombre d'octets traités.
Utilisation
Pour utiliser le tri partiel, définissez la propriété ordering_mode
sur partial
avant d'effectuer toute autre opération avec BigQuery DataFrames, comme illustré dans l'exemple de code suivant:
Comme il n'existe pas d'index séquentiel avec le mode de tri partiel, les dataframes BigQuery DataFrames non associés ne sont pas joints implicitement.
Vous devez plutôt appeler explicitement la méthode DataFrame.merge
pour joindre deux dataframes BigQuery qui proviennent de différentes expressions de table.
Les fonctionnalités Series.unique()
et Series.drop_duplicates()
ne sont pas compatibles avec le mode de tri partiel. Utilisez plutôt la méthode groupby
pour rechercher des valeurs uniques de cette manière:
Avec le mode de tri partiel, le résultat des fonctions DataFrame.head(n)
et Series.head(n)
n'est pas idempotent pour toutes les invocations. Pour télécharger un petit échantillon arbitraire des données, utilisez les méthodes DataFrame.peek()
ou Series.peek()
.
Pour un tutoriel détaillé dans lequel vous utilisez la propriété ordering_mode = "partial"
, consultez ce notebook BigQuery DataFrames qui montre comment utiliser le mode de tri partiel.
Dépannage
Étant donné que les dataframes en mode de tri partiel n'ont pas toujours d'ordre ni d'index, vous pouvez rencontrer les problèmes suivants lorsque vous utilisez certaines méthodes compatibles avec pandas.
Erreur : tri requis
Certaines fonctionnalités nécessitent d'être triées, comme les fonctions DataFrame.head()
et DataFrame.iloc
. Pour obtenir la liste des fonctionnalités qui nécessitent d'être triées, consultez la colonne Tri nécessaire dans la section API pandas compatibles.
En l'absence de tri sur l'objet, l'opération échoue et un message OrderRequiredError
semblable au suivant s'affiche:
OrderRequiredError: Op iloc requires an ordering. Use .sort_values or .sort_index to provide an ordering.
Comme l'indique le message d'erreur, vous pouvez effectuer un tri à l'aide de la méthode DataFrame.sort_values()
pour trier par colonne ou par colonnes. D'autres opérations, telles que l'opération DataFrame.groupby()
, fournissent implicitement un tri total sur les clés de regroupement.
Si le tri ne peut pas être déterminé comme un tri total entièrement stable sur toutes les lignes, les opérations suivantes peuvent vous avertir par un message AmbiguousWindowWarning
semblable à celui-ci:
AmbiguousWindowWarning: Window ordering may be ambiguous, this can cause unstable results.
Si votre charge de travail peut accepter des résultats non déterministes ou si vous pouvez vérifier manuellement que le tri que vous fournissez est un tri total, vous pouvez filtrer le message AmbiguousWindowWarning
de la manière suivante:
Erreur d'index nul
Certaines fonctionnalités nécessitent un index, comme les propriétés DataFrame.unstack()
et Series.interpolate()
. Pour obtenir la liste des fonctionnalités qui nécessitent un index, consultez la colonne Nécessite un index dans la section API pandas compatibles.
Lorsque vous utilisez une opération qui nécessite un index avec le mode de tri partiel, l'opération génère un message NullIndexError
semblable à celui-ci:
NullIndexError: DataFrame cannot perform interpolate as it has no index. Set an index using set_index.
Comme l'indique le message d'erreur, vous pouvez fournir un index à l'aide de la méthode DataFrame.set_index()
pour trier par colonne ou par colonnes. D'autres opérations, telles que l'opération DataFrame.groupby()
, fournissent implicitement un index sur les clés de regroupement, sauf si le paramètre as_index=False
est défini.
Visualisations
L'API bigframes.pandas
est une passerelle vers l'ensemble de l'écosystème d'outils Python. L'API accepte les opérations statistiques avancées et vous pouvez visualiser les agrégations générées à partir de BigQuery DataFrames.
Vous pouvez également passer d'un DataFrame BigQuery DataFrames à un DataFrame pandas
avec des opérations d'échantillonnage intégrées.
Étapes suivantes
- Découvrez comment générer du code BigQuery DataFrames avec Gemini.
- Découvrez comment analyser les téléchargements de packages depuis PyPI avec BigQuery DataFrames.
- Consultez le code source, les exemples de notebooks et les exemples de BigQuery DataFrames sur GitHub.
- Consultez la documentation de référence de l'API BigQuery DataFrames.