Cette page explique comment utiliser l'API Vertex AI Text Embeddings pour générer, stocker et mettre à jour des embeddings de texte pour les données stockées dans des bases de données Spanner avec les dialectes GoogleSQL et PostgreSQL.
Une représentation vectorielle continue de texte est une représentation vectorielle des données textuelles, qui est utilisée de nombreuses manières pour trouver des éléments similaires. Vous interagissez avec ces représentations chaque fois que vous effectuez une recherche Google ou consultez des recommandations lorsque vous faites des achats en ligne. Lorsque vous créez des embeddings de texte, vous obtenez des représentations vectorielles de texte naturel sous forme de tableaux de nombres à virgule flottante. Cela signifie que tout le texte d'entrée se voit attribuer une représentation numérique. En comparant la distance numérique entre les représentations vectorielles de deux éléments de texte, une application peut déterminer la similarité entre le texte ou les objets représentés par le texte.
L'API Vertex AI d'embeddings de texte vous permet de créer un embedding de texte avec l'IA générative. Dans ce tutoriel, vous utilisez le modèle text-embedding
de Vertex AI pour générer des embeddings de texte pour les données stockées dans Spanner.
Pour en savoir plus sur les embeddings, consultez Obtenir des embeddings de texte.
Objectif
Dans ce tutoriel, vous allez apprendre à effectuer les opérations suivantes :
- Enregistrez le modèle
text-embedding
Vertex AI dans un schéma Spanner à l'aide d'instructions LDD. - Référencez le modèle enregistré à l'aide de requêtes SQL pour générer des embeddings à partir des données stockées dans Spanner.
Tarifs
Ce tutoriel utilise des composants facturables de Google Cloud, y compris :
- Spanner
- Vertex AI
Pour en savoir plus sur les coûts liés à Spanner, consultez la page Tarifs de Spanner.
Pour en savoir plus sur les coûts de Vertex AI, consultez la page Tarifs de Vertex AI.
Générer et stocker des embeddings textuels
Selon le modèle que vous utilisez, la génération d'embeddings peut prendre un certain temps. Pour les charges de travail plus sensibles aux performances, il est recommandé d'éviter de générer des embeddings dans les transactions en lecture-écriture. Générez plutôt les embeddings dans une transaction en lecture seule à l'aide des exemples SQL suivants.
GoogleSQL
Enregistrer un modèle d'embeddings de texte dans Spanner
En GoogleSQL, vous devez enregistrer un modèle avant de l'utiliser avec la fonction ML.PREDICT
. Pour enregistrer le modèle text-embedding
dans une base de données Spanner, exécutez l'instruction LDD suivante :
CREATE MODEL MODEL_NAME
INPUT(content STRING(MAX))
OUTPUT(
embeddings
STRUCT<
statistics STRUCT<truncated BOOL, token_count FLOAT64>,
values ARRAY<FLOAT64>>
)
REMOTE OPTIONS (
endpoint = '//aiplatform.googleapis.com/projects/PROJECT/locations/LOCATION/publishers/google/models/text-embedding$MODEL_VERSION'
);
Remplacez l'élément suivant :
MODEL_NAME
: nom du modèle d'embeddingPROJECT
: projet hébergeant le point de terminaison Vertex AILOCATION
: emplacement du point de terminaison Vertex AIMODEL_VERSION
: version du modèle d'embeddingtext-embedding
Spanner accorde automatiquement les autorisations appropriées. Si ce n'est pas le cas, consultez la section Contrôle de l'accès aux points de terminaison du modèle.
La découverte et la validation de schémas ne sont pas disponibles pour les modèles d'IA générative. Vous devez fournir des clauses INPUT
et OUTPUT
qui correspondent au schéma des modèles. Pour consulter le schéma complet du modèle d'embedding de texte, consultez Obtenir des embeddings de texte.
Générer des embeddings de texte
Pour générer des embeddings, transmettez un extrait de texte directement à la fonction ML.PREDICT
à l'aide du code SQL suivant :
SELECT embeddings.values
FROM ML.PREDICT(
MODEL MODEL_NAME,
(SELECT "A product description" as content)
);
Pour générer des embeddings pour les données stockées dans une table, utilisez le code SQL suivant :
SELECT id, embeddings.values
FROM ML.PREDICT(
MODEL MODEL_NAME,
(SELECT id, description as content FROM Products)
);
Stocker les embeddings de texte
Après avoir généré les embeddings dans une transaction en lecture seule, stockez-les dans Spanner afin de pouvoir les gérer avec vos données opérationnelles. Pour stocker les embeddings, utilisez une transaction en lecture/écriture.
Pour les charges de travail moins sensibles aux performances, vous pouvez générer et insérer des embeddings avec le code SQL suivant dans une transaction en lecture/écriture :
CREATE TABLE Products(
id INT64 NOT NULL,
description STRING(MAX),
embeddings ARRAY<FLOAT32>,
) PRIMARY KEY(id);
INSERT INTO Products (id, description, embeddings)
SELECT @Id, @Description, embeddings.values
FROM ML.PREDICT(
MODEL MODEL_NAME,
(SELECT @Description as content)
);
PostgreSQL
Générer des embeddings de texte
Pour générer des embeddings, transmettez un extrait de texte directement à la fonction spanner.ML_PREDICT_ROW
à l'aide du code SQL suivant :
SELECT
spanner.ML_PREDICT_ROW(
'projects/PROJECT/locations/LOCATION/publishers/google/models/text-embedding$MODEL_VERSION',
'{"instances": [{"content": "A product description"}]}'::jsonb
) ->'predictions'->0->'embeddings'->'values';
Remplacez l'élément suivant :
PROJECT
: projet hébergeant le point de terminaison Vertex AILOCATION
: emplacement du point de terminaison Vertex AIMODEL_VERSION
: version du modèle d'embeddingtext-embedding
Pour générer des embeddings pour les données stockées dans une table, utilisez le code SQL suivant :
SELECT id, spanner.ML_PREDICT_ROW(
'projects/PROJECT/locations/LOCATION/publishers/google/models/text-embedding$MODEL_VERSION',
JSONB_BUILD_OBJECT('instances', JSONB_BUILD_ARRAY(JSONB_BUILD_OBJECT('content', description))))
) -> `predictions`->0->`embeddings`->`values``
FROM Products;
Remplacez l'élément suivant :
PROJECT
: projet hébergeant le point de terminaison Vertex AILOCATION
: emplacement du point de terminaison Vertex AIMODEL_VERSION
: version du modèle d'embeddingtext-embedding
Stocker les embeddings de texte
Après avoir généré les embeddings dans une transaction en lecture seule, stockez-les dans Spanner afin de pouvoir les gérer avec vos données opérationnelles. Pour stocker les embeddings, utilisez une transaction en lecture/écriture.
Pour les charges de travail moins sensibles aux performances, vous pouvez générer et insérer des embeddings avec le code SQL suivant dans une transaction en lecture/écriture :
CREATE TABLE Products (
id INT8 NOT NULL,
description TEXT,
embeddings REAL[],
PRIMARY KEY(id)
);
INSERT INTO Products (id, description, embeddings)
SELECT @Id, @Description, spanner.FLOAT32_ARRAY(spanner.ML_PREDICT_ROW(
'projects/PROJECT/locations/LOCATION/publishers/google/models/text-embedding$MODEL_VERSION',
JSONB_BUILD_OBJECT('instances', JSONB_BUILD_ARRAY(JSONB_BUILD_OBJECT('content', @Description)))
) -> 'predictions'->0->'embeddings'->'values'
));
Remplacez l'élément suivant :
PROJECT
: projet hébergeant le point de terminaison Vertex AILOCATION
: emplacement du point de terminaison Vertex AIMODEL_VERSION
: version du modèle d'embeddingtext-embedding
Mettre à jour les embeddings de texte
Pour mettre à jour vos embeddings ou ingérer des données en temps réel, utilisez l'instruction UPDATE
(GoogleSQL et PostgreSQL).
Pour mettre à jour la table Products
dans l'exemple précédent, utilisez le code SQL suivant :
GoogleSQL
UPDATE Products
SET
description = @description,
embeddings = (SELECT embeddings.values
FROM ML.PREDICT(MODEL MODEL_NAME, (SELECT @description as content))
)
WHERE id = @id;
Remplacez les éléments suivants :
MODEL_NAME
: nom du modèle d'embedding
PostgreSQL
UPDATE
Products
SET
description = $1,
embeddings = spanner.FLOAT32_ARRAY(
spanner.ML_PREDICT_ROW(
'projects/PROJECT/locations/LOCATION/publishers/google/models/text-embedding$MODEL_VERSION',
JSONB_BUILD_OBJECT('instances', JSONB_BUILD_ARRAY(JSONB_BUILD_OBJECT('content', $1)))
) -> 'predictions'->0->'embeddings'->'values')
WHERE
id = $2;
Remplacez l'élément suivant :
PROJECT
: projet hébergeant le point de terminaison Vertex AILOCATION
: emplacement du point de terminaison Vertex AIMODEL_VERSION
: version du modèle d'embeddingtext-embedding
Étapes suivantes
- Découvrez comment utiliser Vertex AI Vector Search pour rechercher des éléments sémantiquement similaires.
- Pour en savoir plus sur le machine learning et les embeddings, consultez notre cours intensif sur les embeddings.