Glossaire de l'IA générative | Generative AI on Vertex AI

agent

Dans le contexte de l'IA générative, un agent est un logiciel qui planifie et exécute de manière autonome une série d'actions pour atteindre un objectif, potentiellement dans des situations nouvelles. Les agents peuvent être utilisés dans diverses applications, telles que le traitement du langage naturel, le machine learning et la robotique. Par exemple, un agent LLM utilise un modèle de langage pour évaluer l'environnement et choisir une action qui l'aidera à atteindre son objectif. Les agents LLM peuvent être utilisés pour générer du texte, traduire des langues et répondre à des questions.

Point de terminaison de l'API

Les points de terminaison de l'API sont un aspect de la configuration du service qui spécifie les adresses réseau, à savoir les points de terminaison du service (par exemple, aiplatform.googleapis.com).

Identifiants par défaut de l'application (ADC)

Les identifiants par défaut de l'application (ADC, Application Default Credentials) permettent d'obtenir facilement des identifiants d'autorisation à utiliser pour appeler les API Google. Ils conviennent parfaitement lorsque l'appel doit disposer de la même identité et du même niveau d'autorisation pour l'application quel que soit l'utilisateur. Cette approche est recommandée pour autoriser les appels vers les API Google Cloud, surtout lorsque vous créez une application qui est déployée sur des machines virtuelles Google App Engine (GAE) ou Compute Engine. Pour en savoir plus, consultez Fonctionnement des identifiants par défaut de l'application.

ANN (voisin le plus proche)

Le service ANN (voisin le plus proche) est une solution à grande échelle et à faible latence permettant de trouver des vecteurs (ou plus précisément, des "représentations vectorielles continues") similaires pour un corpus volumineux. Pour en savoir plus, consultez Utiliser Vector Search pour la mise en correspondance sémantique.

artefact

Un artefact est une entité discrète ou une donnée produite et consommée par un workflow de machine learning. Les ensembles de données, les modèles, les fichiers d'entrée et les journaux d'entraînement sont des exemples d'artefacts.

Artifact Registry

Artifact Registry est un service universel de gestion d'artefacts. Il s'agit du service recommandé pour la gestion des conteneurs et d'autres artefacts sur Google Cloud. Pour en savoir plus, consultez la page Artifact Registry.

Intelligence artificielle (IA)

L'intelligence artificielle (ou IA) est l'étude et la conception de machines qui semblent "intelligentes", c'est-à-dire qui imitent des fonctions humaines ou intellectuelles telles que le mouvement mécanique, le raisonnement ou la résolution de problèmes. Le machine learning est l'un des sous-domaines les plus populaires de l'IA. Il utilise une approche statistique et axée sur les données pour créer de l'IA. Toutefois, certaines personnes utilisent ces deux termes de manière interchangeable.

Réalité augmentée (RA)

Mélange de contenu numérique rendu avec du contenu du monde réel, soit via un écran tel que celui d'un téléphone, soit sous forme de superposition au monde vu à travers des optiques telles que des lunettes. Le contenu numérique doit être suivi par le mouvement de la caméra ou des lunettes (selon la façon dont la scène est rendue) afin qu'il semble faire partie du monde réel.

authentication

Processus de vérification de l'identité d'un client (qui peut être un utilisateur ou un autre processus) afin d'accéder à un système sécurisé. Un client qui a prouvé son identité est dit authentifié. Pour en savoir plus, consultez la page Méthodes d'authentification chez Google.

Automatic side-by-side (AutoSxS)

L'outil d'évaluation automatique côte à côte (AutoSxS) est un outil d'évaluation assisté par un modèle qui compare deux grands modèles de langage (LLM) côte à côte. Il peut être utilisé pour évaluer les performances des modèles d'IA générative dans Vertex AI Model Registry ou des inférences prégénérées. AutoSxS utilise un outil d'évaluation automatique pour choisir le modèle qui répond le mieux à une requête. AutoSxS est disponible à la demande et évalue les modèles de langage en offrant des performances comparables à celles des évaluateurs humains.

Reconnaissance vocale automatique (ASR,Speech-to-Text)

Transcription automatique de la langue parlée (discours) en texte.

AutoML

Algorithmes de machine learning qui "apprennent à apprendre" grâce à l'optimisation par boîte noire. Pour en savoir plus, consultez le glossaire de ML.

autorater

Un évaluateur automatique est un modèle de langage qui évalue la qualité des réponses du modèle en fonction d'une requête d'inférence d'origine. Il est utilisé dans le pipeline AutoSxS pour comparer les inférences de deux modèles et déterminer lequel a enregistré les meilleures performances. Pour en savoir plus, consultez L'évaluateur automatique.

référence

Modèle utilisé comme point de référence pour comparer les performances d'un autre modèle (généralement plus complexe). Par exemple, un modèle de régression logistique peut servir de référence pour un modèle profond. Pour un problème donné, la référence aide les développeurs de modèles à quantifier les performances minimales attendues qu'un nouveau modèle doit atteindre pour être utile. Pour en savoir plus, consultez Ensembles de données de référence et cibles.

batch

Ensemble d'exemples utilisés dans une itération d'entraînement. La taille de lot détermine le nombre d'exemples dans un lot.

Taille du lot

Nombre d'exemples dans un lot. Par exemple, la taille de lot de SGD est de 1, tandis que celle d'un mini-lot est généralement comprise entre 10 et 1 000. La taille de lot est habituellement fixée pendant les processus d'entraînement et d'inférence. Toutefois, TensorFlow accepte les tailles de lot dynamiques.

inférence par lot

L'inférence par lot extrait un groupe de requêtes d'inférence et génère les résultats dans un fichier. Pour en savoir plus, consultez la Présentation de l'obtention d'inférences sur Vertex AI.

biais

1. Stéréotypes, préjudice ou favoritisme envers certains groupes, choses ou personnes par rapport à d'autres. Ces biais peuvent avoir une incidence sur la collecte et l'interprétation des données, ainsi que sur la conception d'un système et la manière dont les utilisateurs interagissent avec celui-ci. 2. Erreur systématique introduite par une procédure d'échantillonnage ou de rapport.

bidirectionnel

Terme utilisé pour décrire un système qui évalue le texte qui précède et suit une section de texte cible. En revanche, un système unidirectionnel n'évalue que le texte qui précède une section de texte cible.

BERT (Bidirectional Encoder Representations from Transformers)

BERT est une méthode de pré-entraînement des représentations du langage. Cela signifie que nous entraînons un modèle de "compréhension du langage" à usage général sur un grand corpus de texte (comme Wikipédia), puis que nous utilisons ce modèle pour les tâches de traitement du langage naturel (TLN) en aval qui nous intéressent (comme les systèmes de questions-réponses). BERT surpasse les méthodes précédentes, car il s'agit du premier système non supervisé et profondément bidirectionnel pour le pré-entraînement du NLP.

Bilingual Evaluation Understudy (BLEU)

Mesure courante pour évaluer la qualité d'un algorithme de traduction automatique en comparant son résultat à celui d'une ou plusieurs traductions humaines.

booster

Dans l'entraînement de modèles : le boosting peut faire référence à des techniques d'augmentation des données utilisées pour accroître la taille et la diversité des ensembles de données d'entraînement. Pour ce faire, il transforme les exemples existants afin de créer des exemples supplémentaires et variés, ce qui peut améliorer les performances du modèle, en particulier lorsque l'ensemble de données d'origine est limité.

cadre de délimitation

Un cadre de délimitation pour un objet dans l'image vidéo peut être spécifié de deux manières : (i) Utiliser deux sommets composés d'un ensemble de coordonnées x et y s'ils correspondent à des points diagonalement opposés du rectangle. Par exemple : x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Utiliser les quatre sommets. Pour en savoir plus, consultez la section Préparer des données vidéo.

bucket

Dossier de premier niveau pour Cloud Storage. Les noms de buckets doivent être uniques pour tous les utilisateurs de Cloud Storage. Les buckets contiennent des fichiers. Pour en savoir plus, consultez la présentation du produit Cloud Storage.

Chaîne de pensée

Dans l'IA générative, la chaîne de pensée (CoT) est une technique d'incitation qui encourage le grand modèle de langage (LLM) à détailler explicitement son processus de raisonnement avant de tirer une conclusion. Il s'agit d'inviter le modèle à montrer les étapes intermédiaires qu'il suit pour résoudre un problème, plutôt que de simplement fournir la réponse finale. Cette méthode peut améliorer considérablement les performances du LLM pour les tâches de raisonnement complexes.

chat

Contenu d'un dialogue avec un système de ML, généralement un grand modèle de langage. L'interaction précédente dans une discussion (ce que vous avez saisi et la réponse du grand modèle de langage) devient le contexte des parties suivantes de la discussion. Un chatbot est une application d'un grand modèle de langage.

checkpoint

Données qui capturent l'état des paramètres d'un modèle pendant l'entraînement ou une fois celui-ci terminé. Par exemple, pendant l'entraînement, vous pouvez : 1. Arrêter l'entraînement, peut-être intentionnellement ou en raison de certaines erreurs. 2. Capturez le point de contrôle. 3. Rechargez ensuite le point de contrôle, éventuellement sur un autre matériel. 4. Redémarrez l'entraînement. Dans Gemini, un point de contrôle fait référence à une version spécifique d'un modèle Gemini entraîné sur un ensemble de données spécifique.

modèle de classification

Modèle dont l'inférence est une classe. Par exemple, les modèles suivants sont tous des modèles de classification : un modèle qui prédit la langue d'une phrase saisie (français ? Espagnol ? Italien ?) Un modèle qui prédit les espèces d'arbres (érable ? Chêne ? Baobab ?). Modèle qui prédit la classe positive ou négative pour une affection médicale particulière.

métriques de classification

Les métriques de classification compatibles avec le SDK Vertex AI pour Python sont la matrice de confusion et la courbe ROC.

Cloud TPU

Accélérateur matériel spécialisé conçu pour accélérer les charges de travail de machine learning sur Google Cloud.

clustering

Dans le contexte de l'IA générative, le clustering est une technique de machine learning non supervisée utilisée pour regrouper des points de données similaires en fonction de leurs caractéristiques. Pour ce faire, il définit une mesure de similarité (ou métrique) permettant de comparer les points de données et regroupe ceux qui présentent une similarité élevée dans le même cluster. Dans les applications d'IA générative, cela peut impliquer de regrouper des embeddings (représentations numériques de texte, d'images ou d'autres données) pour effectuer des tâches telles que la recherche, la classification ou la détection d'anomalies. Par exemple, la segmentation des clients peut être obtenue en regroupant les données client pour identifier les groupes ayant des comportements ou des caractéristiques similaires. Pour en savoir plus, consultez Qu'est-ce que le clustering ?

image de conteneur

Une image de conteneur est un package qui fournit le code exécutable du composant et définit l'environnement dans lequel le code s'exécute. Pour en savoir plus, consultez la présentation de l'entraînement personnalisé.

context

Un contexte permet de regrouper des artefacts et des exécutions sous une catégorie unique, interrogeable et typée. Les contextes peuvent servir à représenter des ensembles de métadonnées. Un exemple de contexte pourrait être une exécution d'un pipeline de machine learning.

cache de contexte

Dans Vertex AI, un cache de contexte est une grande quantité de données qui peut être utilisée dans plusieurs requêtes envoyées à un modèle Gemini. Le contenu mis en cache est stocké dans la région où la requête de création du cache est effectuée. Il peut s'agir de n'importe quel type MIME compatible avec les modèles multimodaux Gemini, comme du texte, de l'audio ou de la vidéo. Pour en savoir plus, consultez Présentation de la mise en cache du contexte.

fenêtre de contexte

Nombre de jetons qu'un modèle peut traiter dans une requête donnée. Plus la fenêtre de contexte est grande, plus le modèle peut utiliser d'informations pour fournir des réponses cohérentes et adaptées à la requête.

Clés de chiffrement gérées par le client (CMEK)

Les clés de chiffrement gérées par le client (CMEK, Customer-Managed Encryption Keys) sont des intégrations qui permettent aux clients de chiffrer des données dans les services Google existants à l'aide d'une clé qu'ils gèrent dans Cloud KMS (alias Storky). La clé dans Cloud KMS est la clé de chiffrement de clé qui protège ses données. Pour en savoir plus, consultez Clés de chiffrement gérées par le client (CMEK).

Réseau VPC de consommateur

Un réseau VPC consommateur est un réseau cloud privé virtuel (VPC) Google qui accède de manière privée à un service hébergé dans un autre VPC (appelé VPC producteur). Pour en savoir plus, consultez Private Service Connect.

analyse des données ;

Procédure visant à comprendre des données en en étudiant les échantillons, les mesures et les visualisations. L'analyse de données peut s'avérer particulièrement utile à la réception d'un ensemble de données, avant la création du premier modèle. Elle est également cruciale pour interpréter les expériences et déboguer les problèmes affectant le système.

augmentation des données

Augmenter artificiellement l'éventail et le nombre d'exemples d'entraînement en transformant les exemples existants afin d'en créer de nouveaux. Supposons que votre ensemble de données contienne des exemples d'images, mais pas suffisamment pour que le modèle apprenne des associations utiles. Dans l'idéal, vous allez ajouter suffisamment d'images avec libellé à votre ensemble de données pour que votre modèle puisse s'entraîner correctement. Si ce n'est pas possible, l'augmentation des données peut faire pivoter, étirer et faire un reflet de chaque image afin de créer de nombreuses variantes de l'image originale, ce qui produira éventuellement suffisamment de données avec libellé pour un entraînement d'excellente qualité.

DataFrame

Type de données pandas populaire utilisé pour représenter des ensembles de données en mémoire. Un DataFrame est analogue à un tableau ou à une feuille de calcul. Chaque colonne d'un DataFrame porte un nom (un en-tête) et chaque ligne est identifiée par un nombre unique. Chaque colonne d'un DataFrame est structurée comme un tableau 2D, sauf que chaque colonne peut se voir attribuer son propre type de données.

Indexation des données

Dans le contexte de l'IA générative, l'indexation des données est le processus de structuration et d'organisation d'une base de connaissances pour optimiser la recherche et la récupération. Cela implique de créer un index, souvent appelé corpus, qui permet de rechercher efficacement les données. Ce processus est distinct de la création de corpus. Les données indexées peuvent être utilisées pour enrichir le contexte des grands modèles de langage (LLM), ce qui réduit les hallucinations et améliore la précision des réponses. Par exemple, dans le contexte d'un site Web, l'indexation des données peut impliquer l'ajout de métadonnées telles que datePublished et dateModified pour améliorer la fonctionnalité de recherche. Il existe différentes méthodes pour indexer les données, y compris la recherche vectorielle pour la recherche de similarités dans des applications telles que la récupération d'informations pertinentes pour les LLM au moment de la requête. Pour en savoir plus, consultez la présentation du moteur RAG .

Ingestion de données

L'ingestion de données est le processus d'extraction de données provenant de diverses sources et de leur intégration dans un emplacement central pour un traitement et une analyse ultérieurs. Dans le contexte de l'IA générative, l'ingestion de données consiste à extraire des informations de différentes sources de données, telles que des formulaires cliniques, des dossiers patients ou du texte non structuré, pour entraîner et affiner les modèles d'IA générative. Les données ingérées sont généralement traitées et transformées pour garantir leur qualité et leur cohérence avant d'être utilisées pour entraîner les modèles d'IA générative. Ce processus peut impliquer des techniques de nettoyage, d'extraction de caractéristiques et d'augmentation des données pour améliorer les performances et les capacités de généralisation du modèle. Pour en savoir plus, consultez Utiliser l'IA générative pour la gestion de l'utilisation.

Parallélisme des données

Méthode de mise à l'échelle de l'entraînement ou de l'inférence qui réplique un modèle entier sur plusieurs appareils, puis transmet un sous-ensemble des données d'entrée à chaque appareil. Le parallélisme des données peut permettre l'entraînement et l'inférence sur des tailles de lot très importantes. Toutefois, il nécessite que le modèle soit suffisamment petit pour tenir sur tous les appareils. Le parallélisme des données accélère généralement l'entraînement et l'inférence.

ensemble de données

Un ensemble de données est défini comme une collection d'enregistrements de données structurés ou non structurés. Ensemble de données brutes, généralement (mais pas exclusivement) organisé dans l'un des formats suivants : une feuille de calcul ou un fichier au format CSV (valeurs séparées par une virgule). Pour en savoir plus, voir Créer un ensemble de données

Transformation des données

Dans le contexte de la génération augmentée par récupération (RAG), la transformation des données fait référence à la conversion des données dans un format adapté à l'indexation et au traitement par un LLM. Cela implique souvent de diviser les données en blocs plus petits pour faciliter l'intégration et l'indexation. D'autres transformations peuvent inclure des étapes de nettoyage et de validation pour garantir la qualité des données. Pour en savoir plus, consultez la présentation du moteur RAG.

decoder

En général, tout système de ML qui convertit une représentation traitée, dense ou interne en une représentation plus brute, creuse ou externe. Les décodeurs sont souvent un composant d'un modèle plus vaste, où ils sont fréquemment associés à un encodeur. Dans les tâches de séquence à séquence, un décodeur commence par l'état interne généré par l'encodeur pour prédire la séquence suivante.

Réseau de neurones profond (DNN, Deep Neural Network)

Réseau de neurones avec plusieurs couches cachées, généralement programmé à l'aide de techniques de deep learning.

depth

Dans un réseau de neurones, il s'agit de la somme des éléments suivants : 1) le nombre de couches cachées, 2) le nombre de couches de sortie (généralement une seule) et 3) le nombre de couches d'embedding. Par exemple, un réseau de neurones avec cinq couches cachées et une couche de sortie a une profondeur de 6. Notez que la couche d'entrée n'a pas d'incidence sur la profondeur.

DevOps

DevOps est une suite de produits Google Cloud Platform, par exemple Artifact Registry et Cloud Deploy.

arrêt prématuré

Méthode de régularisation qui consiste à arrêter l'entraînement avant que la perte d'entraînement ait fini de baisser. Dans l'arrêt prématuré, vous arrêtez intentionnellement l'entraînement du modèle lorsque la perte sur un ensemble de données de validation commence à augmenter, c'est-à-dire lorsque les performances de généralisation se détériorent.

embedding

Représentations numériques de mots ou de textes. Ces nombres capturent la signification sémantique et le contexte du texte. Les mots ou textes similaires ou connexes ont tendance à avoir des embeddings similaires, ce qui signifie qu'ils sont plus proches les uns des autres dans l'espace vectoriel de grande dimension.

espace d'embedding (espace latent)

Dans l'IA générative, l'espace d'embedding fait référence à une représentation numérique de texte, d'images ou de vidéos qui capture les relations entre les entrées. Les modèles de machine learning, en particulier les modèles d'IA générative, permettent de créer ces embeddings en identifiant des modèles dans des ensembles de données volumineux. Les applications peuvent utiliser des embeddings pour traiter et générer du langage, en reconnaissant des significations complexes et des relations sémantiques spécifiques au contenu.

vecteur d'embedding

Représentation vectorielle dense, souvent de faible dimension, d'un élément. Si deux éléments sont sémantiquement similaires, leurs embeddings respectifs sont proches l'un de l'autre dans l'espace du vecteur d'embedding.

encoder

En général, tout système de ML qui convertit une représentation brute, éparse ou externe en une représentation plus traitée, plus dense ou plus interne. Les encodeurs sont souvent un composant d'un modèle plus vaste, où ils sont fréquemment associés à un décodeur. Certains transformers associent des encodeurs à des décodeurs, tandis que d'autres n'utilisent que l'encodeur ou le décodeur. Certains systèmes utilisent la sortie de l'encodeur comme entrée d'un réseau de classification ou de régression. Dans les tâches de séquence à séquence, un encodeur prend une séquence d'entrée et renvoie un état interne (un vecteur). Le décodeur utilise ensuite cet état interne pour prédire la séquence suivante.

ensemble

Ensemble de modèles entraînés indépendamment dont les inférences sont moyennées ou agrégées. Dans de nombreux cas, un ensemble produit de meilleures inférences qu'un seul modèle. Par exemple, une forêt aléatoire est un ensemble construit à partir de plusieurs arbres de décision. Notez que toutes les forêts de décision ne sont pas des ensembles.

environment

Dans l'apprentissage par renforcement, le monde contient l'agent et lui permet d'observer l'état de ce monde. Par exemple, le monde représenté peut être un jeu comme les échecs ou un monde physique comme un labyrinthe. Lorsque l'agent applique une action à l'environnement, celui-ci passe d'un état à un autre.

évaluation (eval)

Une évaluation est un type de test dans lequel des requêtes enregistrées ou synthétiques sont envoyées à travers deux piles de recherche : une pile expérimentale qui inclut votre modification et une pile de base sans votre modification. Les évaluations génèrent des différences et des métriques qui vous permettent d'évaluer l'impact, la qualité et d'autres effets de votre modification sur les résultats de recherche et d'autres éléments de l'expérience utilisateur Google. Les évaluations sont utilisées lors de l'ajustement ou des itérations de votre modification. Elles sont également utilisées pour déployer une modification du trafic utilisateur réel.

exécution

Une exécution est un enregistrement d'une étape individuelle de workflow de machine learning, généralement annoté avec ses paramètres d'exécution. Les exemples d'exécution incluent l'ingestion de données, la validation de données, l'entraînement de modèle, l'évaluation de modèle et le déploiement de modèle.

Score F1

Le score F1 est une métrique utilisée pour évaluer la précision de la sortie d'un modèle. Elle est particulièrement utile pour évaluer les performances des modèles dans les tâches où la précision et le rappel sont importants, comme l'extraction d'informations. Pour les modèles d'IA générative, le score F1 peut être utilisé pour comparer les inférences du modèle aux données de vérité terrain afin de déterminer la précision du modèle. Toutefois, pour les tâches génératives telles que la synthèse et la génération de texte, d'autres métriques comme le score Rough-L peuvent être plus appropriées.

fonctionnalité

En machine learning (ML), une caractéristique est une caractéristique ou un attribut d'une instance ou d'une entité utilisée comme entrée pour entraîner un modèle de ML ou pour effectuer des inférences.

extraction de caractéristiques

Dans le contexte de l'IA générative, l'extraction de caractéristiques désigne le processus d'identification et de sélection des caractéristiques pertinentes à partir des données d'entrée à utiliser pour l'entraînement du modèle. Ces caractéristiques sont ensuite utilisées pour générer de nouvelles données qui ressemblent à l'entrée d'origine. Par exemple, dans la génération d'images, l'extraction de caractéristiques peut impliquer l'identification des bords, des textures et des couleurs. Dans le traitement du langage naturel, cela peut impliquer l'extraction de mots clés, d'expressions et de structures grammaticales. Le modèle génératif utilise ensuite les caractéristiques extraites pour créer du contenu.

publication de caractéristiques

La livraison de caractéristiques consiste à exporter ou récupérer des valeurs de caractéristiques pour l'entraînement ou l'inférence. Dans Vertex AI, il existe deux types de publication de caractéristiques : la diffusion en ligne et la diffusion hors connexion. La diffusion en ligne récupère les dernières valeurs de caractéristiques d'un sous-ensemble de la source de données de caractéristiques pour les inférences en ligne. La diffusion hors connexion ou par lot exporte d'importants volumes de données de caractéristiques (y compris les données historiques) pour le traitement hors connexion, comme l'entraînement de modèles de ML.

Vue des caractéristiques

Une vue de caractéristiques est une collection logique de caractéristiques matérialisées depuis une source de données BigQuery vers une instance de magasin en ligne. Une vue de caractéristiques stocke et actualise régulièrement les données des caractéristiques du client, qui sont actualisées périodiquement à partir de la source BigQuery. Une vue de caractéristiques est associée au stockage de données de caractéristiques, directement ou via des associations aux ressources de registre de caractéristiques.

Requête few-shot (few-shot)

Dans l'IA générative, le terme "few-shot" désigne un type de requête qui inclut un petit nombre d'exemples pour guider la réponse du modèle. Ces exemples aident le modèle à comprendre le format de sortie, la formulation, le champ d'application ou la mise en forme générale souhaités pour la réponse. Les requêtes few-shot sont souvent utilisées pour réguler la sortie des modèles de langage, en veillant à ce qu'ils génèrent des réponses précises, de haute qualité et conformes aux attentes des utilisateurs. En fournissant au modèle quelques exemples pertinents, l'utilisateur peut influencer son comportement et obtenir des résultats plus satisfaisants. Pour en savoir plus, consultez Inclure des exemples few-shot.

Modèle de base (FM)

Modèles entraînés sur des données générales afin de pouvoir être adaptés (par exemple, affinés) à un large éventail de tâches en aval.

Opérations sur les modèles de base (FMOPs)

Les FMOps étendent les capacités des MLOps et se concentrent sur la production efficace de FM pré-entraînés (entraînés à partir de zéro) ou personnalisés (affinés).

Gemini

Gemini est un ensemble de grands modèles multimodaux basés sur des séquences de Google. Cela signifie qu'elles peuvent accepter des entrées et produire des sorties dans plusieurs formats à la fois, y compris du texte, de l'audio et des supports visuels. Ils sont conçus pour s'intégrer à des agents capables d'effectuer diverses tâches. Pour en savoir plus, consultez Modèles Google.

généralisation

Capacité d'un modèle à effectuer des inférences correctes sur des données nouvelles, qui n'ont encore jamais été vues. Un modèle capable de généraliser est l'opposé d'un modèle en surapprentissage.

génération

Dans le contexte de l'IA générative, la "génération" fait référence au processus de création de nouvelles données ou de nouveaux contenus à partir de données ou d'informations existantes. Les modèles d'IA générative sont entraînés sur de grands ensembles de données et peuvent apprendre les schémas et les relations dans les données. Ils peuvent ensuite utiliser ces connaissances pour générer des contenus nouveaux et uniques, semblables aux données d'entraînement, mais pas identiques. Pour en savoir plus, consultez Quand utiliser l'IA générative ou l'IA traditionnelle ?.

modèle génératif

Type de modèle de machine learning capable de créer des résultats inédits en fonction de ses données d'entraînement. Dans sa forme la plus simple, le modèle génère de nouvelles données qui ressemblent à un certain ensemble de catégories sur lesquelles il a été entraîné. Généralement associés aux grands modèles de langage, mais d'autres types de modèles peuvent également être génératifs.

Google Embedded Modem System (GEMS)

GEMS est un framework logiciel intégré ciblant les modems, ainsi qu'un ensemble de workflows et d'infrastructures de développement associés. L'objectif principal de GEMS est de fournir un code de système de modem de haute qualité et très réutilisable sur de nombreux appareils Google contenant des modems. Pour concrétiser cette vision globale, GEMS fournit un environnement complet aux développeurs, composé des principaux blocs de construction illustrés ci-dessous.

dégradé

Vecteur des dérivées partielles calculées pour l'ensemble des variables indépendantes. Dans le machine learning, le gradient correspond au vecteur des dérivées partielles de la fonction du modèle. Le gradient indique toujours la direction de la croissance maximale.

graph

Dans le contexte de l'IA générative, un graphique désigne une représentation structurée des informations qui organise et connecte les données sous la forme d'un réseau de nœuds et d'arêtes. Ces graphiques sont souvent utilisés pour représenter les connaissances et les relations entre les entités. Ils sont donc particulièrement utiles pour les systèmes d'IA générative qui nécessitent une compréhension approfondie du contexte et des relations dans les données. Les systèmes d'IA générative qui exploitent des graphiques de connaissances peuvent les utiliser pour améliorer les performances des modèles de récupération. En intégrant des Knowledge Graphs au système, l'IA générative peut accéder à des données riches en contexte et parcourir le graphique pour récupérer les sous-graphiques pertinents en fonction des requêtes des utilisateurs. Le système peut ainsi fournir des réponses plus précises et informatives en générant du contenu adapté au contexte.

vérité terrain (GT)

La vérité terrain est un terme utilisé dans différents domaines pour désigner la vérité absolue d'un problème de décision ou de mesure, par opposition à l'estimation d'un système. En machine learning, le terme "vérité terrain" fait référence à l'ensemble d'entraînement pour les techniques d'apprentissage supervisé.

hallucination

Dans l'IA générative, une hallucination est une réponse assurée d'une IA qui ne peut pas être ancrée dans ses données d'entraînement. Il peut être factuellement incorrect. Dans le contexte de la génération de texte, il s'agit de faussetés aléatoires plausibles dans le contenu textuel généré.

Heuristique

Solution simple et rapide à un problème. Par exemple, "Avec une heuristique, nous avons atteint une précision de 86 %. Lorsque nous avons opté pour un réseau de neurones profond, la précision a atteint 98 %."

couche cachée .

Couche d'un réseau de neurones située entre la couche d'entrée (les caractéristiques) et la couche de sortie (l'inférence). Chaque couche cachée est constituée d'un ou plusieurs neurones. Un réseau de neurones profond contient plus d'une couche cachée.

histogram

Affichage graphique de la variation d'un ensemble de données à l'aide de barres. Un histogramme permet de visualiser des modèles difficiles à détecter dans une simple table de nombres.

hyperparameter

Un hyperparamètre fait référence à une variable qui régit le processus d'entraînement d'un modèle de machine learning. Ces variables peuvent inclure les taux d'apprentissage, les valeurs de momentum dans l'optimiseur et le nombre d'unités dans la dernière couche cachée d'un modèle. Pour en savoir plus, consultez la présentation des réglages d'hyperparamètres.

Réglage des hyperparamètres

Le réglage des hyperparamètres dans Vertex AI consiste à exécuter plusieurs essais d'une application d'entraînement avec différentes valeurs pour les hyperparamètres choisis, définies dans des limites spécifiées. L'objectif est d'optimiser les paramètres d'hyperparamètres pour maximiser la précision prédictive du modèle. Pour en savoir plus, consultez la présentation des réglages d'hyperparamètres.

Autorisations IAM (Identity and Access Management)

Les autorisations Identity and Access Management (IAM) sont des fonctionnalités précises qui définissent qui peut faire quoi sur quelles ressources Google Cloud. Ils sont attribués à des comptes principaux (comme des utilisateurs, des groupes ou des comptes de service) par le biais de rôles, ce qui permet de contrôler précisément l'accès aux services et aux données dans un projet ou une organisation Google Cloud. Pour en savoir plus, consultez la page Contrôle des accès avec IAM.

Imagen

Imagen est un service d'IA générative de texte vers image disponible sur la plate-forme Vertex AI. Il permet aux utilisateurs de générer des images inédites, de modifier des images, d'affiner des modèles de style ou de sujet, de sous-titrer des images ou d'obtenir des réponses à des questions sur le contenu des images. Pour en savoir plus, consultez la présentation d'Imagen sur Vertex AI.

reconnaissance d'images

La reconnaissance d'images est le processus de classification des objets, des formes ou des concepts dans une image. Elle est également appelée "classification d'images". La reconnaissance d'images est un sous-domaine du machine learning et de la vision par ordinateur.

index

Un ensemble de vecteurs déployés pour la recherche de similarités. Les vecteurs peuvent être ajoutés à un index ou supprimés de celui-ci. Les requêtes de recherche de similarités sont émises sur un index spécifique et recherchent les vecteurs de cet index.

inférence

Dans le contexte de la plate-forme Vertex AI, l'inférence fait référence au processus d'exécution de points de données dans un modèle de machine learning pour calculer une sortie, telle qu'un score numérique unique. Ce processus est également appelé "opérationnalisation d'un modèle de machine learning" ou "mise en production d'un modèle de machine learning". L'inférence est une étape importante du workflow de machine learning, car elle permet aux modèles d'être utilisés pour faire des inférences sur de nouvelles données. Dans Vertex AI, l'inférence peut être effectuée de différentes manières, y compris l'inférence par lot et l'inférence en ligne. L'inférence par lot consiste à exécuter un groupe de requêtes d'inférence et à générer les résultats dans un fichier, tandis que l'inférence en ligne permet d'effectuer des inférences en temps réel sur des points de données individuels.

Récupération d'informations

La récupération d'informations est un composant clé de Vertex AI Search. Il s'agit du processus de recherche et de récupération d'informations pertinentes à partir d'une grande collection de données. Dans le contexte de Vertex AI, la RI est utilisée pour récupérer des documents à partir d'un corpus en fonction de la requête d'un utilisateur. Vertex AI propose une suite d'API pour vous aider à créer vos propres applications de génération augmentée par récupération (RAG) ou votre propre moteur de recherche. Pour en savoir plus, consultez Utiliser Vertex AI Search comme backend de récupération à l'aide du moteur RAG.

Infrastructure as Code (IaC)

Infrastructure as Code. Approche de gestion de l'infrastructure informatique permettant aux équipes de gérer et de provisionner des services par le biais de code. Avec IaC, des fichiers de configuration contenant les spécifications de l'infrastructure sont créés, ce qui facilite la création et la modification de l'infrastructure à grande échelle.

Infrastructure as Code (IaC)

Infrastructure as Code. Approche de gestion de l'infrastructure informatique permettant aux équipes de gérer et de provisionner des services par le biais de code. Avec IaC, des fichiers de configuration contenant les spécifications de l'infrastructure sont créés, ce qui facilite la création et la modification de l'infrastructure à grande échelle.

perte (coût)

Pendant l'entraînement d'un modèle supervisé, il s'agit d'une mesure de l'écart entre l'inférence d'un modèle et son libellé. Une fonction de perte calcule la perte.

Ensemble de données géré

Objet d'ensemble de données créé et hébergé par Vertex AI.

model

Tout modèle pré-entraîné ou non. En général, toute construction mathématique qui traite des données d'entrée et renvoie des données de sortie. En d'autres termes, un modèle est l'ensemble des paramètres et de la structure nécessaires à un système pour faire des inférences.

Distillation de modèle (distillation des connaissances, modèles enseignant-élève)

La distillation de modèle est une technique qui permet à un modèle élève plus petit d'apprendre à partir d'un modèle enseignant plus grand. Le modèle étudiant est entraîné à imiter la sortie du modèle enseignant. Il peut ensuite être utilisé pour générer de nouvelles données ou effectuer des inférences. La distillation de modèle est souvent utilisée pour rendre les grands modèles plus efficaces ou plus accessibles aux appareils disposant de ressources limitées. Il peut également être utilisé pour améliorer la généralisation des modèles en réduisant le surapprentissage.

Model Monitoring

Vertex AI Model Monitoring est un service qui évalue en continu les performances des modèles déployés en détectant les écarts et les dérives de caractéristiques dans les requêtes de prédiction. Il permet ainsi de maintenir la qualité des modèles au fil du temps. Pour en savoir plus, consultez la Présentation de Vertex AI Model Monitoring.

nom de ressource de modèle

Le nom de ressource d'un model est le suivant : projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Vous trouverez l'ID du modèle dans la console Cloud, sur la page "Registre de modèles".

Network File System (NFS)

Système client/serveur qui permet aux utilisateurs d'accéder à des fichiers sur un réseau et de les traiter comme s'ils se trouvaient dans un répertoire de fichiers local. Pour en savoir plus, consultez Installer un partage NFS pour l'entraînement personnalisé.

Encodage one-hot

L'encodage one-hot représente chaque catégorie sous la forme d'un vecteur de N éléments (où N est le nombre de catégories) avec exactement un élément ayant une valeur de 1.0 et tous les éléments restants ayant une valeur de 0.0. Pour en savoir plus, consultez Encodage one-hot.

Requête one-shot

Requête contenant un exemple montrant comment le grand modèle de langage doit répondre. Pour en savoir plus, consultez Requête one-shot.

parameter

Les paramètres sont des valeurs d'entrée à clé qui configurent une exécution, régulent le comportement de l'exécution et affectent les résultats de l'exécution. Exemples : taux d'apprentissage, taux d'abandon et nombre d'étapes d'entraînement.

Perplexité

La perplexité est une métrique utilisée pour évaluer les performances des modèles de langage. Elle mesure la probabilité que le modèle génère une séquence de texte donnée en fonction de la distribution du texte sur lequel il a été entraîné. La perplexité est une métrique couramment utilisée pour évaluer les modèles de langage. Elle sert souvent à comparer les performances de différents modèles ou à suivre la progression d'un modèle pendant l'entraînement.

pipeline

Les pipelines de ML sont des workflows de ML portables et évolutifs basés sur des conteneurs. Pour en savoir plus, consultez la Présentation de Vertex AI Pipelines.

tâche de pipeline

Un job de pipeline ou une exécution de pipeline correspondent à la ressource PipelineJob dans l'API Vertex AI. Il s'agit d'une instance d'exécution de votre définition de pipeline de ML, qui est définie comme un ensemble de tâches de ML interconnectées par des dépendances d'entrée/sortie.

exécution de pipeline

Un ou plusieurs PipelineJobs Vertex peuvent être associés à un test où chaque PipelineJob est représenté comme une seule exécution. Dans ce contexte, les paramètres de l'exécution sont déduits par les paramètres de la tâche PipelineJob. Les métriques sont déduits des artefacts system.Metric générés par cette tâche PipelineJob. Les artefacts de l'exécution sont déduits des artefacts produits par cette tâche PipelineJob.

Accès aux services privés

L'accès aux services privés est une connexion privée entre votre réseau de cloud privé virtuel (VPC) et les réseaux appartenant à Google ou à des fournisseurs de services tiers. Elle permet aux instances de machines virtuelles (VM) de votre réseau VPC de communiquer avec ces services à l'aide d'adresses IP internes, ce qui évite l'exposition à l'Internet public. Pour en savoir plus, consultez Accès aux services privés.

requête

Une requête est une demande en langage naturel envoyée à un modèle de langage afin d'obtenir une réponse. Les requêtes peuvent contenir des questions, des instructions, des informations contextuelles, des exemples few-shot et des entrées partielles que le modèle doit terminer ou continuer. Une fois que le modèle a reçu une requête, en fonction du type de modèle utilisé, il peut générer du texte, des embeddings, du code, des images, des vidéos, de la musique, etc. Pour en savoir plus, consultez Présentation des stratégies de requête.

Ingénierie des prompts (conception des prompts)

L'ingénierie des requêtes dans l'IA générative consiste à créer des requêtes efficaces pour obtenir les résultats souhaités à partir de grands modèles de langage (LLM). Il s'agit d'un processus itératif axé sur les tests, qui vise à affiner les entrées pour obtenir des résultats spécifiques. Cela implique de tenir compte à la fois du contenu et de la structure de la requête pour garantir des réponses précises et de haute qualité. L'ingénierie des requêtes efficace est essentielle pour les tâches complexes, même si les tâches plus simples peuvent ne pas en avoir besoin. L'objectif est de prototyper rapidement des applications basées sur des LLM. Pour en savoir plus, consultez Présentation de l'ingénierie des requêtes.

Réglage des requêtes

Le réglage des requêtes est une méthode d'affinage efficace des paramètres utilisée pour améliorer les performances d'un modèle d'IA générative sur une tâche spécifique. Il s'agit d'apprendre un "préfixe" qui est ajouté au prompt réel, parfois à chaque couche. Cette approche est considérée comme moins chère et plus rapide que les autres méthodes d'optimisation, et donne souvent de bons résultats. Le réglage des prompts est particulièrement efficace lorsque vous avez une tâche spécifique et que vous souhaitez que le modèle l'exécute d'une certaine manière. On parle aussi parfois d'apprentissage par requête ou de réglage fin efficace des paramètres. Pour en savoir plus, consultez Présentation de l'ingénierie des requêtes.

Débit provisionné (DP)

Le débit provisionné (DP) est un service premium pour les modèles d'IA générative de Vertex AI. Il offre une expérience garantie grâce à une capacité assurée et à des tarifs prévisibles. Contrairement à l'option de paiement à l'usage (à la demande), PT permet aux clients d'acheter un quota dédié, ce qui garantit que leurs requêtes ne sont pas en concurrence avec d'autres pour la capacité du modèle. Le débit provisionné est un abonnement mensuel ou hebdomadaire à coût fixe qui réserve du débit pour des modèles et des emplacements spécifiques. Pour en savoir plus, consultez Présentation du débit provisionné.

quantification

La quantification est une technique d'optimisation de modèle utilisée pour réduire la précision des nombres utilisés pour représenter les paramètres d'un modèle. Cela peut entraîner des modèles plus petits, une consommation d'énergie plus faible et une latence d'inférence réduite.

Forêt d'arbres décisionnels

La forêt aléatoire est un algorithme de machine learning utilisé pour la classification et la régression. Il ne s'agit pas directement d'un modèle d'IA générative, mais d'un composant qui peut être utilisé dans un système d'IA générative plus vaste. Une forêt aléatoire se compose de plusieurs arbres de décision, et son inférence est une agrégation des inférences de ces arbres individuels. Par exemple, dans une tâche de classification, chaque arbre "vote" pour une classe, et l'inférence finale est la classe qui obtient le plus de votes. Pour en savoir plus, consultez Forêt de décision.

Cluster Ray sur Vertex AI

Un cluster Ray sur Vertex AI est un cluster géré de nœuds de calcul qui peut être utilisé pour exécuter des applications Python et de machine learning (ML) distribuées. Il fournit l'infrastructure nécessaire pour les opérations de calculs distribuées et de traitement en parallèle pour votre workflow de ML. Les clusters Ray sont intégrés à Vertex AI pour garantir la disponibilité de la capacité pour les charges de travail de ML critiques ou pendant les périodes de pics. Contrairement aux tâches personnalisées, où le service d'entraînement libère la ressource une fois la tâche terminée, les clusters Ray restent disponibles jusqu'à leur suppression. Pour en savoir plus, consultez la présentation de Ray sur Vertex AI.

Ray sur Vertex AI (RoV)

Ray sur Vertex AI est conçu pour vous permettre d'utiliser le même code Ray Open Source pour écrire des programmes et développer des applications sur Vertex AI avec un minimum de modifications. Pour en savoir plus, consultez la présentation de Ray sur Vertex AI.

SDK Ray sur Vertex AI pour Python

Le SDK Ray sur Vertex AI pour Python est une version du SDK Vertex AI pour Python qui inclut les fonctionnalités du client Ray, du connecteur BigQuery pour Ray, de la gestion des clusters Ray sur Vertex AI et des inférences sur Vertex AI. Pour en savoir plus, consultez Présentation du SDK Vertex AI pour Python.

recall

Le pourcentage de vrais voisins les plus proches renvoyé par l'index. Par exemple, si une requête de 20 voisins les plus proches renvoie un résultat de 19 voisins les plus proches de "vérité terrain", le rappel est de 19 / 20 x 100 = 95 %.

système de recommandation

Un système de recommandation est un système basé sur le machine learning qui aide les utilisateurs à trouver du contenu intéressant dans un grand corpus. Il génère un sous-ensemble plus petit de candidats à partir d'un corpus potentiellement énorme, attribue des scores et classe les candidats, puis reclasse le classement final pour tenir compte des contraintes supplémentaires. Pour en savoir plus, consultez la présentation des systèmes de recommandation.

régularisation

La régularisation est une technique utilisée pour éviter le surapprentissage dans les modèles de machine learning. Le surapprentissage se produit lorsqu'un modèle apprend trop bien les données d'entraînement, ce qui entraîne de mauvaises performances sur les données inconnues. L'arrêt prématuré est un type spécifique de régularisation. Il consiste à interrompre l'entraînement avant que la perte sur un ensemble de validation ne commence à augmenter, ce qui indique une baisse des performances de généralisation. Pour en savoir plus, consultez Surapprentissage : régularisation L2.

Apprentissage par renforcement

Type de machine learning dans lequel un agent apprend à prendre des décisions en effectuant des actions dans un environnement afin de maximiser une récompense cumulative. Pour en savoir plus, consultez Réglage RLHF avec Vertex AI.

compte de service

Les comptes de service sont des comptes Google Cloud spéciaux utilisés par les applications ou les machines virtuelles pour effectuer des appels d'API autorisés aux services Google Cloud. Contrairement aux comptes utilisateur, ils ne sont pas liés à une personne physique, mais servent d'identité à votre code, ce qui permet un accès sécurisé et programmatique aux ressources sans nécessiter d'identifiants humains. Pour en savoir plus, consultez la section Présentation des comptes de service.

Agent de service

Un agent de service fait référence à un compte de service géré par Google. Il est utilisé lorsqu'un service a besoin d'accéder à des ressources créées par un autre service. Par exemple, lorsque les services Dataflow ou Dataproc doivent créer des instances lors de l'exécution, ou lorsqu'une fonction Cloud souhaite utiliser le service Key Management Service (KMS) pour se protéger. Les agents de service sont créés automatiquement par Google Cloud lorsqu'un service en a besoin. Ils sont généralement utilisés pour gérer l'accès aux ressources et effectuer diverses tâches au nom du service. Pour en savoir plus, consultez Agents de service.

métriques récapitulatives

Les métriques récapitulatives sont une valeur unique pour chaque clé de métrique lors d'une exécution de test. Par exemple, la justesse d'un test est la justesse calculée à partir d'un ensemble de données de test à la fin de l'entraînement et pouvant être capturée en tant que métrique récapitulative à valeur unique.

TensorBoard

TensorBoard est une suite d'applications Web permettant de visualiser et de comprendre les exécutions et les modèles TensorFlow. Pour en savoir plus, consultez la page sur TensorBoard.

Instance TensorBoard

Une instance TensorBoard est une ressource régionalisée qui stocke les tests Vertex AI TensorBoard associés à un projet. Vous pouvez créer plusieurs instances TensorBoard dans un projet si, par exemple, vous souhaitez plusieurs instances configurées pour utiliser les CMEK. Elle correspond à la ressource TensorBoard dans l'API.

Nom de ressource TensorBoard

Le nom de la ressource TensorBoard permet d'identifier complètement une instance Vertex AI TensorBoard. Le format est le suivant : projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID.

horodatage

L'horodatage fait référence au début d'une vidéo.

métriques de séries temporelles

Les métriques de séries temporelles sont des valeurs de métriques longitudinales où chaque valeur représente une étape de la partie routine d'entraînement d'une exécution. Les métriques de séries temporelles sont stockées dans Vertex AI TensorBoard. Vertex AI Experiments stocke une référence à la ressource Vertex TensorBoard.

token

Dans un modèle de langage, le jeton est l'unité atomique sur laquelle le modèle effectue l'entraînement et les inférences (c'est-à-dire les mots, les morphèmes et les caractères). Dans les domaines autres que les modèles de langage, les jetons peuvent représenter d'autres types d'unités atomiques. Par exemple, dans les applications de vision par ordinateur, un jeton peut être un sous-ensemble d'une image. Pour en savoir plus, consultez Lister et compter les jetons.

trajectoire

Une "trajectoire" désigne une séquence d'étapes ou d'actions entreprises par un agent ou un modèle. Elle est souvent utilisée pour évaluer les modèles génératifs, où la capacité du modèle à générer du texte, du code ou d'autres contenus est évaluée. Il existe plusieurs types de métriques de trajectoire qui peuvent être utilisées pour évaluer les modèles génératifs, y compris la correspondance exacte de la trajectoire, la correspondance de la trajectoire dans l'ordre, la correspondance de la trajectoire dans n'importe quel ordre et la précision de la trajectoire. Ces métriques mesurent la similarité entre la sortie du modèle et un ensemble de sorties de référence générées par des humains.

Transformer

Un "Transformer" est une architecture de réseau de neurones qui sous-tend la plupart des modèles génératifs de pointe. Il est utilisé dans diverses applications de modèles linguistiques, y compris la traduction. Les Transformers se composent d'un encodeur et d'un décodeur. L'encodeur convertit le texte d'entrée en une représentation intermédiaire, et le décodeur convertit cette représentation en une sortie utile. Ils utilisent un mécanisme d'auto-attention pour recueillir le contexte des mots entourant le mot en cours de traitement. Bien que l'entraînement d'un Transformer nécessite des ressources importantes, l'affinage d'un Transformer pré-entraîné pour des applications spécifiques est plus efficace.

Apprentissage par renforcement avec Transformer

L'apprentissage par renforcement des transformateurs (TRL, Transformer Reinforcement Learning) désigne l'application de techniques d'apprentissage par renforcement (RL, Reinforcement Learning) pour entraîner des modèles basés sur des transformateurs pour des tâches génératives. Cette approche permet de pallier les limites des modèles génératifs traditionnels, qui sont souvent entraînés sur l'inférence du jeton suivant sans optimisation explicite pour les qualités souhaitables telles que la cohérence, la sécurité et la sensibilité. TRL optimise directement le modèle de langage sur des objectifs complexes en utilisant l'apprentissage par renforcement, en intégrant souvent le feedback humain (RLHF) pour guider le processus d'apprentissage. Par exemple, vous pouvez affiner des modèles pour générer du contenu moins toxique à l'aide de modèles de récompense et utiliser TRL pour affiner Gemma, un modèle génératif. Pour en savoir plus, consultez Conteneurs de deep learning Hugging Face : affiner Gemma avec Transformer Reinforcement Learning (TRL) sur Vertex AI.

vrai positif

Un "vrai positif" désigne une inférence où le modèle identifie correctement une classe positive. Par exemple, si un modèle est entraîné pour identifier les clients qui achèteront un blouson, un vrai positif correspond à la prédiction correcte qu'un client effectuera un tel achat.

validation

La validation vérifie la qualité des inférences d'un modèle par rapport à l'ensemble de validation. Cela implique de définir des métriques pour mesurer la qualité, la vitesse, le respect des instructions et la sécurité du contenu généré. La validation utilise souvent des données étiquetées (requêtes d'entrée et sorties attendues) pour comparer les inférences du modèle à la vérité terrain. Des métriques telles que le score F1 (pour la classification) et le score ROUGE-L (pour la synthèse) peuvent être utilisées. Le processus inclut également des tests de cas extrêmes et de scénarios inhabituels pour garantir la robustesse. Pour les modèles déployés, la surveillance continue et la capture des points de données courants et des cas extrêmes permettent d'améliorer les futurs efforts de validation.

vecteur

Un vecteur fait référence à une représentation numérique de texte, d'images ou de vidéos qui capture les relations entre les entrées. Les modèles de machine learning permettent de créer ces embeddings en identifiant des modèles dans des ensembles de données volumineux. Les applications peuvent utiliser des embeddings pour traiter et produire du langage, en reconnaissant des significations complexes et des relations sémantiques spécifiques au contenu. Pour en savoir plus, consultez la présentation des API d'embeddings.

Vertex AI Agent Engine

Vertex AI Agent Engine, qui fait partie de la plate-forme Vertex AI, est un ensemble de services qui permet aux développeurs de déployer, de gérer et de faire évoluer des agents IA en production. Agent Engine gère l'infrastructure pour faire évoluer les agents en production, ce qui vous permet de vous concentrer sur la création d'applications. Pour en savoir plus, consultez la présentation de Vertex AI Agent Engine.

Vertex AI Experiments

Vertex AI Experiments permet aux utilisateurs de suivre les éléments suivants : 1. Étapes d'une exécution de test (par exemple, prétraitement et entraînement). 2. les entrées (par exemple, l'algorithme, les paramètres et les ensembles de données) ; 3. les résultats de ces étapes (par exemple, les modèles, les points de contrôle et les métriques).

Vertex AI Inference

Service Vertex AI qui vous permet d'utiliser un modèle de machine learning (ML) entraîné pour effectuer des inférences à partir de nouvelles données inconnues. Vertex AI fournit des services permettant de déployer des modèles pour l'inférence. Pour en savoir plus, consultez Obtenir des inférences à partir d'un modèle entraîné personnalisé.

Vertex AI Model Registry

Vertex AI Model Registry est un dépôt central dans lequel vous pouvez gérer le cycle de vie de vos modèles de ML. Vertex AI Model Registry vous offre un aperçu de vos modèles afin de mieux organiser, suivre et entraîner les nouvelles versions. Lorsque vous souhaitez déployer une version de modèle, vous pouvez l'attribuer à un point de terminaison directement à partir du registre ou, à l'aide d'alias, déployer des modèles sur un point de terminaison. Pour en savoir plus, consultez Présentation de Vertex AI Model Registry.

segment vidéo

Un segment vidéo est identifié par l'horodatage de début et de fin d'une vidéo.

Cloud privé virtuel (VPC)

Cloud privé sécurisé et isolé, hébergé dans un cloud public, qui vous permet de définir un réseau virtuel isolé de manière logique des autres réseaux virtuels dans Google Cloud. Pour en savoir plus, consultez Cloud privé virtuel.

embedding de mots

Les embeddings de mots permettent de représenter les mots sous forme de vecteurs denses de valeurs à virgule flottante. Cela permet aux mots semblables d'avoir des encodages similaires. Les embeddings de mots sont souvent utilisés dans l'IA générative pour capturer les relations entre les mots et générer du texte ou du code, sans sources. Dans l'IA générative, les embeddings lexicaux peuvent être utilisés pour entraîner des modèles capables de générer du texte ou du code. En comprenant les relations entre les mots, les modèles d'IA générative peuvent créer des contenus cohérents et pertinents.

Requête zero-shot (requête directe)

Dans l'IA générative, une requête zero-shot est une requête qui permet à un grand modèle de langage (LLM) d'effectuer une tâche sans entraînement ni exemples supplémentaires. Cela contraste avec des méthodes comme le prompting few-shot, qui fournit au modèle des exemples d'entrées et de sorties. Un prompt zero-shot s'appuie uniquement sur les connaissances préexistantes du modèle pour générer une réponse. Pour en savoir plus, consultez Requête zero-shot.