Glossario dell'IA generativa
Questo glossario definisce i termini dell'intelligenza artificiale (IA) generativa.
Agenti AI
Un agente IA è un'applicazione che raggiunge un obiettivo elaborando input, eseguendo deduzioni con gli strumenti disponibili e intraprendendo azioni in base alle sue decisioni. Gli agenti di IA utilizzano le chiamate di funzione per formattare l'input e garantire interazioni precise con gli strumenti esterni. Il seguente diagramma mostra i componenti di un agente AI:
Come mostrato nel diagramma precedente, gli agenti IA sono costituiti dai seguenti componenti:
- Orchestrazione: il livello di orchestrazione di un agente gestisce la memoria, lo stato e il processo decisionale controllando il piano, l'utilizzo degli strumenti e il flusso di dati. L'orchestrazione include i seguenti componenti:
- Profilo e istruzioni: l'agente assume un ruolo o una persona specifici per dirigere le sue azioni e il suo processo decisionale.
- Memoria: per mantenere il contesto e lo stato, l'agente conserva la memoria a breve termine e a lungo termine. La memoria a breve termine contiene il contesto immediato e le informazioni necessarie per l'attività in corso. La memoria a lungo termine conserva la cronologia completa delle conversazioni.
- Ragionamento e pianificazione: l'agente utilizza il modello per eseguire la decomposizione e la riflessione delle attività, quindi crea un piano. Innanzitutto, l'agente separa il prompt dell'utente in sottocomponenti per gestire attività complesse chiamando una o più funzioni. Successivamente, l'agente riflette sugli output della funzione utilizzando il ragionamento e il feedback per migliorare la risposta.
- Modello: qualsiasi modello linguistico generativo che elabora obiettivi, crea piani e genera risposte. Per prestazioni ottimali, un modello deve supportare le chiamate di funzione e deve essere addestrato con le firme dei dati di strumenti o passaggi di ragionamento.
- Strumenti: una raccolta di strumenti, tra cui API, servizi o funzioni, che recuperano i dati ed eseguono azioni o transazioni. Gli strumenti consentono agli agenti di interagire con dati e servizi esterni.
Per le applicazioni che richiedono un processo decisionale autonomo, la gestione di flussi di lavoro complessi in più fasi o esperienze adattive, gli agenti di IA hanno un rendimento migliore rispetto ai modelli di base standard. Gli agenti sono eccellenti nella risoluzione dei problemi in tempo reale utilizzando dati esterni e nell'automatizzazione di attività che richiedono conoscenze approfondite. Queste funzionalità consentono a un agente di fornire risultati più solidi rispetto alle funzionalità di generazione di testo passivo dei modelli di base.
Per ulteriori informazioni sugli agenti IA, consulta Che cos'è un agente IA.
finestra di contesto
Una finestra contestuale è il numero di token che un modello di base può elaborare in un determinato prompt. Una finestra contestuale più ampia consente al modello di accedere e elaborare più informazioni, il che si traduce in risposte più coerenti, pertinenti e complete.
I modelli Gemini sono appositamente progettati con finestre contestuali lunghe per gestire queste maggiori quantità di informazioni. Per avere un'idea delle dimensioni, un modello con una finestra contestuale di 1 milione di token può elaborare uno dei seguenti input:
- 50.000 righe di codice (con gli 80 caratteri standard per riga)
- Tutti i messaggi che hai inviato negli ultimi 5 anni
- 8 romanzi in lingua inglese di lunghezza media
- Trascrizioni di oltre 200 puntate di podcast di durata media
- 1 ora di video senza audio
- Circa 45 minuti di video con audio
- 9,5 ore di audio
Per saperne di più sulle best practice per i prompt con contesto lungo, consulta Contesto lungo.
embedding
Un incorporamento è una rappresentazione numerica di dati, come testo, immagini o video, che acquisisce le relazioni tra input diversi. Gli incorporamenti vengono generati durante la fase di addestramento di un modello mediante la conversione di testo, immagini e video in array di numeri in virgola mobile chiamati vettori. Spesso gli embedding riducono la dimensionalità dei dati, il che contribuisce a migliorare l'efficienza di calcolo e a consentire l'elaborazione di set di dati di grandi dimensioni. Questa riduzione della dimensionalità è fondamentale per addestrare e implementare modelli complessi.
I modelli di machine learning (ML) richiedono che i dati siano espressi in un formato che possano elaborare. Gli incorporamenti soddisfano questo requisito mappando i dati in uno spazio vettoriale continuo in cui la maggiore vicinanza riflette i punti dati con significati simili. Gli embedding consentono ai modelli di distinguere pattern e relazioni sfumati che verrebbero oscurati nei dati non elaborati.
Ad esempio, i modelli linguistici di grandi dimensioni (LLM) si basano su embedding per comprendere il contesto e il significato del testo. Questa comprensione consente all'LLM di generare risposte coerenti e pertinenti. Nella generazione di immagini, gli embedding acquisiscono le caratteristiche visive delle immagini, il che consente ai modelli di creare output realistici e diversi.
I sistemi che utilizzano la Retrieval Augmented Generation (RAG) si basano sugli embedding per abbinare le query degli utenti alle conoscenze pertinenti. Quando viene posta una query, viene convertita in un embedding, che viene poi confrontato con gli embedding dei documenti all'interno della knowledge base. Questo confronto, facilitato dalle ricerche di somiglianza nello spazio vettoriale, consente al sistema di recuperare le informazioni semanticamente più pertinenti.
Per saperne di più sui modelli di incorporamento e sui casi d'uso, consulta la Panoramica delle API di incorporamento.
foundation model
I modelli di base sono modelli di grandi dimensioni e potenti che vengono addestrati su enormi quantità di dati, che spesso abbracciano più modalità come testo, immagini, video e audio. Questi modelli utilizzano la creazione di modelli statistici per prevedere le risposte probabili ai prompt e per generare nuovi contenuti. Apprendono schemi dai propri dati di addestramento, ad esempio schemi linguistici per la generazione di testo e tecniche di diffusione per la generazione di immagini.
Google offre una serie di modelli di base di IA generativa accessibili tramite un'API gestita. Per accedere ai modelli di base disponibili in Google Cloud, utilizza il model garden di Vertex AI.
chiamata di funzione
La chiamata di funzione è una funzionalità che collega i modelli linguistici di grandi dimensioni (LLM) a strumenti esterni come API e funzioni per migliorare le risposte dell'LLM. Questa funzionalità consente agli LLM di andare oltre le conoscenze statiche e migliorare le risposte con informazioni e servizi in tempo reale, come database, sistemi di gestione dei rapporti con i clienti e repository di documenti.
Per utilizzare le chiamate di funzione, fornisci al modello un insieme di funzioni. Poi, quando chiedi al modello di eseguire un'azione, il modello può selezionare e chiamare le funzioni in base alla tua richiesta. Il modello analizza il prompt e poi genera dati strutturati che specificano quale funzione chiamare e i valori dei parametri. L'output dei dati strutturati chiama la funzione e poi restituisce i risultati al modello. Il modello incorpora i risultati nel suo ragionamento per generare una risposta. Questo processo consente al modello di accedere e utilizzare informazioni che vanno oltre le sue conoscenze interne, il che gli consente di eseguire attività che richiedono dati o elaborazione esterni.
La chiamata di funzioni è un componente fondamentale dell'architettura degli agenti IA. Le chiamate di funzione consentono al modello di specificare lo strumento da utilizzare e come formattare l'input, il che contribuisce a garantire interazioni precise con i sistemi esterni.
Per saperne di più sulle chiamate di funzione in Gemini, consulta Introduzione alle chiamate di funzione.
IA generativa
L'IA generativa è un tipo di IA che va oltre l'IA tradizionale incentrata su classificazione e previsione. I modelli di AI tradizionali apprendono dai dati esistenti per classificare le informazioni o per prevedere i risultati futuri in base a pattern storici. L'IA generativa utilizza modelli di base per generare nuovi contenuti come testo, immagini, audio o video. Questi nuovi contenuti vengono generati apprendendo i pattern e lo stile sottostanti dei dati di addestramento, il che consente al modello di creare output simili ai dati su cui è stato addestrato.
Scopri di più su quando utilizzare l'IA generativa e sui casi d'uso dell'IA generativa per le attività.
messa a terra
La fondatezza è il processo di collegamento dell'output di un modello a fonti di informazione verificabili. Queste fonti potrebbero fornire informazioni pratiche e specifiche del contesto, come la documentazione interna dell'azienda, dati specifici del progetto o registrazioni delle comunicazioni. La grounding contribuisce a migliorare l'accuratezza, l'affidabilità e l'utilità degli output dell'IA fornendo al modello l'accesso a fonti di dati specifiche. La verifica della realtà riduce la probabilità di allucinazioni, ovvero casi in cui il modello genera contenuti non basati su fatti. Un tipo comune di ancoraggio è la retrieval-augmented generation (RAG), che prevede il recupero di informazioni esterne pertinenti per migliorare le risposte del modello.
Per ulteriori informazioni sul grounding con la Ricerca Google, consulta la Panoramica del grounding.
modello linguistico di grandi dimensioni (LLM)
Un modello linguistico di grandi dimensioni (LLM) è un modello di base basato sul testo che viene addestrato su una vasta quantità di dati. Gli LLM vengono utilizzati per eseguire attività di elaborazione del linguaggio naturale (NLP), come generazione di testo, traduzione automatica, riassunto del testo e risposta a domande. A volte il termine LLM viene utilizzato in modo intercambiabile con modelli di base. Tuttavia, gli LLM si basano sul testo, mentre i modelli di base possono essere addestrati e ricevere input da più modalità, tra cui testo, immagini, audio e video.
Per apprendere i pattern e le relazioni all'interno del linguaggio, gli LLM utilizzano tecniche come l'apprendimento per rinforzo e la ottimizzazione fine delle istruzioni. Quando crei i prompt, è importante prendere in considerazione i vari fattori che possono influenzare le risposte del modello.
latenza
La latenza è il tempo necessario a un modello per elaborare un prompt di input e generare una risposta. Quando esamini la latenza di un modello, tieni presente quanto segue:
- Tempo per il primo token (TTFT): il tempo necessario al modello per produrre il primo token della risposta dopo aver ricevuto il prompt. Il TTFT è importante per le applicazioni in streaming in cui vuoi un feedback immediato.
- Tempo fino all'ultimo token (TTLT): il tempo totale necessario al modello per elaborare il prompt e generare la risposta completa.
Per informazioni su come ridurre la latenza, consulta Best practice per i modelli linguistici di grandi dimensioni (LLM).
ingegneria del prompt
Il prompt engineering è il processo iterativo di creazione di un prompt e di accesso alla risposta del modello per ottenere la risposta che vuoi. Scrivere prompt ben strutturati può essere un aspetto essenziale per garantire risposte accurate e di alta qualità da parte di un modello linguistico.
Di seguito sono riportate alcune tecniche comuni che puoi utilizzare per migliorare le risposte:
- Prompt zero-shot: fornisci un prompt senza esempi e basati sulle conoscenze pregresse del modello.
- Prompt one-shot: fornisci un singolo esempio nel prompt per guidare la risposta del modello.
- Prompt few-shot: fornisci più esempi nel prompt per dimostrare il pattern o l'attività che ti interessa.
Quando fornisci un modello con esempi, contribuisci a controllare aspetti della risposta del modello, come formattazione, formulazione, ambito e schemi generali. I prompt few-shot efficaci combinano istruzioni chiare con esempi specifici e diversi. È importante fare esperimenti per determinare il numero ottimale di esempi. Pochi esempi potrebbero non fornire indicazioni sufficienti, ma troppi esempi possono causare un adattamento eccessivo del modello agli esempi e non riuscire a generalizzare bene.
Per ulteriori informazioni sulle best practice per i prompt, consulta Panoramica delle strategie di prompt.
prompt
Un prompt è una richiesta in linguaggio naturale inviata a un modello di AI generativa per elicitare una risposta. A seconda del modello, un prompt può contenere testo, immagini, video, audio, documenti e altre modalità o anche più modalità (multimodale).
Un prompt efficace è costituito da contenuti e struttura. I contenuti forniscono tutte le informazioni pertinenti sull'attività, ad esempio istruzioni, esempi e contesto. La struttura garantisce un'analisi efficiente tramite l'organizzazione, inclusi ordinamento, etichettatura e delimitatori. A seconda del risultato che vuoi ottenere, potresti prendere in considerazione componenti aggiuntivi.
parametri del modello
I parametri del modello sono variabili interne utilizzate da un modello per determinare in che modo elabora i dati di input e genera gli output. Durante l'addestramento, puoi aggiustare i parametri del modello, come peso e bias, per ottimizzarne le prestazioni. Durante l'inferenza, puoi influenzare l'output del modello tramite diversi parametri di prompt, che non modificano direttamente i parametri del modello appreso.
Di seguito sono riportati alcuni dei parametri di prompt che influiscono sulla generazione di contenuti nell'API Gemini di Vertex AI:
temperature
: la temperatura modifica la casualità della selezione dei token durante la generazione della risposta, il che influisce sulla creatività e sulla prevedibilità dell'output. Il valore ditemperature
va da0
a1
. Temperature più basse (più vicine a0
) producono risultati più deterministici e prevedibili. Temperature più alte (più vicine a1
) generano testo più diversificato e creativo, ma i risultati sono potenzialmente meno coerenti.topP
: Top-P cambia il modo in cui il modello campiona e seleziona i token per l'output. Top-P seleziona l'insieme più piccolo di token la cui probabilità cumulativa supera una soglia, op
, e poi esegue il campionamento da questa distribuzione. Il valore ditopP
va da0
a1
. Ad esempio, se i token A, B e C hanno una probabilità di 0,3, 0,2 e 0,1 e il valore ditopP
è0.5
, il modello seleziona A o B come token successivo utilizzando la temperatura ed esclude C come candidato.topK
: Top-K cambia il modo in cui il modello esegue il campionamento e seleziona i token per l'output. Top-K seleziona i token statisticamente più probabili per generare una risposta. Il valore ditopK
rappresenta un numero di token da1
a40
, tra cui il modello sceglierà prima di generare una risposta. Ad esempio, se i token A, B, C e D hanno una probabilità di 0, 6, 0, 5, 0, 2 e 0, 1 e il valore top-K è3
, il modello seleziona A, B o C come token successivo utilizzando la temperatura ed esclude D come candidato.maxOutputTokens
: l'impostazionemaxOutputTokens
modifica il numero massimo di token che possono essere generati nella risposta. Un valore più basso genererà risposte più brevi e un valore più alto genererà risposte potenzialmente più lunghe.
Per ulteriori informazioni sui parametri di campionamento nell'API Gemini in Vertex AI, consulta Parametri di generazione dei contenuti.
RAG (Retrieval-Augmented Generation)
La Retrieval-Augmented Generation (RAG) è una tecnica per migliorare la qualità e l'accuratezza dell'output dei modelli linguistici di grandi dimensioni (LLM) tramite il grounding con fonti di conoscenza recuperate dopo l'addestramento del modello. La RAG risolve le limitazioni degli LLM, come imprecisioni factuali, mancanza di accesso a informazioni attuali o specializzate e impossibilità di citare le fonti. Fornendo l'accesso alle informazioni recuperate da basi di conoscenza o documenti attendibili, inclusi i dati su cui il modello non è stato addestrato, i dati proprietari o i dati sensibili specifici dell'utente, la RAG consente agli LLM di generare risposte più affidabili e contestualmente pertinenti.
Quando un modello che utilizza la RAG riceve il tuo prompt, la procedura RAG completa queste fasi:
- Recupero: cerca i dati pertinenti al prompt.
- Aumenta: accoda i dati recuperati al prompt.
- Genera:
- Chiedi all'LLM di creare un riepilogo o una risposta basata sul prompt aumentato.
- Restituire la risposta.
Per ulteriori informazioni su Vertex AI e RAG, consulta Panoramica di Vertex AI RAG Engine.
token
Un token è un'unità di base di dati elaborata da un modello di base. I modelli
separano i dati in un prompt in token per l'elaborazione. L'insieme di tutti i token utilizzati da un modello è chiamato vocabolario. I token possono essere singoli caratteri come z
, parole intere come cat
o parti di parole più lunghe.
I tokenizer separano le parole lunghe, ad esempio termini complessi o tecnici, parole composte o parole con punteggiatura e caratteri speciali, in più token. Il processo di suddivisione del testo in token è chiamato tokenizzazione. Lo scopo della tokenizzazione è creare token con un significato semantico che possono essere ricombinati per comprendere la parola originale. Ad esempio, la parola "predefinito" può essere suddivisa nei seguenti token: "pre", "defini", "ed".
I token possono rappresentare input multimodali come immagini, video e audio. Le tecniche di embedding trasformano gli input multimodali in rappresentazioni numeriche che il modello può elaborare come token. Di seguito sono riportati i calcoli approssimativi dei token per un esempio di input multimodale, indipendentemente dalle dimensioni del display o del file:
- Immagini: 258 token totali
- Video: 263 token al secondo
- Audio: 32 token al secondo
Ogni modello ha un limite al numero di token che può gestire in un prompt e in una risposta. Inoltre, i costi di utilizzo del modello vengono calcolati in base al numero di token di input e di output. Per informazioni su come ottenere il conteggio dei token di un prompt inviato a un modello Gemini, consulta Elenca e conteggia i token. Per informazioni sul costo dei modelli di IA generativa su Vertex AI, consulta Prezzi di Vertex AI.
accordare
L'ottimizzazione è il processo di adattamento di un modello di base per eseguire attività specifiche con maggiore precisióne e accuratezza. L'ottimizzazione viene eseguita regolando alcuni o tutti i parametri del modello o addestrando un modello su un set di dati contenente esempi che replicano le attività e i risultati che vuoi. La messa a punto è un processo iterativo, che può essere complesso e costoso, ma ha il potenziale per generare miglioramenti significativi del rendimento. La regolazione è più efficace quando hai un set di dati etichettato con più di 100 esempi e vuoi eseguire attività complesse o uniche in cui le tecniche di prompt non sono sufficienti.
Di seguito sono riportate le tecniche di ottimizzazione supportate da Vertex AI:
- Ottimizzazione completa: una tecnica che aggiorna tutti i parametri del modello durante il processo di ottimizzazione. L'ottimizzazione completa può essere dispendiosa in termini di risorse di calcolo e può richiedere molti dati, ma ha anche il potenziale per raggiungere i massimi livelli di prestazioni, in particolare per le attività complesse.
- Ottimizzazione efficiente dei parametri: una tecnica nota anche come ottimizzazione dell'adattatore. L'ottimizzazione efficiente dei parametri aggiorna alcuni dei parametri del modello durante il processo di ottimizzazione. L'ottimizzazione efficiente dei parametri è più efficiente in termini di risorse e più economica rispetto all'ottimizzazione completa.
- Ottimizzazione fine supervisionata: una tecnica che addestra il modello su coppie input-output etichettate. La messa a punto supervisionata viene comunemente utilizzata per attività che richiedono classificazione, traduzione e sintesi.
Per ulteriori informazioni sulla regolazione, consulta la pagina Introduzione alla regolazione.