Modelli Google

Vertex AI offre un elenco in crescita di modelli di base che puoi testare, implementare e personalizzare per l'utilizzo nelle tue applicazioni basate sull'IA. I modelli di base vengono ottimizzati per casi d'uso specifici e offerti a prezzi diversi. Questa pagina riassume i modelli disponibili nelle varie API e fornisce indicazioni su quali scegliere in base al caso d'uso.

Per ulteriori informazioni su tutti i modelli e le API di IA su Vertex AI, consulta Esplora i modelli di IA in Model Garden.

Modelli Gemini

La tabella seguente riassume i modelli disponibili nell'API Gemini. Per ulteriori informazioni sui dettagli dell'API, consulta il riferimento all'API Gemini.

Per esplorare un modello nella console Google Cloud, seleziona la relativa scheda in Model Garden.

Modello Input Output Caso d'uso Prova il modello
Gemini 2.0 Flash
gemini-2.0-flash
Testo, codice, immagini, audio, video, video con audio, PDF Testo, audio (anteprima privata), immagini (anteprima privata) Modello affidabile per tutte le attività quotidiane. Ottime prestazioni complessive e supporto dell'API Live per lo streaming in tempo reale. Prova Gemini 2.0 Flash
Gemini 2.5 Pro Experimental
gemini-2.5-pro-exp-03-25
Testo, immagini, video, audio, PDF Testo Il modello Gemini di ragionamento più avanzato, in particolare per la comprensione multimodale, la programmazione e la conoscenza del mondo. Prova Gemini 2.5 Pro Experimental
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite
Testo, immagini, video, audio, PDF Testo La nostra offerta economica per supportare un elevato throughput. Prova Gemini 2.0 Flash-Lite
Gemini 2.0 Flash Thinking
gemini-2.0-flash-thinking-exp-01-21
Testo, immagini Testo Offre capacità di ragionamento più efficaci e include il processo di pensiero nelle risposte. Prova Gemini 2.0 Flash Thinking

Le seguenti informazioni forniscono i dettagli per ogni modello Gemini.

Gemini 2.0 Flash

La nuova generazione dei nostri modelli Gemini Flash. Gemini 2.0 Flash offre una velocità superiore ai nostri modelli 1.5 e supporta una gamma più ampia di funzionalità, come lo streaming bidirezionale con la nostra API Multimodal Live, la generazione di risposte multimodali e l'utilizzo degli strumenti integrati.

Funzionalità

Capacità Disponibilità
Grounding con la Ricerca Google
Esecuzione di codice
Ottimizzazione
Istruzione di sistema Consulta le istruzioni per l'utilizzo del sistema.
Generazione controllata
Throughput riservato Consulta Modelli supportati.
Previsione batch
Chiamata di funzione

Specifiche

Specifica Valore
Token di input massimi 1.048.576
Token di output massimi 8.192
Dati di addestramento Fino a giugno 2024

Gemini 2.5 Pro Experimental

Gemini 2.5 Pro Experimental è il nostro modello più efficace per la comprensione multimodale, la programmazione e la conoscenza del mondo. Presenta una finestra di contesto lunga 2 milioni di token. Gemini 2.5 Pro Experimental è disponibile come modello sperimentale in Vertex AI ed è un percorso di upgrade per gli utenti di 1.5 Pro che vogliono una migliore qualità o che sono particolarmente interessati a contesto e codice lunghi.

Funzionalità

Capacità Disponibilità
Grounding con la Ricerca Google
Esecuzione di codice
Ottimizzazione
Istruzione di sistema Consulta le istruzioni per l'utilizzo del sistema.
Generazione controllata
Throughput riservato Consulta Modelli supportati.

Specifiche

Specifica Valore
Token di input massimi 1.000.000
Token di output massimi 64.000
Dati di addestramento Fino a gennaio 2025

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite è il nostro modello Flash più veloce e conveniente. Si tratta di un percorso di upgrade per gli utenti di 1.5 Flash che vogliono una qualità migliore allo stesso prezzo e con la stessa velocità.

Funzionalità

Capacità Disponibilità
Grounding con la Ricerca Google
Esecuzione di codice
Ottimizzazione
Istruzione di sistema Consulta le istruzioni per l'utilizzo del sistema.
Generazione controllata
Throughput riservato Consulta Modelli supportati.
Previsione batch
Chiamata di funzione

Specifiche

Specifica Valore
Token di input massimi 1.048.576
Token di output massimi 8.192
Dati di addestramento Fino a gennaio 2025

Gemini 2.0 Flash Thinking

Gemini 2.0 Flash Thinking è un modello di calcolo sperimentale al momento del test che è addestrato per generare il "processo di pensiero" seguito dal modello come parte della sua risposta. Di conseguenza, Flash Thinking è in grado di offrire risposte con capacità di ragionamento più elevate rispetto al modello Gemini 2.0 Flash di base. Per saperne di più, consulta la documentazione di Gemini 2.0 Flash Thinking

Funzionalità

Capacità Disponibilità
Grounding con la Ricerca Google
Ottimizzazione
Istruzione di sistema Consulta le istruzioni per l'utilizzo del sistema.
Generazione controllata
Throughput riservato Consulta Modelli supportati.

Specifiche

Specifica Valore
Token di input massimi 1.048.576
Token di output massimi 65.536
Dati di addestramento Fino a maggio 2024

Lingue supportate da Gemini

  • Tutti i modelli Gemini sono in grado di comprendere e rispondere nelle seguenti lingue:

    Arabo (ar), bengalese (bn), bulgaro (bg), cinese semplificato e tradizionale (zh), croato (hr), ceco (cs), danese (da), estone (et), finlandese (fi), francese (fr), tedesco (de), greco (el), ebraico (iw), hindi (hi), ungherese (hu), indonesiano (id), italiano (it), giapponese (ja), coreano (ko), lettone (lv), lituano (lt), norvegese (no), polacco (pl), portoghese (pt), rumeno (ro), russo (ru), serbo (sr), slovacco (sk), sloveno (sl), spagnolo (es), swahili (sw), svedese (sv), thailandese (th), turco (tr), ucraino (uk), vietnamita (vi)

  • I modelli Gemini 2.0 Flash, Gemini 1.5 Pro e Gemini 1.5 Flash possono comprendere e rispondere nelle seguenti lingue aggiuntive:

    Afrikaans (af), amarico (am), assamese (as), azero (az), bielorusso (be), bosniaco (bs), catalano (ca), cebuano (ceb), corso (co), gallese (cy), divehi (dv), esperanto (eo), basco (eu), persiano (fa), filippino (Tagalog) (fil), frisone (fy), irlandese (ga), gaelico scozzese (gd), galiziano (gl), gujarati (gu), hausa (ha), hawaiano (haw), hmong (hmn), creolo haitiano (ht), armeno (hy), igbo (ig), islandese (is), giavanese (jv), georgiano (ka), kazako (kk), khmer (km), kannada (kn), krio (kri), curdo (ku), kirghizo (ky), latino (la), lussemburghese (lb), lao (lo), malgache (mg), maori (mi), macedone (mk), malayalam (ml), mongolo (mn), meiteilon (manipuri) (mni-Mtei), marathi (mr), malese (ms), maltese (mt), birmano (birmano) (my), nepalese (ne), nyanja (chichewa) (ny), odia (oriya) (or), punjabi (pa), pashto (ps), sindhi (sd), singalese (singalese) (si), samoano (sm), shona (sn), somalo (so), albanese (sq), sesotho (st), sundanese (su), tamil (ta), telugu (te), tagico (tg), uiguro (ug), urdu (ur), uzbeko (uz), xhosa (xh), yiddish (yi), yoruba (yo), zulu (zu)

Modelli Gemma

La tabella seguente riassume i modelli Gemma.

Modello Input Output Caso d'uso Prova il modello
Gemma 3
Dettagli del modello
Testo, immagini Testo Un modello aperto di piccole dimensioni e leggero che supporta attività di generazione di testo e comprensione delle immagini, tra cui risposta a domande, riassunto e ragionamento. Possono essere implementati in ambienti con risorse limitate. Provare Gemma 3
Gemma 2
Dettagli del modello
Testo Testo Un modello di testo aperto di piccole dimensioni e leggero che supporta la generazione, il riepilogo e l'estrazione di testo. Possono essere implementati in ambienti con risorse limitate. Prova Gemma 2
Gemma
Dettagli del modello
Testo Testo Un modello di testo aperto di piccole dimensioni e leggero che supporta la generazione, il riepilogo e l'estrazione di testo. Possono essere implementati in ambienti con risorse limitate. Provare Gemma
CodeGemma
Dettagli del modello
Testo, codice, PDF Testo Una raccolta di modelli open source leggeri basati su Gemma. Ideale per la generazione e il completamento del codice. Prova CodeGemma
PaliGemma 2
Dettagli del modello
Testo, immagini Testo Un modello linguistico visivo (VLM) leggero. Ideale per attività di sottotitolazione codificata delle immagini e di domanda e risposta visiva. Prova PaliGemma 2
PaliGemma
Dettagli del modello
Testo, immagini Testo Un modello linguistico visivo (VLM) leggero. Ideale per attività di sottotitolazione codificata delle immagini e di domanda e risposta visiva. Prova PaliGemma
ShieldGemma 2
Dettagli del modello
Testo, immagini Testo Un modello VLM (vision-language model) leggero che controlla la sicurezza delle immagini sintetiche e naturali per aiutarti a creare set di dati e modelli solidi. Provare ShieldGemma 2
TxGemma
Dettagli del modello
Testo Testo Una raccolta di modelli linguistici aperti e leggeri per accelerare lo sviluppo di terapie. Ideale per attività di previsione terapeutica, tra cui classificazione, regressione o generazione e attività di ragionamento. Prova TxGemma

Supporto linguistico di Gemma

Gemma e Gemma 2 supportano solo la lingua inglese. Gemma 3 offre assistenza multilingue in oltre 140 lingue.

Modelli di embedding

La tabella seguente riassume i modelli disponibili nell'API Embeddings.

Nome modello Descrizione Specifiche Prova il modello
Embedding per il testo
(text-embedding-004,
text-embedding-005
)
Dettagli del modello
Restituisce gli incorporamenti per gli input di testo in inglese.

Supporta l'ottimizzazione supervisionata dei modelli Embedding per il testo, solo in inglese.
Input massimo di token: 2048.

Dimensioni di incorporamento: text-embedding-004, text-embedding-005: <=768.
Altro: 768.
Prova gli incorporamenti per il testo
Embedding per testo multilingue
(text-multilingual-embedding-002)
Dettagli del modello
Restituisce gli incorporamenti per gli input di testo di oltre 100 lingue

Supporta la ottimizzazione supervisionata del modello text-multilingual-embedding-002.
Supporta 100 lingue.
Input massimo di token: 2048.

Dimensioni di embedding: text-multilingual-embedding-002: <=768.
Altri: 768.
Prova gli incorporamenti per il testo multilingue
Incorporamenti per il multimodale
(multimodalembedding)
Dettagli del modello
Restituisce l'embedding per input di testo, immagini e video, per confrontare i contenuti in diversi modelli.

Converte testo, immagini e video nello stesso spazio vettoriale. I video supportano solo 1408 dimensioni.
Solo in inglese
Input massimo di token: 32.
Dimensioni massime delle immagini: 20 MB.
Durata massima del video: 2 minuti.

Dimensioni dell'embedding: 128, 256, 512 o 1408 per l'input di testo e immagini, 1408 per l'input video.
Prova gli incorporamenti per il multimodale
Embedding per il testo (inglese, multilingue, codice)
(text-embedding-large-exp-03-07)
Dettagli del modello
Restituisce embedding per input di testo in oltre 100 lingue, nonché codice Python e Java.

Questo è un modello sperimentale. I modelli sperimentali non seguono il piano del ciclo di vita e lo schema di versionamento dei modelli standard di Google e un modello può essere sostituito da un altro senza preavviso. Inoltre, non garantiamo che un modello sperimentale diventerà un modello stabile in futuro.
Input massimo di token: 8192

Dimensioni di embedding: 3072
Prova gli incorporamenti per il testo di grandi dimensioni

Supporto delle lingue degli elementi incorporati

I modelli di embedding multilingue di testo supportano le seguenti lingue:
Afrikaans, albanese, amarico, arabo, azero, basco, bielorusso, bengalese, bulgaro, birmano, catalano, cebuano, chichewa, cinese, corso, ceco, danese, ebraico, estone, filippino, finlandese, francese, galiziano, georgiano, tedesco, greco, gujarati, creolo haitiano, hausa, hawaiano, hindi, hmong, ungherese, islandese, irlandese, indonesiano, italiano, giapponese, javanese, kannada, kazako, khmer, coreano, curdo, kirghizo, lao, latino, lettone, lituano, lussegno, macedone, malgascio, malayo, malayalam, maltese, maori, marathi, mongolo, nepalese, norvegese, pashto, persiano, polacco, portoghese, punjabi, rumeno, russo, samoano, gaelico scozzese, serbo, shona, sindhi, singalese, slovacco, sloveno, somalo, sotho, spagnolo, sundanese, swahili, svedese, tagico, tamil, telugu, thai, turco, ucraino, urdu, uzbeko, vietnamita, gallese, fiammingo occidentale, xhosa, yiddish, yoruba, Zulu.

Modello Imagen

La seguente tabella riassume i modelli disponibili nell'API Imagen:

Modello Input Output Caso d'uso Prova il modello
Imagen 3
(imagen-3.0-generate-001, imagen-3.0-fast-generate-001)

Imagen 2
(imagegeneration@006, imagegeneration@005)

Imagen
(imagegeneration@002)
Dettagli del modello
Testo Immagini Questo modello supporta la generazione e la modifica di immagini per creare immagini di alta qualità in pochi secondi. Sono incluse le immagini generate utilizzando l'apprendimento zero-shot. Provare Imagen per la generazione di immagini
Immagine 3 (modifica e personalizzazione)
(imagen-3.0-capability-001)

Immagine 2 (modifica)
(imagegeneration@006)

Immagine (modifica)
imagegeneration@002)
Dettagli del modello
Testo e immagini Immagini Questo modello supporta l'editing delle immagini e la generazione di immagini personalizzate (con pochi esempi) per creare immagini di alta qualità in pochi secondi.

La funzionalità di modifica supporta l'inpainting (rimozione o inserimento di oggetti), l'outpainting e la modifica delle immagini dei prodotti.

La personalizzazione supporta l'apprendimento con pochi esempi, consentendoti di fornire immagini di riferimento per guidare la generazione delle immagini di output. Questo modello supporta i seguenti tipi di personalizzazione: soggetto (prodotto, persona e animale domestico), stile, personalizzazione controllata (scarabocchiata o bordo intelligente) e personalizzazione con istruzioni (trasferimento di stile).
Prova Imagen per la modifica e la personalizzazione

Supporto delle lingue di Imagen 3

Imagen 3 supporta le seguenti lingue:
inglese, cinese, hindi, giapponese, coreano, portoghese e spagnolo.

Modello di completamento del codice

La tabella seguente riassume i modelli disponibili nelle API Codey:

Modello Input Output Caso d'uso Prova il modello
Codey per il completamento del codice
(code-gecko)
Dettagli del modello
Codice nelle lingue supportate Codice nelle lingue supportate Un modello ottimizzato per suggerire il completamento del codice in base al contesto del codice scritto. Prova Codey per il completamento del codice

Supporto del linguaggio del modello di completamento del codice

Il modello di completamento del codice supporta la lingua inglese.

Modelli MedLM

La tabella seguente riassume i modelli disponibili nell'API MedLM:

Nome modello Descrizione Specifiche Prova il modello
MedLM-medium (medlm-medium)
Dettagli del modello
Una suite di API e modelli medicalmente ottimizzati conforme allo standard HIPAA sviluppata da Google Research.

Questo modello aiuta i professionisti sanitari con attività di risposta alle domande mediche e di riepilogo per documenti sanitari e medici. Offre un throughput migliore e include dati più recenti rispetto al modello medlm-large.
Token massimi (input + output): 32.768.
Numero massimo di token di output: 8192.
Prova MedLM-medium
MedLM-large (medlm-large)
Dettagli del modello
Una suite di API e modelli medicalmente ottimizzati conforme allo standard HIPAA sviluppata da Google Research.

Questo modello aiuta i professionisti sanitari con attività di risposta alle domande mediche e di riepilogo per documenti sanitari e medici.
Token di input massimi: 8192.
Numero massimo di token di output: 1024.
Prova MedLM-large

Assistenza per il throughput riservato di MedLM

MedLM-medium e MedLM-large supportano il throughput riservato. Consulta Modelli supportati.

Supporto delle lingue di MedLM

Il modello MedLM supporta la lingua inglese.

Località

Per un elenco delle località in cui sono disponibili questi modelli, consulta Località dell'IA generativa su Vertex AI.

Versioni modello

Per scoprire di più sulle versioni del modello, consulta Versioni del modello.

Esplorare tutti i modelli in Model Garden

Model Garden è una piattaforma che ti aiuta a scoprire, testare, personalizzare ed eseguire il deployment di asset e modelli proprietari di Google e di alcuni modelli e asset OSS. Per esplorare i modelli e le API di IA generativa disponibili su Vertex AI, vai a Model Garden nella console Google Cloud.

Vai a Model Garden

Per scoprire di più su Model Garden, inclusi i modelli e le funzionalità disponibili, consulta Esplorare i modelli di IA in Model Garden.

Passaggi successivi