Vertex AI offre un elenco in crescita di modelli di base che puoi testare, implementare e personalizzare per l'utilizzo nelle tue applicazioni basate sull'IA. I modelli di base vengono ottimizzati per casi d'uso specifici e offerti a prezzi diversi. Questa pagina riassume i modelli disponibili nelle varie API e fornisce indicazioni su quali scegliere in base al caso d'uso.
Per ulteriori informazioni su tutti i modelli e le API di IA su Vertex AI, consulta Esplora i modelli di IA in Model Garden.
Modelli Gemini
La tabella seguente riassume i modelli disponibili nell'API Gemini. Per ulteriori informazioni sui dettagli dell'API, consulta il riferimento all'API Gemini.
Per esplorare un modello nella console Google Cloud, seleziona la relativa scheda in Model Garden.
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Gemini 2.0 Flash
gemini-2.0-flash
|
Testo, codice, immagini, audio, video, video con audio, PDF | Testo, audio (anteprima privata), immagini (anteprima privata) | Modello affidabile per tutte le attività quotidiane. Ottime prestazioni complessive e supporto dell'API Live per lo streaming in tempo reale. | Prova Gemini 2.0 Flash |
Gemini 2.5 Pro Experimental
gemini-2.5-pro-exp-03-25
|
Testo, immagini, video, audio, PDF | Testo | Il modello Gemini di ragionamento più avanzato, in particolare per la comprensione multimodale, la programmazione e la conoscenza del mondo. | Prova Gemini 2.5 Pro Experimental |
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite
|
Testo, immagini, video, audio, PDF | Testo | La nostra offerta economica per supportare un elevato throughput. | Prova Gemini 2.0 Flash-Lite |
Gemini 2.0 Flash Thinking
gemini-2.0-flash-thinking-exp-01-21
|
Testo, immagini | Testo | Offre capacità di ragionamento più efficaci e include il processo di pensiero nelle risposte. | Prova Gemini 2.0 Flash Thinking |
Le seguenti informazioni forniscono i dettagli per ogni modello Gemini.
Gemini 2.0 Flash
La nuova generazione dei nostri modelli Gemini Flash. Gemini 2.0 Flash offre una velocità superiore ai nostri modelli 1.5 e supporta una gamma più ampia di funzionalità, come lo streaming bidirezionale con la nostra API Multimodal Live, la generazione di risposte multimodali e l'utilizzo degli strumenti integrati.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding con la Ricerca Google | |
Esecuzione di codice | |
Ottimizzazione | |
Istruzione di sistema | Consulta le istruzioni per l'utilizzo del sistema. |
Generazione controllata | |
Throughput riservato | Consulta Modelli supportati. |
Previsione batch | |
Chiamata di funzione |
Specifiche
Specifica | Valore |
---|---|
Token di input massimi | 1.048.576 |
Token di output massimi | 8.192 |
Dati di addestramento | Fino a giugno 2024 |
Gemini 2.5 Pro Experimental
Gemini 2.5 Pro Experimental è il nostro modello più efficace per la comprensione multimodale, la programmazione e la conoscenza del mondo. Presenta una finestra di contesto lunga 2 milioni di token. Gemini 2.5 Pro Experimental è disponibile come modello sperimentale in Vertex AI ed è un percorso di upgrade per gli utenti di 1.5 Pro che vogliono una migliore qualità o che sono particolarmente interessati a contesto e codice lunghi.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding con la Ricerca Google | |
Esecuzione di codice | |
Ottimizzazione | |
Istruzione di sistema | Consulta le istruzioni per l'utilizzo del sistema. |
Generazione controllata | |
Throughput riservato | Consulta Modelli supportati. |
Specifiche
Specifica | Valore |
---|---|
Token di input massimi | 1.000.000 |
Token di output massimi | 64.000 |
Dati di addestramento | Fino a gennaio 2025 |
Gemini 2.0 Flash-Lite
Gemini 2.0 Flash-Lite è il nostro modello Flash più veloce e conveniente. Si tratta di un percorso di upgrade per gli utenti di 1.5 Flash che vogliono una qualità migliore allo stesso prezzo e con la stessa velocità.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding con la Ricerca Google | |
Esecuzione di codice | |
Ottimizzazione | |
Istruzione di sistema | Consulta le istruzioni per l'utilizzo del sistema. |
Generazione controllata | |
Throughput riservato | Consulta Modelli supportati. |
Previsione batch | |
Chiamata di funzione |
Specifiche
Specifica | Valore |
---|---|
Token di input massimi | 1.048.576 |
Token di output massimi | 8.192 |
Dati di addestramento | Fino a gennaio 2025 |
Gemini 2.0 Flash Thinking
Gemini 2.0 Flash Thinking è un modello di calcolo sperimentale al momento del test che è addestrato per generare il "processo di pensiero" seguito dal modello come parte della sua risposta. Di conseguenza, Flash Thinking è in grado di offrire risposte con capacità di ragionamento più elevate rispetto al modello Gemini 2.0 Flash di base. Per saperne di più, consulta la documentazione di Gemini 2.0 Flash Thinking
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding con la Ricerca Google | |
Ottimizzazione | |
Istruzione di sistema | Consulta le istruzioni per l'utilizzo del sistema. |
Generazione controllata | |
Throughput riservato | Consulta Modelli supportati. |
Specifiche
Specifica | Valore |
---|---|
Token di input massimi | 1.048.576 |
Token di output massimi | 65.536 |
Dati di addestramento | Fino a maggio 2024 |
Lingue supportate da Gemini
Tutti i modelli Gemini sono in grado di comprendere e rispondere nelle seguenti lingue:
Arabo (ar), bengalese (bn), bulgaro (bg), cinese semplificato e tradizionale (zh), croato (hr), ceco (cs), danese (da), estone (et), finlandese (fi), francese (fr), tedesco (de), greco (el), ebraico (iw), hindi (hi), ungherese (hu), indonesiano (id), italiano (it), giapponese (ja), coreano (ko), lettone (lv), lituano (lt), norvegese (no), polacco (pl), portoghese (pt), rumeno (ro), russo (ru), serbo (sr), slovacco (sk), sloveno (sl), spagnolo (es), swahili (sw), svedese (sv), thailandese (th), turco (tr), ucraino (uk), vietnamita (vi)
I modelli Gemini 2.0 Flash, Gemini 1.5 Pro e Gemini 1.5 Flash possono comprendere e rispondere nelle seguenti lingue aggiuntive:
Afrikaans (af), amarico (am), assamese (as), azero (az), bielorusso (be), bosniaco (bs), catalano (ca), cebuano (ceb), corso (co), gallese (cy), divehi (dv), esperanto (eo), basco (eu), persiano (fa), filippino (Tagalog) (fil), frisone (fy), irlandese (ga), gaelico scozzese (gd), galiziano (gl), gujarati (gu), hausa (ha), hawaiano (haw), hmong (hmn), creolo haitiano (ht), armeno (hy), igbo (ig), islandese (is), giavanese (jv), georgiano (ka), kazako (kk), khmer (km), kannada (kn), krio (kri), curdo (ku), kirghizo (ky), latino (la), lussemburghese (lb), lao (lo), malgache (mg), maori (mi), macedone (mk), malayalam (ml), mongolo (mn), meiteilon (manipuri) (mni-Mtei), marathi (mr), malese (ms), maltese (mt), birmano (birmano) (my), nepalese (ne), nyanja (chichewa) (ny), odia (oriya) (or), punjabi (pa), pashto (ps), sindhi (sd), singalese (singalese) (si), samoano (sm), shona (sn), somalo (so), albanese (sq), sesotho (st), sundanese (su), tamil (ta), telugu (te), tagico (tg), uiguro (ug), urdu (ur), uzbeko (uz), xhosa (xh), yiddish (yi), yoruba (yo), zulu (zu)
Modelli Gemma
La tabella seguente riassume i modelli Gemma.
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Gemma 3 Dettagli del modello |
Testo, immagini | Testo | Un modello aperto di piccole dimensioni e leggero che supporta attività di generazione di testo e comprensione delle immagini, tra cui risposta a domande, riassunto e ragionamento. Possono essere implementati in ambienti con risorse limitate. | Provare Gemma 3 |
Gemma 2 Dettagli del modello |
Testo | Testo | Un modello di testo aperto di piccole dimensioni e leggero che supporta la generazione, il riepilogo e l'estrazione di testo. Possono essere implementati in ambienti con risorse limitate. | Prova Gemma 2 |
Gemma Dettagli del modello |
Testo | Testo | Un modello di testo aperto di piccole dimensioni e leggero che supporta la generazione, il riepilogo e l'estrazione di testo. Possono essere implementati in ambienti con risorse limitate. | Provare Gemma |
CodeGemma Dettagli del modello |
Testo, codice, PDF | Testo | Una raccolta di modelli open source leggeri basati su Gemma. Ideale per la generazione e il completamento del codice. | Prova CodeGemma |
PaliGemma 2 Dettagli del modello |
Testo, immagini | Testo | Un modello linguistico visivo (VLM) leggero. Ideale per attività di sottotitolazione codificata delle immagini e di domanda e risposta visiva. | Prova PaliGemma 2 |
PaliGemma Dettagli del modello |
Testo, immagini | Testo | Un modello linguistico visivo (VLM) leggero. Ideale per attività di sottotitolazione codificata delle immagini e di domanda e risposta visiva. | Prova PaliGemma |
ShieldGemma 2 Dettagli del modello |
Testo, immagini | Testo | Un modello VLM (vision-language model) leggero che controlla la sicurezza delle immagini sintetiche e naturali per aiutarti a creare set di dati e modelli solidi. | Provare ShieldGemma 2 |
TxGemma Dettagli del modello |
Testo | Testo | Una raccolta di modelli linguistici aperti e leggeri per accelerare lo sviluppo di terapie. Ideale per attività di previsione terapeutica, tra cui classificazione, regressione o generazione e attività di ragionamento. | Prova TxGemma |
Supporto linguistico di Gemma
Gemma e Gemma 2 supportano solo la lingua inglese. Gemma 3 offre assistenza multilingue in oltre 140 lingue.
Modelli di embedding
La tabella seguente riassume i modelli disponibili nell'API Embeddings.
Nome modello | Descrizione | Specifiche | Prova il modello |
---|---|---|---|
Embedding per il testo ( text-embedding-004, )Dettagli del modello |
Restituisce gli incorporamenti per gli input di testo in inglese.
Supporta l'ottimizzazione supervisionata dei modelli Embedding per il testo, solo in inglese. |
Input massimo di token: 2048.
Dimensioni di incorporamento: text-embedding-004, text-embedding-005 : <=768. Altro: 768. |
Prova gli incorporamenti per il testo |
Embedding per testo multilingue ( text-multilingual-embedding-002 )Dettagli del modello |
Restituisce gli incorporamenti per gli input di testo di oltre 100 lingue
Supporta la ottimizzazione supervisionata del modello text-multilingual-embedding-002 . Supporta 100 lingue. |
Input massimo di token: 2048. Dimensioni di embedding: text-multilingual-embedding-002 : <=768. Altri: 768. |
Prova gli incorporamenti per il testo multilingue |
Incorporamenti per il multimodale(multimodalembedding) Dettagli del modello |
Restituisce l'embedding per input di testo, immagini e video, per confrontare i contenuti in diversi modelli. Converte testo, immagini e video nello stesso spazio vettoriale. I video supportano solo 1408 dimensioni. Solo in inglese |
Input massimo di token: 32. Dimensioni massime delle immagini: 20 MB. Durata massima del video: 2 minuti. Dimensioni dell'embedding: 128, 256, 512 o 1408 per l'input di testo e immagini, 1408 per l'input video. |
Prova gli incorporamenti per il multimodale |
Embedding per il testo (inglese, multilingue, codice) ( text-embedding-large-exp-03-07 )Dettagli del modello |
Restituisce embedding per input di testo in oltre 100 lingue, nonché codice Python e Java.
Questo è un modello sperimentale. I modelli sperimentali non seguono il piano del ciclo di vita e lo schema di versionamento dei modelli standard di Google e un modello può essere sostituito da un altro senza preavviso. Inoltre, non garantiamo che un modello sperimentale diventerà un modello stabile in futuro. |
Input massimo di token: 8192
Dimensioni di embedding: 3072 |
Prova gli incorporamenti per il testo di grandi dimensioni |
Supporto delle lingue degli elementi incorporati
I modelli di embedding multilingue di testo supportano le seguenti lingue:
Afrikaans, albanese, amarico, arabo, azero, basco,
bielorusso, bengalese, bulgaro, birmano, catalano, cebuano, chichewa, cinese,
corso, ceco, danese, ebraico, estone, filippino,
finlandese, francese, galiziano, georgiano, tedesco, greco, gujarati,
creolo haitiano, hausa, hawaiano, hindi, hmong, ungherese,
islandese, irlandese, indonesiano, italiano, giapponese, javanese, kannada,
kazako, khmer, coreano, curdo, kirghizo, lao, latino, lettone, lituano,
lussegno, macedone, malgascio, malayo, malayalam, maltese, maori,
marathi, mongolo, nepalese, norvegese, pashto, persiano, polacco,
portoghese, punjabi, rumeno, russo, samoano, gaelico scozzese,
serbo, shona, sindhi, singalese, slovacco, sloveno, somalo, sotho,
spagnolo, sundanese, swahili, svedese, tagico, tamil, telugu, thai,
turco, ucraino, urdu, uzbeko, vietnamita, gallese, fiammingo occidentale,
xhosa, yiddish, yoruba, Zulu.
Modello Imagen
La seguente tabella riassume i modelli disponibili nell'API Imagen:
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Imagen 3 ( imagen-3.0-generate-001 ,
imagen-3.0-fast-generate-001 )Imagen 2 ( imagegeneration@006 ,
imagegeneration@005 )Imagen ( imagegeneration@002 )Dettagli del modello |
Testo | Immagini | Questo modello supporta la generazione e la modifica di immagini per creare immagini di alta qualità in pochi secondi. Sono incluse le immagini generate utilizzando l'apprendimento zero-shot. | Provare Imagen per la generazione di immagini |
Immagine 3 (modifica e personalizzazione) ( imagen-3.0-capability-001 )Immagine 2 (modifica) ( imagegeneration@006 )Immagine (modifica) imagegeneration@002 )Dettagli del modello |
Testo e immagini | Immagini | Questo modello supporta l'editing delle immagini e la generazione di immagini personalizzate (con pochi esempi) per creare immagini di alta qualità in pochi secondi.
La funzionalità di modifica supporta l'inpainting (rimozione o inserimento di oggetti), l'outpainting e la modifica delle immagini dei prodotti. La personalizzazione supporta l'apprendimento con pochi esempi, consentendoti di fornire immagini di riferimento per guidare la generazione delle immagini di output. Questo modello supporta i seguenti tipi di personalizzazione: soggetto (prodotto, persona e animale domestico), stile, personalizzazione controllata (scarabocchiata o bordo intelligente) e personalizzazione con istruzioni (trasferimento di stile). |
Prova Imagen per la modifica e la personalizzazione |
Supporto delle lingue di Imagen 3
Imagen 3 supporta le seguenti lingue:
inglese, cinese, hindi, giapponese, coreano, portoghese e spagnolo.
Modello di completamento del codice
La tabella seguente riassume i modelli disponibili nelle API Codey:
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Codey per il completamento del codice ( code-gecko ) Dettagli del modello |
Codice nelle lingue supportate | Codice nelle lingue supportate | Un modello ottimizzato per suggerire il completamento del codice in base al contesto del codice scritto. | Prova Codey per il completamento del codice |
Supporto del linguaggio del modello di completamento del codice
Il modello di completamento del codice supporta la lingua inglese.
Modelli MedLM
La tabella seguente riassume i modelli disponibili nell'API MedLM:
Nome modello | Descrizione | Specifiche | Prova il modello |
---|---|---|---|
MedLM-medium (medlm-medium )Dettagli del modello |
Una suite di API e modelli medicalmente ottimizzati conforme allo standard HIPAA sviluppata da Google Research. Questo modello aiuta i professionisti sanitari con attività di risposta alle domande mediche e di riepilogo per documenti sanitari e medici. Offre un throughput migliore e include dati più recenti rispetto al modello medlm-large . |
Token massimi (input + output): 32.768. Numero massimo di token di output: 8192. |
Prova MedLM-medium |
MedLM-large (medlm-large )Dettagli del modello |
Una suite di API e modelli medicalmente ottimizzati conforme allo standard HIPAA sviluppata da Google Research. Questo modello aiuta i professionisti sanitari con attività di risposta alle domande mediche e di riepilogo per documenti sanitari e medici. |
Token di input massimi: 8192. Numero massimo di token di output: 1024. |
Prova MedLM-large |
Assistenza per il throughput riservato di MedLM
MedLM-medium e MedLM-large supportano il throughput riservato. Consulta Modelli supportati.
Supporto delle lingue di MedLM
Il modello MedLM supporta la lingua inglese.
Località
Per un elenco delle località in cui sono disponibili questi modelli, consulta Località dell'IA generativa su Vertex AI.
Versioni modello
Per scoprire di più sulle versioni del modello, consulta Versioni del modello.
Esplorare tutti i modelli in Model Garden
Model Garden è una piattaforma che ti aiuta a scoprire, testare, personalizzare ed eseguire il deployment di asset e modelli proprietari di Google e di alcuni modelli e asset OSS. Per esplorare i modelli e le API di IA generativa disponibili su Vertex AI, vai a Model Garden nella console Google Cloud.
Per scoprire di più su Model Garden, inclusi i modelli e le funzionalità disponibili, consulta Esplorare i modelli di IA in Model Garden.
Passaggi successivi
- Prova un tutorial di avvio rapido utilizzando Vertex AI Studio o l'API Vertex AI.
- Scopri come testare i prompt di testo.
- Scopri come testare i prompt di chat.
- Esplora i modelli pre-addestrati in Model Garden.
- Scopri come ottimizzare un modello di base.
- Scopri di più sulle best practice per l'AI responsabile e sui filtri di sicurezza di Vertex AI.
- Scopri come controllare l'accesso a modelli specifici in Model Garden utilizzando un regolamento dell'organizzazione di Model Garden.