Versioni e ciclo di vita dei modelli Imagen su Vertex AI

Ogni modello di immagine di IA generativa di Vertex AI è disponibile in versioni distinte. I modelli di immagini includono modelli di generazione e di testo, come imagegeneration e imagetext. Le versioni differiscono in base alle funzionalità offerte.

Generazione e modifica di immagini

Per le attività di generazione e modifica delle immagini sono disponibili le seguenti versioni del modello di generazione di immagini.

Imagen 3 Imagen 2 (v.006, predefinito) Imagen 2 (v.005) Imagen (v.002)
Nome e versione del modello Imagen 3: imagen-3.0-generate-001


Imagen 3 Fast: imagen-3.0-fast-generate-001

Si tratta di una variante del modello a bassa latenza che puoi utilizzare per la prototipazione o per casi d'uso a bassa latenza.


Personalizzazione e modifica di Imagen 3: imagen-3.0-capability-001
imagegeneration@006 imagegeneration@005 imagegeneration@002
Generazione di immagini Disponibilità generale Disponibilità generale (utenti approvati) Disponibilità generale (utenti approvati) Disponibilità generale (utenti approvati)
Personalizzazione delle immagini (apprendimento few-shot) Disponibilità generale (utenti approvati)
  • Personalizzazione dell'oggetto (prodotto, persona e animale domestico)
  • Personalizzazione dello stile
  • Personalizzazione controllata (scribble e canny edge)
  • Personalizzazione delle istruzioni (trasferimento stile)
Non supportata Non supportata Non supportata
Modifica delle immagini
  • Modifica (basata su maschera)
    • Inpainting (inserisci, rimuovi)
    • Outpainting
    • Modifica delle immagini dei prodotti
  • Modifica (basata su maschera)
    • Inpainting (inserisci, rimuovi)
    • Outpainting
    • Modifica delle immagini dei prodotti
Non supportati. Il supporto delle funzionalità per questo modello è soggetto a modifiche e aggiornamenti futuri.
  • Modifica (basata su maschera)
  • Modifica (senza maschera)
  • Modifica delle immagini dei prodotti (funzionalità di anteprima)
Filigrana digitale e verifica (generazione di immagini) Supportato (abilitato per impostazione predefinita) Supportato (abilitato per impostazione predefinita) Supportato (non abilitato per impostazione predefinita) Supportato (non abilitato per impostazione predefinita)
Impostazioni di sicurezza configurabili dall'utente
  • Generazione di persone: consenti tutte le età, solo generazione di persone/volti adulti o blocca la generazione di tutte le persone
  • Impostazione di sicurezza: blocca la maggior parte, alcune o poche istanze di contenuti filtrati
  • Generazione di persone: consenti tutte le età, solo generazione di persone/volti adulti o blocca la generazione di tutte le persone
  • Impostazione di sicurezza: blocca la maggior parte, alcune o poche istanze di contenuti filtrati
Non supportata Non supportata
Upscaling delle immagini Non supportata Non supportata Non supportata Supportato (2x o 4x)
Proporzioni e risoluzione
  • 1:1 - 1024 x 1024 pixel (quadrato)
  • 9:16 - 768 x 1408 pixel
  • 16:9 - 1408 x 768 pixel
  • 3:4 - 896x1280 pixel
  • 4:3 - 1280 x 896 pixel
  • 1:1 - 1536 x 1536 pixel (quadrato)
  • 9:16 - 1152 x 2016 pixel
  • 16:9 - 2016 x 1134 pixel
  • 3:4- 1344x1792 pixel
  • 4:3 - 1792 x 1344 pixel
  • 1:1 - 1536 x 1536 pixel (quadrato)
  • 9:16 - 1152 x 2016 pixel
  • 1:1 - 1024 x 1024 pixel (quadrato)
Lingue

Disponibilità generale:

  • Inglese

Anteprima:

  • Cinese (semplificato)
  • Cinese (tradizionale)
  • Hindi
  • Giapponese
  • Coreano
  • Portoghese
  • Spagnolo

Disponibilità generale:

  • Inglese

Anteprima:

  • Cinese (semplificato)
  • Cinese (tradizionale)
  • Hindi
  • Giapponese
  • Coreano
  • Portoghese
  • Spagnolo

Disponibilità generale:

  • Inglese

Anteprima:

  • Cinese (semplificato)
  • Cinese (tradizionale)
  • Hindi
  • Giapponese
  • Coreano
  • Portoghese
  • Spagnolo

Disponibilità generale:

  • Inglese
Ottimizzazione del modello Non supportati.

Il supporto delle funzionalità per questo modello è soggetto a modifiche e aggiornamenti futuri.
Non supportata Non supportata

Disponibilità dell'ottimizzazione del modello:

  • Ottimizzazione del modello soggetto
  • Ottimizzazione del modello di stile

Didascalie visive e Visual Question Answering (VQA)

Per le attività di trascrizione codificata delle immagini e di risposta a domande visive (VQA) sono disponibili le seguenti versioni del modello imagetext.

Versione del modello:
imagetext@001 (predefinita)
Didascalie visive (formato breve) Token: 32 (~32 parole)
Lingue: inglese, spagnolo, francese, tedesco, italiano
Visual Question Answering, VQA (forma abbreviata) Token (richiesta): 80
Token (risposta): 64
Lingue: inglese

Come specificare la versione di un modello di immagini

Per utilizzare una versione di un modello di visione, aggiungi il numero di versione di tre cifre al modello. Ad esempio, per specificare una versione del modello imagegeneration, aggiungi la versione del modello (ad esempio @006) al nome del modello:

  • POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagegeneration@006:predict
  • POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext@001:predict

Tuttavia, questo formato non si applica ai modelli Imagen 3.

Devi sempre specificare una versione del modello stabile per l'utilizzo in produzione, in quanto l'utilizzo dell'opzione predefinita senza una versione del modello specificata può comportare modifiche nel comportamento del modello.

Se ometti la versione del modello, Imagen utilizza la versione predefinita:

  • POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagegeneration:predict
  • POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Come best practice, specifica sempre una versione del modello. Se scegli di utilizzare il nome del modello senza una versione, assicurati che si trovi in un ambiente di test.

Passaggi successivi