Risposte multimodali

Gemini 2.0 Flash supporta la generazione di risposte in più modalità, tra cui testo, parlato e immagini.

Generazione di testo

Gemini 2.0 Flash supporta la generazione di testo utilizzando la console Google Cloud, l'API REST e gli SDK supportati. Per ulteriori informazioni, consulta la nostra guida alla generazione di testo.

Generazione di voce (sperimentale privata)

Gemini 2.0 supporta una nuova funzionalità di generazione multimodale: la sintesi vocale. Utilizzando la funzionalità di sintesi vocale, puoi chiedere al modello di generare un output audio di alta qualità che suoni come una voce umana (say "hi everyone") e puoi perfezionare ulteriormente l'output modificando la voce.

Generare voce

Le sezioni seguenti spiegano come generare voce utilizzando Vertex AI Studio o l'API.

Per indicazioni e best practice per la creazione di prompt, consulta Creare prompt multimodali.

Utilizzo di Vertex AI Studio

Per utilizzare la generazione vocale:

  1. Apri Vertex AI Studio > In formato libero.
  2. Seleziona gemini-2.0-flash-exp dal menu a discesa Modelli.
  3. Nel riquadro Risposta, seleziona Audio dal menu a discesa.
  4. Scrivi una descrizione del discorso che vuoi generare nell'area di testo del riquadro Prompt.
  5. Fai clic sul pulsante Prompt ().

Gemini genererà un parlato in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.*

Utilizzo dell'API

Salva il corpo della richiesta in un file denominato request.json. Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Say, 'How are you?'" }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "AUDIO""
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Quindi, esegui il seguente comando per inviare la richiesta REST:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini genererà l'audio in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.

Generazione di immagini (sperimentale pubblica)

La funzionalità di generazione di immagini sperimentale di Gemini 2.0 Flash (gemini-2.0-flash-exp) supporta la possibilità di generare immagini oltre al testo. In questo modo, le funzionalità di Gemini vengono ampliate per includere quanto segue:

  • Genera immagini in modo iterativo tramite conversazione con linguaggio naturale, modificandole mantenendo coerenza e contesto.
  • Genera immagini con un rendering di testo lungo di alta qualità.
  • Genera output di testo e immagini interlacciati. Ad esempio, un post del blog con testo e immagini in un unico turno. In precedenza, era necessario collegare più modelli.
  • Genera immagini utilizzando le funzionalità di ragionamento e conoscenza del mondo di Gemini.

Con questa release sperimentale pubblica, la generazione di immagini Gemini 2.0 Flash Experimental può generare immagini in 1024 px, supporta la generazione e l'editing di immagini di persone e contiene filtri di sicurezza aggiornati che offrono un'esperienza utente più flessibile e meno restrittiva.

Supporta le seguenti modalità e funzionalità:

  • Da testo a immagine

    • Esempio di prompt: "Genera un'immagine della Torre Eiffel con fuochi d'artificio sullo sfondo".
  • Testo in immagine (rendering del testo)

    • Prompt di esempio: "Genera una foto cinematografica di un grande edificio con questa gigantesca proiezione di testo mappata sulla facciata dell'edificio: "Gemini 2.0 ora può generare testo nel formato lungo""
  • Testo in immagini e testo (interlacciate)

    • Esempio di prompt: "Genera una ricetta illustrata per una paella. Crea le immagini insieme al testo durante la generazione della ricetta."
    • Prompt di esempio: "Genera una storia su un cane in stile animazione cartoon 3D. Per ogni scena, genera un'immagine"
  • Immagini e testo in immagini e testo (interlacciati)

    • Prompt di esempio: (con un'immagine di una stanza arredata) "Quali altri colori di divani potrebbero andare bene nel mio spazio? Puoi aggiornare l'immagine?"
  • Modifica delle immagini (da testo a immagine e da immagine a immagine)

    • Prompt di esempio: "Modifica questa immagine in modo che assomigli a un cartone animato"
    • Esempio di prompt: [immagine di un gatto] + [immagine di un cuscino] + "Crea un punto croce del mio gatto su questo cuscino".
  • Modifica di immagini con più turni (chat)

    • Prompt di esempio: [carica un'immagine di un'auto blu.] "Trasforma questa auto in una decappottabile." "Ora cambia il colore in giallo."

Limitazioni:

  • Per un rendimento ottimale, utilizza le seguenti lingue: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • La generazione di immagini non supporta input audio o video.
  • La generazione di immagini potrebbe non essere sempre attivata:
    • Il modello potrebbe restituire solo testo. Prova a chiedere esplicitamente le uscite di immagini. Ad esempio, "Fornisci le immagini man mano che procedi".
    • Il modello potrebbe generare il testo come immagine. Prova a chiedere esplicitamente gli output di testo. Ad esempio, "genera testo narrativo insieme alle illustrazioni".
    • Il modello potrebbe interrompere la generazione a metà. Riprova o prova con un altro prompt.

Genera immagini

Le sezioni seguenti spiegano come generare immagini utilizzando Vertex AI Studio o l'API.

Per indicazioni e best practice per la creazione di prompt, consulta Creare prompt multimodali.

Utilizzo di Vertex AI Studio

Per utilizzare la generazione di immagini:

  1. Apri Vertex AI Studio > In formato libero.
  2. Seleziona gemini-2.0-flash-exp dal menu a discesa Modelli.
  3. Nel riquadro Risposta, seleziona Immagine e testo dal menu a discesa.
  4. Scrivi una descrizione dell'immagine che vuoi generare nell'area di testo del riquadro Prompt.
  5. Fai clic sul pulsante Prompt ().

Gemini genererà un'immagine in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.

Utilizzo dell'API

Salva il corpo della richiesta in un file denominato request.json. Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Generate an image of a cat." }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "IMAGE", "TEXT"
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Quindi, esegui il seguente comando per inviare la richiesta REST:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini genererà un'immagine in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.