Gemini 2.0 Flash supporta la generazione di risposte in più modalità, tra cui testo, parlato e immagini.
Generazione di testo
Gemini 2.0 Flash supporta la generazione di testo utilizzando la console Google Cloud, l'API REST e gli SDK supportati. Per ulteriori informazioni, consulta la nostra guida alla generazione di testo.
Generazione di voce (sperimentale privata)
Gemini 2.0 supporta una nuova funzionalità di generazione multimodale: la sintesi vocale.
Utilizzando la funzionalità di sintesi vocale, puoi chiedere al modello di generare un output audio di alta qualità che suoni come una voce umana (say "hi everyone"
) e puoi perfezionare ulteriormente l'output modificando la voce.
Generare voce
Le sezioni seguenti spiegano come generare voce utilizzando Vertex AI Studio o l'API.
Per indicazioni e best practice per la creazione di prompt, consulta Creare prompt multimodali.
Utilizzo di Vertex AI Studio
Per utilizzare la generazione vocale:
- Apri Vertex AI Studio > In formato libero.
-
Seleziona
gemini-2.0-flash-exp
dal menu a discesa Modelli. - Nel riquadro Risposta, seleziona Audio dal menu a discesa.
- Scrivi una descrizione del discorso che vuoi generare nell'area di testo del riquadro Prompt.
- Fai clic sul pulsante Prompt ( ).
Gemini genererà un parlato in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.*
Utilizzo dell'API
Salva il corpo della richiesta in un file denominato request.json
.
Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:
cat << EOF > request.json { "contents": [ { "role": "user", "parts": [ { "text": "Say, 'How are you?'" } ] } ], "generation_config": { "response_modalities": [ "AUDIO"" ] }, "safety_settings": [ { "category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "threshold": "BLOCK_NONE" } ] } EOF
Quindi, esegui il seguente comando per inviare la richiesta REST:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \ -d $"@request.json"
Gemini genererà l'audio in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.
Generazione di immagini (sperimentale pubblica)
La funzionalità di generazione di immagini sperimentale di Gemini 2.0 Flash (gemini-2.0-flash-exp
) supporta la possibilità di generare immagini oltre al testo. In questo modo, le funzionalità di Gemini vengono ampliate per includere quanto segue:
- Genera immagini in modo iterativo tramite conversazione con linguaggio naturale, modificandole mantenendo coerenza e contesto.
- Genera immagini con un rendering di testo lungo di alta qualità.
- Genera output di testo e immagini interlacciati. Ad esempio, un post del blog con testo e immagini in un unico turno. In precedenza, era necessario collegare più modelli.
- Genera immagini utilizzando le funzionalità di ragionamento e conoscenza del mondo di Gemini.
Con questa release sperimentale pubblica, la generazione di immagini Gemini 2.0 Flash Experimental può generare immagini in 1024 px, supporta la generazione e l'editing di immagini di persone e contiene filtri di sicurezza aggiornati che offrono un'esperienza utente più flessibile e meno restrittiva.
Supporta le seguenti modalità e funzionalità:
Da testo a immagine
- Esempio di prompt: "Genera un'immagine della Torre Eiffel con fuochi d'artificio sullo sfondo".
Testo in immagine (rendering del testo)
- Prompt di esempio: "Genera una foto cinematografica di un grande edificio con questa gigantesca proiezione di testo mappata sulla facciata dell'edificio: "Gemini 2.0 ora può generare testo nel formato lungo""
Testo in immagini e testo (interlacciate)
- Esempio di prompt: "Genera una ricetta illustrata per una paella. Crea le immagini insieme al testo durante la generazione della ricetta."
- Prompt di esempio: "Genera una storia su un cane in stile animazione cartoon 3D. Per ogni scena, genera un'immagine"
Immagini e testo in immagini e testo (interlacciati)
- Prompt di esempio: (con un'immagine di una stanza arredata) "Quali altri colori di divani potrebbero andare bene nel mio spazio? Puoi aggiornare l'immagine?"
Modifica delle immagini (da testo a immagine e da immagine a immagine)
- Prompt di esempio: "Modifica questa immagine in modo che assomigli a un cartone animato"
- Esempio di prompt: [immagine di un gatto] + [immagine di un cuscino] + "Crea un punto croce del mio gatto su questo cuscino".
Modifica di immagini con più turni (chat)
- Prompt di esempio: [carica un'immagine di un'auto blu.] "Trasforma questa auto in una decappottabile." "Ora cambia il colore in giallo."
Limitazioni:
- Per un rendimento ottimale, utilizza le seguenti lingue: EN, es-MX, ja-JP, zh-CN, hi-IN.
- La generazione di immagini non supporta input audio o video.
- La generazione di immagini potrebbe non essere sempre attivata:
- Il modello potrebbe restituire solo testo. Prova a chiedere esplicitamente le uscite di immagini. Ad esempio, "Fornisci le immagini man mano che procedi".
- Il modello potrebbe generare il testo come immagine. Prova a chiedere esplicitamente gli output di testo. Ad esempio, "genera testo narrativo insieme alle illustrazioni".
- Il modello potrebbe interrompere la generazione a metà. Riprova o prova con un altro prompt.
Genera immagini
Le sezioni seguenti spiegano come generare immagini utilizzando Vertex AI Studio o l'API.
Per indicazioni e best practice per la creazione di prompt, consulta Creare prompt multimodali.
Utilizzo di Vertex AI Studio
Per utilizzare la generazione di immagini:
- Apri Vertex AI Studio > In formato libero.
-
Seleziona
gemini-2.0-flash-exp
dal menu a discesa Modelli. - Nel riquadro Risposta, seleziona Immagine e testo dal menu a discesa.
- Scrivi una descrizione dell'immagine che vuoi generare nell'area di testo del riquadro Prompt.
- Fai clic sul pulsante Prompt ( ).
Gemini genererà un'immagine in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.
Utilizzo dell'API
Salva il corpo della richiesta in un file denominato request.json
.
Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:
cat << EOF > request.json { "contents": [ { "role": "user", "parts": [ { "text": "Generate an image of a cat." } ] } ], "generation_config": { "response_modalities": [ "IMAGE", "TEXT" ] }, "safety_settings": [ { "category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "threshold": "BLOCK_NONE" } ] } EOF
Quindi, esegui il seguente comando per inviare la richiesta REST:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \ -d $"@request.json"
Gemini genererà un'immagine in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.