Puoi aggiungere immagini alle richieste di Gemini per eseguire attività che comportano la comprensione dei contenuti delle immagini incluse. Questa pagina mostra come aggiungere immagini alle richieste a Gemini in Vertex AI utilizzando la consoleGoogle Cloud e l'API Vertex AI.
Modelli supportati
La seguente tabella elenca i modelli che supportano la comprensione delle immagini:
Modello | Dettagli del media | Tipi MIME |
---|---|---|
Gemini 2.5 Flash-Lite |
|
|
Gemini 2.0 Flash con generazione di immagini |
|
|
Gemini 2.5 Pro |
|
|
Gemini 2.5 Flash |
|
|
Gemini 2.0 Flash |
|
|
Gemini 2.0 Flash-Lite |
|
|
La metrica di quota è
generate_content_video_input_per_base_model_id_and_resolution
.
Per un elenco delle lingue supportate dai modelli Gemini, consulta le informazioni sui modelli Modelli Google. Per scoprire di più su come progettare prompt multimodali, consulta Progetta prompt multimodali. Se stai cercando un modo per utilizzare Gemini direttamente dalle tue app web e mobile, consulta gli SDK client Firebase AI Logic per app Swift, Android, web, Flutter e Unity.
Aggiungere immagini a una richiesta
Puoi aggiungere una o più immagini alla tua richiesta a Gemini.
Immagine singola
Il codice campione in ciascuna delle seguenti schede mostra un modo diverso per identificare il contenuto di un'immagine. Questo esempio funziona con tutti i modelli multimodali Gemini.
Console
Per inviare un prompt multimodale utilizzando la console Google Cloud , procedi nel seguente modo:Nella sezione Vertex AI della console Google Cloud , vai alla pagina Vertex AI Studio.
Fai clic su Apri in formato libero.
(Facoltativo) Configura il modello e i parametri:
- Modello: seleziona un modello.
- Regione: seleziona la regione che vuoi utilizzare.
Temperatura: utilizza il cursore o la casella di testo per inserire un valore per la temperatura.
La temperatura viene utilizzata per il campionamento durante la generazione della risposta, che si verifica quando vengono applicati
topP
etopK
. La temperatura controlla il grado di casualità nella selezione dei token. Le temperature basse sono ideali per prompt che richiedono risposte meno aperte o creative, mentre le temperature più alte possono portare a risultati più diversificati o creativi. Una temperatura pari a0
indica che vengono sempre selezionati i token con la probabilità più alta. In questo caso, le risposte a un determinato prompt sono per lo più deterministiche, ma è comunque possibile una piccola variazione.Se il modello restituisce una risposta troppo generica, troppo breve o fornisce una risposta di riserva, prova ad aumentare la temperatura.
Limite di token di output: utilizza il cursore o la casella di testo per inserire un valore per il limite massimo di output.
Il numero massimo di token che possono essere generati nella risposta. Un token equivale a circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
Aggiungi sequenza di interruzioni: facoltativo. Inserisci una sequenza di interruzioni, ovvero una serie di caratteri che include spazi. Se il modello rileva una sequenza di interruzioni, la generazione della risposta si interrompe. La sequenza di interruzioni non è inclusa nella risposta e puoi aggiungere fino a cinque sequenze di interruzioni.
(Facoltativo) Per configurare i parametri avanzati, fai clic su Avanzate e configura come segue:
Fai clic per espandere le configurazioni avanzate.
Top-K: utilizza il cursore o la casella di testo per inserire un valore per Top-K. (non supportato per Gemini 1.5).
Top-K cambia il modo in cui il modello seleziona i token per l'output. Un top-K pari a1
indica che il token successivo selezionato è il più probabile tra tutti i token nel vocabolario del modello (chiamato anche decodifica greedy). Un top-K pari a3
indica, invece, che il token successivo viene selezionato tra i tre token più probabili (utilizzando la temperatura).Per ogni fase di selezione dei token, vengono campionati i token Top-K con le probabilità più alte. Quindi i token vengono ulteriormente filtrati in base a top-P e il token finale viene selezionato utilizzando il campionamento con temperatura.
Specifica un valore più basso per risposte meno casuali e un valore più alto per risposte più casuali.
- Top-P: utilizza il cursore o la casella di testo per inserire un valore per Top-P.
I token vengono selezionati a partire da quello più probabile fino a quello meno probabile, finché la somma delle loro probabilità non corrisponde al valore di Top-P. Per ridurre al minimo la variabilità dei risultati,
imposta Top-P su
0
. - Risposte massime: utilizza il cursore o la casella di testo per inserire un valore per il numero di risposte da generare.
- Risposte dinamiche: attiva questa opzione per stampare le risposte man mano che vengono generate.
- Soglia del filtro di sicurezza: seleziona la soglia di probabilità di ricevere risposte potenzialmente dannose.
- Abilita grounding: il grounding non è supportato per i prompt multimodali.
Fai clic su Inserisci contenuti multimediali e seleziona un'origine per il file.
Carica
Seleziona il file che vuoi caricare e fai clic su Apri.
Tramite URL
Inserisci l'URL del file che vuoi utilizzare e fai clic su Inserisci.
Cloud Storage
Seleziona il bucket e poi il file dal bucket che vuoi importare e fai clic su Seleziona.
Google Drive
- Scegli un account e dai il consenso a Vertex AI Studio per accedere al tuo account la prima volta che selezioni questa opzione. Puoi caricare più file con una dimensione totale massima di 10 MB. Un singolo file non può superare 7 MB.
- Fai clic sul file che vuoi aggiungere.
Fai clic su Seleziona.
La miniatura del file viene visualizzata nel riquadro Prompt. Viene visualizzato anche il numero totale di token. Se i dati del prompt superano il limite di token, i token vengono troncati e non sono inclusi nell'elaborazione dei dati.
Inserisci il prompt di testo nel riquadro Prompt.
(Facoltativo) Per visualizzare ID token in testo e ID token, fai clic sul conteggio dei token nel riquadro Prompt.
Fai clic su Invia.
(Facoltativo) Per salvare il prompt in I miei prompt, fai clic su
Salva.(Facoltativo) Per ottenere il codice Python o un comando curl per il prompt, fai clic su
Acquisisci codice.
Python
Installa
pip install --upgrade google-genai
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Go
Scopri come installare o aggiornare Go.
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Node.js
Installa
npm install @google/genai
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Scopri come installare o aggiornare Java.
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.
Puoi includere immagini archiviate in Cloud Storage o utilizzare dati immagine codificati in base64.Immagine in Cloud Storage
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
PROJECT_ID
: il tuo ID progettoFILE_URI
: L'URI o l'URL del file da includere nel prompt. I valori accettabili includono:- URI del bucket Cloud Storage:l'oggetto deve essere leggibile pubblicamente o risiedere nello stesso progetto Google Cloud che invia la richiesta. Per
gemini-2.0-flash
egemini-2.0-flash-lite
, il limite di dimensioni è di 2 GB. - URL HTTP: l'URL del file deve essere leggibile pubblicamente. Puoi specificare un file video, un file audio e fino a 10 file immagine per richiesta. I file audio, video e i documenti non possono superare i 15 MB.
- URL del video di YouTube: il video di YouTube deve essere di proprietà dell'account che hai utilizzato per accedere alla console Google Cloud o deve essere pubblico. È supportato un solo URL di video di YouTube per richiesta.
Quando specifichi un
fileURI
, devi specificare anche il tipo di media (mimeType
) del file. Se Controlli di servizio VPC è abilitato, la specifica di un URL del file multimediale perfileURI
non è supportata.Se non disponi di un file immagine in Cloud Storage, puoi utilizzare il seguente file disponibile pubblicamente:
gs://cloud-samples-data/generative-ai/image/scones.jpg
con un tipo MIME diimage/jpeg
. Per visualizzare questa immagine, apri il file dell'immagine di esempio.- URI del bucket Cloud Storage:l'oggetto deve essere leggibile pubblicamente o risiedere nello stesso progetto Google Cloud che invia la richiesta. Per
MIME_TYPE
: Il tipo di media del file specificato nei campidata
ofileUri
. I valori accettabili includono:Fai clic per espandere i tipi MIME
application/pdf
audio/mpeg
audio/mp3
audio/wav
image/png
image/jpeg
image/webp
text/plain
video/mov
video/mpeg
video/mp4
video/mpg
video/avi
video/wmv
video/mpegps
video/flv
TEXT
: Le istruzioni di testo da includere nel prompt. Ad esempio,What is shown in this image?
Per inviare la richiesta, scegli una di queste opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
Esegui questo comando nel terminale per creare o sovrascrivere
questo file nella directory corrente:
cat > request.json << 'EOF' { "contents": { "role": "USER", "parts": [ { "fileData": { "fileUri": "FILE_URI", "mimeType": "MIME_TYPE" } }, { "text": "TEXT" } ] } } EOF
Quindi, esegui questo comando per inviare la richiesta REST:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
Esegui questo comando nel terminale per creare o sovrascrivere
questo file nella directory corrente:
@' { "contents": { "role": "USER", "parts": [ { "fileData": { "fileUri": "FILE_URI", "mimeType": "MIME_TYPE" } }, { "text": "TEXT" } ] } } '@ | Out-File -FilePath request.json -Encoding utf8
Quindi, esegui questo comando per inviare la richiesta REST:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Dati immagine Base64
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
LOCATION
: La regione in cui elaborare la richiesta. Inserisci una regione supportata. Per l'elenco completo delle regioni supportate, consulta Località disponibili.Fai clic per espandere un elenco parziale delle regioni disponibili
us-central1
us-west4
northamerica-northeast1
us-east4
us-west1
asia-northeast3
asia-southeast1
asia-northeast1
PROJECT_ID
: il tuo ID progetto La codifica base64 dell'immagine, del PDF o del video da includere inline nel prompt. Quando includi contenuti multimediali in linea, devi anche specificare il tipo di contenuti multimediali (B64_BASE_IMAGE
mimeType
) dei dati.MIME_TYPE
: Il tipo di media del file specificato nei campidata
ofileUri
. I valori accettabili includono:Fai clic per espandere i tipi MIME
application/pdf
audio/mpeg
audio/mp3
audio/wav
image/png
image/jpeg
image/webp
text/plain
video/mov
video/mpeg
video/mp4
video/mpg
video/avi
video/wmv
video/mpegps
video/flv
TEXT
: Le istruzioni di testo da includere nel prompt. Ad esempio,What is shown in this image?
.
Per inviare la richiesta, scegli una di queste opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
Esegui questo comando nel terminale per creare o sovrascrivere
questo file nella directory corrente:
cat > request.json << 'EOF' { "contents": { "role": "USER", "parts": [ { "inlineData": { "data": "B64_BASE_IMAGE", "mimeType": "MIME_TYPE" } }, { "text": "TEXT" } ] } } EOF
Quindi, esegui questo comando per inviare la richiesta REST:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
Esegui questo comando nel terminale per creare o sovrascrivere
questo file nella directory corrente:
@' { "contents": { "role": "USER", "parts": [ { "inlineData": { "data": "B64_BASE_IMAGE", "mimeType": "MIME_TYPE" } }, { "text": "TEXT" } ] } } '@ | Out-File -FilePath request.json -Encoding utf8
Quindi, esegui questo comando per inviare la richiesta REST:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
- Utilizza il metodo
generateContent
per richiedere che la risposta venga restituita dopo essere stata generata completamente. Per ridurre la percezione della latenza per un pubblico umano, trasmetti in streaming la risposta mentre viene generata utilizzando il metodostreamGenerateContent
. - L'ID del modello multimodale si trova alla fine dell'URL prima del metodo
(ad esempio,
gemini-2.0-flash
). Questo esempio potrebbe supportare anche altri modelli.
Più immagini
Ciascuna delle seguenti schede mostra un modo diverso per includere più immagini in una richiesta di prompt. Ogni campione accetta due insiemi dei seguenti input:
- Un'immagine di un monumento cittadino famoso
- Il tipo di media dell'immagine
- Testo che indica la città e il punto di riferimento nell'immagine
Il campione include anche una terza immagine e un terzo tipo di contenuti multimediali, ma nessun testo. L'esempio restituisce una risposta di testo che indica la città e il punto di riferimento nella terza immagine.
Questi esempi di immagini funzionano con tutti i modelli multimodali Gemini.
Console
Per inviare un prompt multimodale utilizzando la console Google Cloud , procedi nel seguente modo:Nella sezione Vertex AI della console Google Cloud , vai alla pagina Vertex AI Studio.
Fai clic su Apri in formato libero.
(Facoltativo) Configura il modello e i parametri:
- Modello: seleziona un modello.
- Regione: seleziona la regione che vuoi utilizzare.
Temperatura: utilizza il cursore o la casella di testo per inserire un valore per la temperatura.
La temperatura viene utilizzata per il campionamento durante la generazione della risposta, che si verifica quando vengono applicati
topP
etopK
. La temperatura controlla il grado di casualità nella selezione dei token. Le temperature basse sono ideali per prompt che richiedono risposte meno aperte o creative, mentre le temperature più alte possono portare a risultati più diversificati o creativi. Una temperatura pari a0
indica che vengono sempre selezionati i token con la probabilità più alta. In questo caso, le risposte a un determinato prompt sono per lo più deterministiche, ma è comunque possibile una piccola variazione.Se il modello restituisce una risposta troppo generica, troppo breve o fornisce una risposta di riserva, prova ad aumentare la temperatura.
Limite di token di output: utilizza il cursore o la casella di testo per inserire un valore per il limite massimo di output.
Il numero massimo di token che possono essere generati nella risposta. Un token equivale a circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
Aggiungi sequenza di interruzioni: facoltativo. Inserisci una sequenza di interruzioni, ovvero una serie di caratteri che include spazi. Se il modello rileva una sequenza di interruzioni, la generazione della risposta si interrompe. La sequenza di interruzioni non è inclusa nella risposta e puoi aggiungere fino a cinque sequenze di interruzioni.
(Facoltativo) Per configurare i parametri avanzati, fai clic su Avanzate e configura come segue:
Fai clic per espandere le configurazioni avanzate.
Top-K: utilizza il cursore o la casella di testo per inserire un valore per Top-K. (non supportato per Gemini 1.5).
Top-K cambia il modo in cui il modello seleziona i token per l'output. Un top-K pari a1
indica che il token successivo selezionato è il più probabile tra tutti i token nel vocabolario del modello (chiamato anche decodifica greedy). Un top-K pari a3
indica, invece, che il token successivo viene selezionato tra i tre token più probabili (utilizzando la temperatura).Per ogni fase di selezione dei token, vengono campionati i token Top-K con le probabilità più alte. Quindi i token vengono ulteriormente filtrati in base a top-P e il token finale viene selezionato utilizzando il campionamento con temperatura.
Specifica un valore più basso per risposte meno casuali e un valore più alto per risposte più casuali.
- Top-P: utilizza il cursore o la casella di testo per inserire un valore per Top-P.
I token vengono selezionati a partire da quello più probabile fino a quello meno probabile, finché la somma delle loro probabilità non corrisponde al valore di Top-P. Per ridurre al minimo la variabilità dei risultati,
imposta Top-P su
0
. - Risposte massime: utilizza il cursore o la casella di testo per inserire un valore per il numero di risposte da generare.
- Risposte dinamiche: attiva questa opzione per stampare le risposte man mano che vengono generate.
- Soglia del filtro di sicurezza: seleziona la soglia di probabilità di ricevere risposte potenzialmente dannose.
- Abilita grounding: il grounding non è supportato per i prompt multimodali.
Fai clic su Inserisci contenuti multimediali e seleziona un'origine per il file.
Carica
Seleziona il file che vuoi caricare e fai clic su Apri.
Tramite URL
Inserisci l'URL del file che vuoi utilizzare e fai clic su Inserisci.
Cloud Storage
Seleziona il bucket e poi il file dal bucket che vuoi importare e fai clic su Seleziona.
Google Drive
- Scegli un account e dai il consenso a Vertex AI Studio per accedere al tuo account la prima volta che selezioni questa opzione. Puoi caricare più file con una dimensione totale massima di 10 MB. Un singolo file non può superare 7 MB.
- Fai clic sul file che vuoi aggiungere.
Fai clic su Seleziona.
La miniatura del file viene visualizzata nel riquadro Prompt. Viene visualizzato anche il numero totale di token. Se i dati del prompt superano il limite di token, i token vengono troncati e non sono inclusi nell'elaborazione dei dati.
Inserisci il prompt di testo nel riquadro Prompt.
(Facoltativo) Per visualizzare ID token in testo e ID token, fai clic sul conteggio dei token nel riquadro Prompt.
Fai clic su Invia.
(Facoltativo) Per salvare il prompt in I miei prompt, fai clic su
Salva.(Facoltativo) Per ottenere il codice Python o un comando curl per il prompt, fai clic su
Acquisisci codice.
Python
Installa
pip install --upgrade google-genai
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Go
Scopri come installare o aggiornare Go.
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Node.js
Installa
npm install @google/genai
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Scopri come installare o aggiornare Java.
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
PROJECT_ID
: il tuo ID progettoFILE_URI1
: L'URI o l'URL del file da includere nel prompt. I valori accettabili includono:- URI del bucket Cloud Storage:l'oggetto deve essere leggibile pubblicamente o risiedere nello stesso progetto Google Cloud che invia la richiesta. Per
gemini-2.0-flash
egemini-2.0-flash-lite
, il limite di dimensioni è di 2 GB. - URL HTTP: l'URL del file deve essere leggibile pubblicamente. Puoi specificare un file video, un file audio e fino a 10 file immagine per richiesta. I file audio, video e i documenti non possono superare i 15 MB.
- URL del video di YouTube: il video di YouTube deve essere di proprietà dell'account che hai utilizzato per accedere alla console Google Cloud o deve essere pubblico. È supportato un solo URL di video di YouTube per richiesta.
Quando specifichi un
fileURI
, devi specificare anche il tipo di media (mimeType
) del file. Se Controlli di servizio VPC è abilitato, la specifica di un URL del file multimediale perfileURI
non è supportata.Se non disponi di un file immagine in Cloud Storage, puoi utilizzare il seguente file disponibile pubblicamente:
gs://cloud-samples-data/vertex-ai/llm/prompts/landmark1.png
con un tipo MIME diimage/png
. Per visualizzare questa immagine, apri il file dell'immagine di esempio.- URI del bucket Cloud Storage:l'oggetto deve essere leggibile pubblicamente o risiedere nello stesso progetto Google Cloud che invia la richiesta. Per
MIME_TYPE
: Il tipo di media del file specificato nei campidata
ofileUri
. I valori accettabili includono:Fai clic per espandere i tipi MIME
application/pdf
audio/mpeg
audio/mp3
audio/wav
image/png
image/jpeg
image/webp
text/plain
video/mov
video/mpeg
video/mp4
video/mpg
video/avi
video/wmv
video/mpegps
video/flv
TEXT1
: Le istruzioni di testo da includere nel prompt. Ad esempio,city: Rome, Landmark: the Colosseum
FILE_URI2
: L'URI o l'URL del file da includere nel prompt. I valori accettabili includono:- URI del bucket Cloud Storage:l'oggetto deve essere leggibile pubblicamente o risiedere nello stesso progetto Google Cloud che invia la richiesta. Per
gemini-2.0-flash
egemini-2.0-flash-lite
, il limite di dimensioni è di 2 GB. - URL HTTP: l'URL del file deve essere leggibile pubblicamente. Puoi specificare un file video, un file audio e fino a 10 file immagine per richiesta. I file audio, video e i documenti non possono superare i 15 MB.
- URL del video di YouTube: il video di YouTube deve essere di proprietà dell'account che hai utilizzato per accedere alla console Google Cloud o deve essere pubblico. È supportato un solo URL di video di YouTube per richiesta.
Quando specifichi un
fileURI
, devi specificare anche il tipo di media (mimeType
) del file. Se Controlli di servizio VPC è abilitato, la specifica di un URL del file multimediale perfileURI
non è supportata.Se non disponi di un file immagine in Cloud Storage, puoi utilizzare il seguente file disponibile pubblicamente:
gs://cloud-samples-data/vertex-ai/llm/prompts/landmark2.png
con un tipo MIME diimage/png
. Per visualizzare questa immagine, apri il file dell'immagine di esempio.- URI del bucket Cloud Storage:l'oggetto deve essere leggibile pubblicamente o risiedere nello stesso progetto Google Cloud che invia la richiesta. Per
TEXT2
: Le istruzioni di testo da includere nel prompt. Ad esempio,city: Beijing, Landmark: Forbidden City
FILE_URI3
: L'URI o l'URL del file da includere nel prompt. I valori accettabili includono:- URI del bucket Cloud Storage:l'oggetto deve essere leggibile pubblicamente o risiedere nello stesso progetto Google Cloud che invia la richiesta. Per
gemini-2.0-flash
egemini-2.0-flash-lite
, il limite di dimensioni è di 2 GB. - URL HTTP: l'URL del file deve essere leggibile pubblicamente. Puoi specificare un file video, un file audio e fino a 10 file immagine per richiesta. I file audio, video e i documenti non possono superare i 15 MB.
- URL del video di YouTube: il video di YouTube deve essere di proprietà dell'account che hai utilizzato per accedere alla console Google Cloud o deve essere pubblico. È supportato un solo URL di video di YouTube per richiesta.
Quando specifichi un
fileURI
, devi specificare anche il tipo di media (mimeType
) del file. Se Controlli di servizio VPC è abilitato, la specifica di un URL del file multimediale perfileURI
non è supportata.Se non disponi di un file immagine in Cloud Storage, puoi utilizzare il seguente file disponibile pubblicamente:
gs://cloud-samples-data/vertex-ai/llm/prompts/landmark3.png
con un tipo MIME diimage/png
. Per visualizzare questa immagine, apri il file dell'immagine di esempio.- URI del bucket Cloud Storage:l'oggetto deve essere leggibile pubblicamente o risiedere nello stesso progetto Google Cloud che invia la richiesta. Per
Per inviare la richiesta, scegli una di queste opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
Esegui questo comando nel terminale per creare o sovrascrivere
questo file nella directory corrente:
cat > request.json << 'EOF' { "contents": { "role": "USER", "parts": [ { "fileData": { "fileUri": "FILE_URI1", "mimeType": "MIME_TYPE" } }, { "text": "TEXT1" }, { "fileData": { "fileUri": "FILE_URI2", "mimeType": "MIME_TYPE" } }, { "text": "TEXT2" }, { "fileData": { "fileUri": "FILE_URI3", "mimeType": "MIME_TYPE" } } ] } } EOF
Quindi, esegui questo comando per inviare la richiesta REST:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
Esegui questo comando nel terminale per creare o sovrascrivere
questo file nella directory corrente:
@' { "contents": { "role": "USER", "parts": [ { "fileData": { "fileUri": "FILE_URI1", "mimeType": "MIME_TYPE" } }, { "text": "TEXT1" }, { "fileData": { "fileUri": "FILE_URI2", "mimeType": "MIME_TYPE" } }, { "text": "TEXT2" }, { "fileData": { "fileUri": "FILE_URI3", "mimeType": "MIME_TYPE" } } ] } } '@ | Out-File -FilePath request.json -Encoding utf8
Quindi, esegui questo comando per inviare la richiesta REST:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Nell'URL di questo esempio, nota quanto segue:- Utilizza il metodo
generateContent
per richiedere che la risposta venga restituita dopo essere stata generata completamente. Per ridurre la percezione della latenza per un pubblico umano, trasmetti in streaming la risposta mentre viene generata utilizzando il metodostreamGenerateContent
. - L'ID del modello multimodale si trova alla fine dell'URL prima del metodo
(ad esempio,
gemini-2.0-flash
). Questo esempio potrebbe supportare anche altri modelli.
Impostare i parametri facoltativi del modello
Ogni modello ha un insieme di parametri facoltativi che puoi impostare. Per ulteriori informazioni, consulta Parametri di generazione dei contenuti.
Tokenizzazione delle immagini
Ecco come vengono calcolati i token per le immagini:
- Se entrambe le dimensioni di un'immagine sono inferiori o uguali a 384 pixel, vengono utilizzati 258 token.
- Se una dimensione di un'immagine è superiore a 384 pixel, l'immagine viene ritagliata in riquadri. Per impostazione predefinita, ogni dimensione del riquadro è pari alla dimensione più piccola (larghezza o altezza) divisa per 1,5. Se necessario, ogni riquadro viene modificato in modo che non sia inferiore a 256 pixel e non superiore a 768 pixel. Ogni riquadro viene quindi ridimensionato a 768x768 e utilizza 258 token.
Best practice
Quando utilizzi le immagini, segui queste best practice e informazioni per ottenere i risultati migliori:
- Se vuoi rilevare il testo in un'immagine, utilizza prompt con una singola immagine per ottenere risultati migliori rispetto ai prompt con più immagini.
- Se il prompt contiene una sola immagine, inseriscila prima del prompt di testo nella richiesta.
- Se il prompt contiene più immagini e vuoi farvi riferimento
in un secondo momento nel prompt o vuoi che il modello vi faccia riferimento nella risposta,
può essere utile assegnare a ogni immagine un indice prima dell'immagine. Utilizza
oa
b
c
per l'indice. Di seguito è riportato un esempio di utilizzo di immagini indicizzate in un prompt:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Utilizza immagini con una risoluzione più elevata, in quanto producono risultati migliori.
- Includi alcuni esempi nel prompt.
- Ruota le immagini nell'orientamento corretto prima di aggiungerle al prompt.
- Evita immagini sfocate.
Limitazioni
Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprendere i limiti dei modelli:
- Moderazione dei contenuti: i modelli si rifiutano di fornire risposte su immagini che violano le nostre norme di sicurezza.
- Ragionamento spaziale: i modelli non sono precisi nell'individuazione di testo o oggetti nelle immagini. Potrebbero restituire solo i conteggi approssimativi degli oggetti.
- Usi medici: i modelli non sono adatti per interpretare immagini mediche (ad esempio radiografie e tomografie) o per fornire consulenza medica.
- Riconoscimento delle persone: i modelli non sono pensati per identificare persone non famose nelle immagini.
- Precisione: i modelli potrebbero avere allucinazioni o commettere errori quando interpretano immagini di bassa qualità, ruotate o a risoluzione estremamente bassa. I modelli potrebbero anche avere allucinazioni quando interpretano il testo scritto a mano in documenti di immagini.
Passaggi successivi
- Inizia a creare con i modelli multimodali Gemini. I nuovi clienti ricevono 300 $di crediti Google Cloud gratuiti per esplorare le funzionalità di Gemini.
- Scopri come inviare richieste di prompt di chat.
- Scopri di più sulle best practice per l'AI responsabile e sui filtri di sicurezza di Vertex AI.