Esta página foi traduzida pela API Cloud Translation.

Criar comandos multimodais

Com a API Gemini na Vertex AI, é possível enviar entradas multimodais, como texto, imagens e vídeo, como parte do comando para os modelos do Gemini. Nesta página, você encontra as práticas recomendadas para criar solicitações multimodais e como resolver problemas se elas não estiverem funcionando como esperado. Para orientações gerais sobre design de comandos, consulte nossas estratégias recomendadas ou a lista de práticas recomendadas específicas para multimodal a seguir.

conceitos básicos do design de comandos

Usar instruções específicas

Comandos claros e detalhados oferecem os melhores resultados. Se você tiver uma saída específica em mente, inclua esse requisito no comando para aumentar a probabilidade de receber a saída correta.

Mesmo quando um comando parece claro para a pessoa que o escreveu, ele pode estar subespecificado. Para personalizar o comportamento do modelo, analise como o comando pode ser interpretado e verifique se as instruções fornecidas são específicas e claras.

Se você incluiu a imagem de uma placa de aeroporto abaixo como parte do comando, pedir ao modelo apenas "descrever esta imagem" pode gerar uma descrição geral. Se você precisa que o modelo analise a hora e a cidade a partir da imagem, inclua essa solicitação diretamente no comando.

Comando	Resposta do modelo
Descreva esta imagem.	A imagem mostra um painel de chegadas e partidas do aeroporto.

Comando atualizado	Resposta aprimorada
Analise a hora e a cidade no quadro do aeroporto mostrado nesta imagem em uma lista.	10:50 Moscow 11:05 Edimburgo 11:05 Londres 11:10 Bucareste 11:30 Kiev 11:35 Dublin 11:45 Midlands Orientais 12:15 Sófia 12:30 Londres 12:30 Newcastle 12:40 São Petersburgo 12:40 Londres 12:45 Manchester

Adicionar exemplos

O modelo pode aceitar várias entradas para usar como exemplos e entender a saída que você quer. Adicionar esses exemplos pode ajudar o modelo a identificar os padrões e aplicar a relação entre as imagens fornecidas e as respostas ao novo exemplo. Isso é chamado de aprendizado"few-shot".

No exemplo a seguir, a resposta inicial é uma frase completa que também contém o país (Brasil). Se a saída preferida for apenas a cidade, não o país, adicione exemplos few-shot ao comando para orientar o modelo a responder nesse formato.

Comando	Resposta do modelo
Determine a cidade e o ponto turístico.	O ponto turístico é a estátua do Cristo Redentor no Rio de Janeiro, Brasil.

Comando atualizado	Resposta aprimorada
Determine a cidade e o ponto turístico.	cidade: Roma, ponto de referência: o Coliseu.
	cidade: Pequim, ponto de referência: Cidade Proibida
	cidade: Rio de Janeiro, ponto de referência: estátua do Cristo Redentor

Divida tarefas complexas em tarefas menores

Para tarefas complexas, como as que exigem compreensão e raciocínio visual, divida a tarefa em etapas menores e mais diretas ou peça diretamente ao modelo para pensar por etapas no comando.

Comando	Resposta do modelo
Quando vou ficar sem papel higiênico?	Em breve, você só tem mais três rolos.

Comando atualizado	Resposta aprimorada
Primeiro, conte quantos rolos de papel higiênico há nessa imagem. Em seguida, determine a quantidade de papel higiênico que uma pessoa usa por dia. Calcule quanto tempo esses rolos de papel higiênico vão durar.	Há três rolos de papel higiênico nesta imagem. Uma pessoa usa cerca de 20 folhas de papel higiênico por dia. Se cada rolo tiver 200 páginas, cada um deles vai durar cerca de 10 dias. Portanto, os três rolos durarão cerca de um mês.

Problemas matemáticos ou outros tipos de problemas também podem ser divididos em tarefas menores.

Comando	Resposta
$Uma imagem da sequência matemática b. b(1) = 15 e b(n) = b(n-1) * (-3).$ Qual é o quarto termo na sequência?	-135

A resposta do modelo está incorreta. Peça para o modelo analisar o problema antes de responder ao comando.

Comando	Resposta
$Uma imagem da sequência matemática b. b(1) = 15 e b(n) = b(n-1) * (-3).$ Analise a fórmula na imagem primeiro. Depois, com base na fórmula, responda "qual é o quarto termo na sequência?".	Clique para abrir o resultado $$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$ Substitua n = 4 na fórmula: $$b(4) = b(4-1) * (-3)$$ $$b(4) = b(3) * (-3)$$ Não sabemos o valor de b(3), portanto, substitua n = 3 na fórmula: $$b(3) = b(3-1) * (-3)$$ $$b(3) = b(2) * (-3)$$ Não sabemos o valor de b(2), portanto, substitua n = 2 na fórmula: $$b(2) = b(2-1) * (-3)$$ $$b(2) = b(1) * (-3)$$ Sabemos que o valor de b(1) é 15, portanto, substitua-o na fórmula: $$b(2) = 15 * (-3)$$ $$b(2) = -45$$ Agora que sabemos o valor de b(2), substitua-o na fórmula por b(3): $$b(3) = b(2) * (-3)$$ $$b(3) = -45 * (-3)$$ $$b(3) = 135$$ Agora que sabemos o valor de b(3), substitua-o na fórmula por b(4): $$b(4) = b(3) * (-3)$$ $$b(4) = 135 * (-3)$$ $$b(4) = -405$$ Portanto, o quarto termo na sequência é -405.

Comando

Resposta

$Uma imagem da sequência matemática b. b(1) = 15 e b(n) = b(n-1) * (-3).$

Analise a fórmula na imagem primeiro.

Depois, com base na fórmula, responda "qual é o quarto termo na sequência?".

Clique para abrir o resultado

$$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$

Substitua n = 4 na fórmula:
$$b(4) = b(4-1) * (-3)$$

$$b(4) = b(3) * (-3)$$
Não sabemos o valor de b(3), portanto, substitua n = 3 na fórmula:
$$b(3) = b(3-1) * (-3)$$

$$b(3) = b(2) * (-3)$$
Não sabemos o valor de b(2), portanto, substitua n = 2 na fórmula:
$$b(2) = b(2-1) * (-3)$$

$$b(2) = b(1) * (-3)$$
Sabemos que o valor de b(1) é 15, portanto, substitua-o na fórmula:
$$b(2) = 15 * (-3)$$

$$b(2) = -45$$
Agora que sabemos o valor de b(2), substitua-o na fórmula por b(3):
$$b(3) = b(2) * (-3)$$

$$b(3) = -45 * (-3)$$

$$b(3) = 135$$
Agora que sabemos o valor de b(3), substitua-o na fórmula por b(4):
$$b(4) = b(3) * (-3)$$

$$b(4) = 135 * (-3)$$

$$b(4) = -405$$

Portanto, o quarto termo na sequência é -405.

Para simplificar ainda mais, peça ao modelo que pense no comando etapa por etapa.

Comando atualizado	Resposta aprimorada
$Uma imagem da sequência matemática b. b(1) = 15 e b(n) = b(n-1) * (-3).$ Qual é o quarto termo na sequência? Pense em etapas.	O primeiro termo é 15. O segundo termo é b(1) * (-3) = 15 * (-3) = -45. O terceiro termo é b(2) * (-3) = -45 * (-3) = 135. O quarto termo é b(3) * (-3) = 135 * (-3) = -405.

Comando atualizado

Resposta aprimorada

$Uma imagem da sequência matemática b. b(1) = 15 e b(n) = b(n-1) * (-3).$

Qual é o quarto termo na sequência? Pense em etapas.

O primeiro termo é 15.

O segundo termo é b(1) * (-3) = 15 * (-3) = -45.

O terceiro termo é b(2) * (-3) = -45 * (-3) = 135.

O quarto termo é b(3) * (-3) = 135 * (-3) = -405.

especifique o formato das respostas

Quando um determinado formato é necessário, você pode instruir o modelo a usá-lo para a saída.

Comando	Resposta do modelo
Analise a tabela nesta imagem no formato Markdown	\| Subject \| Status \| Time \| Start date \| Due on \| \|-----------\|-------------\|---------\|------------\|------------\| \| Math \| Done \| 1.5 hrs \| 11/29/2023 \| 12/1/2023 \| \| Geography \| Done \| 30 min \| 12/2/2023 \| 12/4/2023 \| \| Physics \| In progress \| 2 hrs \| 12/3/2023 \| 12/5/2023 \| \| Biology \| Not started \| 6 hrs \| 11/2/2016 \| 12/6/2023 \|

Comando

Resposta do modelo

Analise a tabela nesta imagem no formato Markdown

| Subject   | Status      | Time    | Start date | Due on     |
|-----------|-------------|---------|------------|------------|
| Math      | Done        | 1.5 hrs | 11/29/2023 | 12/1/2023  |
| Geography | Done        | 30 min  | 12/2/2023  | 12/4/2023  |
| Physics   | In progress | 2 hrs   | 12/3/2023  | 12/5/2023  |
| Biology   | Not started | 6 hrs   | 11/2/2016  | 12/6/2023  |

Comando Resposta do modelo

Comando	Resposta do modelo
Forneça uma lista com todos os atributos a seguir: Ingredientes, tipo de culinária, vegetariano ou não, no formato JSON	`{ "ingredients": [ "rice", "shrimp", "clams", "mussels", "peas", "tomatoes", "onions", "garlic", "olive oil", "paprika", "salt", "pepper" ], "type of cuisine": "Spanish", "vegetarian": false }`

Uma foto de uma refeição com camarão, mariscos e outros ingredientes.

Forneça uma lista com todos os atributos a seguir:

Ingredientes, tipo de culinária, vegetariano ou não, no formato JSON


        {
          "ingredients": [
            "rice",
            "shrimp",
            "clams",
            "mussels",
            "peas",
            "tomatoes",
            "onions",
            "garlic",
            "olive oil",
            "paprika",
            "salt",
            "pepper"
          ],
          "type of cuisine": "Spanish",
          "vegetarian": false
        }

Resolver problemas de um comando multimodal

Para resolver problemas com um comando, melhore a linguagem, direcione o foco ou ajuste os parâmetros. Essas abordagens diferentes podem melhorar os resultados, especialmente depois de determinar a causa raiz do problema.

Focar na parte relevante de uma imagem

Para melhorar a resposta, indique quais partes da imagem são mais relevantes para o comando.

Comando	Resposta do modelo
Quantos dias essas fraldas vão durar para um bebê?	As fraldas durarão 198 dias antes de acabarem.

Comando atualizado	Resposta aprimorada
Essas fraldas vão durar quanto tempo? Determine a idade da criança e o número total de fraldas na caixa com base no peso total. Divida o total pelo número de fraldas usadas diariamente por uma criança.	A caixa contém 198 fraldas. Ela também informa que as fraldas são para crianças que pesam de 9 a 16 quilos. Crianças nessa faixa de peso geralmente têm de 1 a 2 anos de idade. Uma criança de dois anos costuma usar 6 fraldas por dia, logo, as fraldas vão durar cerca de 33 dias (198/6).

Comando atualizado

Resposta aprimorada

Uma foto da lateral de uma caixa de fraldas. O número 198 está escrito na caixa.

Essas fraldas vão durar quanto tempo?

Determine a idade da criança e o número total de fraldas na caixa com base no peso total.

Divida o total pelo número de fraldas usadas diariamente por uma criança.

A caixa contém 198 fraldas. Ela também informa que as fraldas são para crianças que pesam de 9 a 16 quilos.

Crianças nessa faixa de peso geralmente têm de 1 a 2 anos de idade.

Uma criança de dois anos costuma usar 6 fraldas por dia, logo, as fraldas vão durar cerca de 33 dias (198/6).

Personalizar a resposta do modelo para a entrada

Peça para o modelo descrever as imagens antes de realizar a tarefa no comando.

Comando	Resposta do modelo
O que há em comum entre essas imagens?	As quatro imagens são exemplos de fotografia de paisagem.

Comando atualizado	Resposta aprimorada
Primeiro, descreva o que está em cada imagem em detalhes. O que há em comum entre essas imagens?	A primeira imagem mostra uma pessoa fazendo as malas. A segunda imagem mostra um corredor vazio de um shopping. A terceira imagem mostra um rolo de papel higiênico. A quarta imagem mostra um mar escuro e tempestuoso. O ponto em comum entre essas imagens é que todas são exemplos de espaços liminais. Espaços liminais são lugares ou situações que estão entre dois outros lugares ou situações. Elas costumam ser caracterizadas por um senso de incerteza ou ambiguidade. A primeira imagem mostra a pessoa entre o momento em que está em casa e viajando. A segunda imagem mostra o corredor entre duas lojas. A terceira imagem é de papel higiênico, que pode representar um banheiro. Um banheiro é um espaço de transição entre domínios privados e públicos. É um lugar onde nos preparamos para entrar ou sair do mundo exterior. A quarta imagem mostra o mar entre calmo e tempestuoso. Espaços liminais podem ser empolgantes e perturbadores. Eles podem ser um lugar de recomeço ou de fim. Eles podem ser um local de reflexão ou ação.

Comando atualizado

Resposta aprimorada

Uma foto de uma pessoa fazendo as malas.

Uma foto de um corredor vazio em um shopping.

Uma foto de três rolos de papel higiênico.

Uma foto de nuvens escuras se dissipando sobre o mar.

Primeiro, descreva o que está em cada imagem em detalhes. O que há em comum entre essas imagens?

A primeira imagem mostra uma pessoa fazendo as malas. A segunda imagem mostra um corredor vazio de um shopping. A terceira imagem mostra um rolo de papel higiênico. A quarta imagem mostra um mar escuro e tempestuoso.

O ponto em comum entre essas imagens é que todas são exemplos de espaços liminais. Espaços liminais são lugares ou situações que estão entre dois outros lugares ou situações. Elas costumam ser caracterizadas por um senso de incerteza ou ambiguidade.

A primeira imagem mostra a pessoa entre o momento em que está em casa e viajando. A segunda imagem mostra o corredor entre duas lojas. A terceira imagem é de papel higiênico, que pode representar um banheiro. Um banheiro é um espaço de transição entre domínios privados e públicos. É um lugar onde nos preparamos para entrar ou sair do mundo exterior.

A quarta imagem mostra o mar entre calmo e tempestuoso.

Espaços liminais podem ser empolgantes e perturbadores. Eles podem ser um lugar de recomeço ou de fim. Eles podem ser um local de reflexão ou ação.

Você pode pedir explicitamente ao modelo para se referir ao que está na imagem.

Comando atualizado	Resposta aprimorada
O que há em comum entre essas imagens? Consulte o que está nas imagens na sua resposta.	Todas as imagens são relacionadas a viagens. A primeira imagem mostra uma pessoa fazendo as malas, a segunda mostra um corredor vazio de um shopping, a terceira imagem mostra uma pilha de papel higiênico e a quarta mostra um mar escuro e violento. Todas essas imagens são relacionadas a viagens, porque são tudo o que as pessoas precisam ou usam quando viajam. A primeira imagem mostra uma pessoa fazendo as malas, que é algo que as pessoas fazem quando viajam. A segunda imagem mostra um corredor vazio de um shopping, que é um lugar onde as pessoas costumam comprar itens para viagens. A terceira imagem mostra uma pilha de papel higiênico, algo que as pessoas costumam usar quando estão viajando. A quarta imagem mostra um mar escuro e tempestuoso, algo que as pessoas encontram com frequência quando estão viajando.

Comando atualizado

Resposta aprimorada

O que há em comum entre essas imagens? Consulte o que está nas imagens na sua resposta.

Todas as imagens são relacionadas a viagens. A primeira imagem mostra uma pessoa fazendo as malas, a segunda mostra um corredor vazio de um shopping, a terceira imagem mostra uma pilha de papel higiênico e a quarta mostra um mar escuro e violento.

Todas essas imagens são relacionadas a viagens, porque são tudo o que as pessoas precisam ou usam quando viajam. A primeira imagem mostra uma pessoa fazendo as malas, que é algo que as pessoas fazem quando viajam. A segunda imagem mostra um corredor vazio de um shopping, que é um lugar onde as pessoas costumam comprar itens para viagens. A terceira imagem mostra uma pilha de papel higiênico, algo que as pessoas costumam usar quando estão viajando. A quarta imagem mostra um mar escuro e tempestuoso, algo que as pessoas encontram com frequência quando estão viajando.

As mesmas dicas funcionam para resultados criativos. Peça explicitamente ao modelo para incluir aspectos da imagem. Isso pode melhorar a saída.

Comando	Resposta do modelo
Você pode me escrever um poema sobre esta imagem?	Little bunny, so soft and brown, Hopping through the field, up and down. Your ears so long, your tail so small, You're the cutest creature of them all. You nibble on the grass, so green and sweet, And hop away when you see me. But I'll always be your friend, Little bunny, until the very end.

Comando

Resposta do modelo

Você pode me escrever um poema sobre esta imagem?

Little bunny, so soft and brown,
        Hopping through the field, up and down.
        Your ears so long, your tail so small,
        You're the cutest creature of them all.

You nibble on the grass, so green and sweet,
        And hop away when you see me.
        But I'll always be your friend,
        Little bunny, until the very end.

Comando atualizado	Resposta aprimorada
Você pode escrever um poema descritivo e dramático sobre esta imagem e incluir o local?	Little bunny on the green, Ears so long, so keen. What do you see out there, In the distance, where you stare? Is it the ocean blue, Sparkling in the sun's hue? Or the waves that crash and roar, A rhythm that you adore? Little bunny, tell me true, What captures your attention so? Is it the salty breeze, Or the seagulls' cries that please? Perhaps it's the vastness of it all, A world so big and small. A place where dreams can roam, And adventures can be sown. Little bunny, I wonder what you dream, As you sit on the grass, so serene. Do you yearn to explore the deep, Or stay on land, where you can leap? Whatever it may be, little bunny, Keep that spark of wonder burning brightly. For in your dreams and aspirations, Lies a world waiting for your creation.

Comando atualizado

Resposta aprimorada

Você pode escrever um poema descritivo e dramático sobre esta imagem e incluir o local?

Little bunny on the green,
        Ears so long, so keen.
        What do you see out there,
        In the distance, where you stare?

Is it the ocean blue,
        Sparkling in the sun's hue?
        Or the waves that crash and roar,
        A rhythm that you adore?

Little bunny, tell me true,
        What captures your attention so?
        Is it the salty breeze,
        Or the seagulls' cries that please?

Perhaps it's the vastness of it all,
        A world so big and small.
        A place where dreams can roam,
        And adventures can be sown.

Little bunny, I wonder what you dream,
        As you sit on the grass, so serene.
        Do you yearn to explore the deep,
        Or stay on land, where you can leap?

Whatever it may be, little bunny,
        Keep that spark of wonder burning brightly.
        For in your dreams and aspirations,
        Lies a world waiting for your creation.

Determinar como o comando falhou

Um comando pode falhar porque o modelo não entendeu a imagem ou porque não executou as etapas de raciocínio corretas. Para diferenciar esses motivos, peça ao modelo que descreva o que está na imagem.

Neste exemplo, se a resposta do modelo indicar um lanche que não combina com chá, como a pipoca, primeiro determine se o modelo reconheceu que a imagem contém chá.

Comando	Prompt de solução de problemas
Que lanche eu posso preparar em 1 minuto que combina com isso?	Descreva o que há na imagem.

Pedir ao modelo que explique o raciocínio pode ajudar a identificar qual parte dele está incorreta, se houver.

Comando	Prompt de solução de problemas
Que lanche eu posso preparar em 1 minuto que combina com isso?	Que lanche eu posso preparar em 1 minuto que combina com isso? Explique o motivo.

Ajustar os parâmetros de amostragem

Em cada solicitação, você envia ao modelo não apenas o comando multimodal, mas um conjunto de parâmetros de amostragem. O modelo pode gerar resultados diferentes para valores de parâmetros diferentes. Teste os diferentes parâmetros para ter os melhores valores para a tarefa. Os parâmetros mais comumente ajustados são os seguintes:

Temperatura
top-P

Temperatura

A temperatura é usada para amostragem durante a geração de resposta, que ocorre quando top-P e top-K são aplicados. A temperatura controla o grau de aleatoriedade na seleção do token. Temperaturas mais baixas são boas para comandos que exigem uma resposta mais determinista e menos aberta ou criativa, enquanto temperaturas mais altas podem levar a resultados mais diversos ou criativos. Uma temperatura de 0 é determinista, o que significa que a resposta de maior probabilidade é mais provável de ser selecionada.

Na maioria dos casos de uso, é melhor começar com a temperatura 0,4. Se você precisar de resultados mais criativos, aumente a temperatura. Se você observar alucinações claras, reduza a temperatura.

Top-P

O Top-P muda a forma como o modelo seleciona tokens para saída. Os tokens são selecionados do mais ao menos provável até que a soma das probabilidades seja igual ao valor do top-P. Por exemplo, se os tokens A, B e C tiverem uma probabilidade de 0,6, 0,3 e 0,1 e o valor de Top-P for 0,9, o modelo selecionará A ou B como token seguinte usando temperatura e excluirá C como candidato.

Especifique um valor mais baixo para respostas menos aleatórias e um valor mais alto para respostas mais aleatórias. O valor padrão do top-P é 1,0.

A seguir

Confira um tutorial de início rápido usando o Vertex AI Studio ou a API Vertex AI.
Para começar a usar a API Gemini na Vertex AI, consulte o Guia de início rápido da API Gemini na Vertex AI.

Criar comandos multimodais Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

conceitos básicos do design de comandos

Usar instruções específicas

Adicionar exemplos

Divida tarefas complexas em tarefas menores

especifique o formato das respostas

Resolver problemas de um comando multimodal

Focar na parte relevante de uma imagem

Personalizar a resposta do modelo para a entrada

Determinar como o comando falhou

Ajustar os parâmetros de amostragem

Temperatura

Top-P

A seguir

Criar comandos multimodais