Guia de atributos de comando e imagem

Para usar o Imagen na Vertex AI, é necessário fornecer uma descrição em texto do que você quer gerar ou editar. Essas descrições são chamadas de comandos, e eles são a maneira principal de se comunicar com a IA generativa na Vertex AI.

Neste guia, mostramos como a modificação de partes de um comando de texto para imagem pode produzir resultados diferentes e damos exemplos de imagens que você pode criar. Este guia também explica como editar imagens usando comandos de texto e iteração.

Para ver os padrões de uso e as restrições de conteúdo associados ao Imagen na Vertex AI, consulte as diretrizes de uso.

Filtragem de conteúdo: texto de entrada, imagens enviadas e geradas

As imagens geradas são filtradas para evitar conteúdo indesejado ou nocivo. Da mesma forma, todas as entradas que o Imagen na Vertex AI recebe são verificadas para detectar conteúdo ofensivo. Isso inclui o comando de texto e as fotos enviadas no caso da edição de imagens. Para mais informações, consulte IA responsável e diretrizes de uso do Imagen.

Também é possível denunciar suspeitas de abuso do Imagen na Vertex AI ou de qualquer saída gerada que contenha material inadequado ou informações imprecisas usando o formulário Denunciar suspeita de abuso no Google Cloud.

Noções básicas de redação imediatas (assunto, contexto e estilo)

Embora não haja uma única maneira de criar boas solicitações, adicionar algumas palavras-chave e modificadores ajudará você a se aproximar de sua meta final. Os prompts não precisam ser longos ou complexos, mas a maioria deles é descritiva e clara.

Um bom ponto de partida pode ser pensar em assunto, contexto e estilo.

Foco com assunto, contexto e estilo
Texto da imagem: um esboço (estilo) de um prédio moderno (assunto) cercado por arranha-céus (contexto e plano de fundo).
  1. Assunto: a primeira coisa a considerar com qualquer solicitação é o assunto: o objeto, a pessoa, o animal ou o cenário de que você quer uma imagem.

  2. Contexto e plano de fundo: o mais importante é o plano de fundo ou o contexto em que o assunto será colocado. Tente colocar o objeto de várias formas. Por exemplo, um estúdio com fundo branco, ambientes externos ou ambientes internos.

  3. Estilo: por fim, adicione o estilo da imagem que você quer usar. Os estilos podem ser gerais (pintura, fotografia, esboços) ou muito específicos (pintura pastel, desenho a carvão, isométrico 3D).

Depois de escrever uma primeira versão do comando, refine-o adicionando mais detalhes até chegar à imagem desejada. A iteração é importante. Comece estabelecendo sua ideia principal e depois refine e expanda essa ideia até que a imagem gerada fique parecida com o que você imaginou.

imagem fotorrealista de amostra 1
Instrução: um parque na primavera ao lado de um lago
imagem fotográfica realista 2
Instrução: um parque na primavera ao lado de um lago, o sol se põe sobre o lago, golden hour
imagem fotorrealista de amostra 3
Comando: um parque na primavera ao lado de um lago, o sol se põe sobre o lago, golden hour, flores silvestres vermelhas

Gravação de comandos da Imagen 3

Ver o card do modelo Imagen para geração

O Imagen 3 pode transformar suas ideias em imagens detalhadas, seja com comandos curtos ou longos e detalhados. Refine sua visão com comandos iterativos, adicionando detalhes até alcançar o resultado perfeito.

Comandos curtos permitem gerar uma imagem rapidamente.

Exemplo de comando curto da Imagen 3
Instrução: foto close up de uma mulher aos 20 anos, fotografia de rua, imagem estática de um filme, tons quentes de laranja suave

Comandos mais longos permitem adicionar detalhes específicos e criar sua imagem.

Exemplo de comando longo da Imagen 3
Instrução: foto cativante de uma mulher na faixa dos 20 anos usando um estilo de fotografia de rua. A imagem precisa parecer um filme com tons quentes de laranja esmaecido.

Outras dicas para escrever comandos da Imagen 3:

  • Use uma linguagem descritiva: use adjetivos e advérbios detalhados para criar uma imagem clara para o Imagen 3.
  • Forneça contexto: se necessário, inclua informações básicas para ajudar a IA a entender.
  • Referencie artistas ou estilos específicos: se você tiver uma estética específica em mente, referenciar artistas ou movimentos artísticos pode ser útil.
  • Use ferramentas de engenharia de comando: considere usar ferramentas ou recursos de engenharia de comando para refinar seus comandos e alcançar os melhores resultados.
  • Melhorar os detalhes faciais nas suas imagens pessoais e em grupo:
    • Especifique detalhes faciais como foco da foto. Por exemplo, use a palavra "retrato" no comando.
    • Considere usar um modelo maior, como o Imagen 3, em vez do Imagen 3 Fast para melhorar os detalhes.

Gerar texto em imagens

A capacidade do Imagen 3 de adicionar texto às imagens abre possibilidades criativas de geração de imagens. Use as orientações a seguir para aproveitar ao máximo esse recurso:

  • Itere com confiança: talvez seja necessário regenerar imagens até conseguir o visual desejado. A integração de texto do Imagen ainda está em evolução, e às vezes várias tentativas geram os melhores resultados.
  • Seja breve: limite o texto a 25 caracteres ou menos para uma geração ideal.
  • Várias frases: teste duas ou três frases distintas para fornecer mais informações. Evite usar mais de três frases para composições mais limpas.

    Exemplo de texto gerado pela Imagen 3
    Comando: um pôster com o texto "Summerland" em negrito como um título. Abaixo desse texto, está o slogan "O verão nunca foi tão bom"
  • Posicionamento de guia: embora o Imagen possa tentar posicionar o texto conforme indicado, variações ocasionais podem ocorrer. Esse recurso está em constante aprimoramento.

  • Estilo de fonte inspirador: especifique um estilo de fonte geral para influenciar sutilmente as escolhas da Imagen. Não dependa da replicação precisa da fonte, mas espere interpretações criativas.

  • Tamanho da fonte: especifique um tamanho de fonte ou uma indicação geral de tamanho (por exemplo, pequeno, médio, grande) para influenciar a geração de tamanho da fonte.

Parametrização de comandos

Para controlar melhor os resultados da saída, pode ser útil parametrizar as entradas no Imagen ao trabalhar com a API Imagen ou o SDK da Vertex AI para Python. Por exemplo, suponha que você queira que seus clientes possam gerar logos para a empresa deles e queira garantir que os logos sejam sempre gerados em um fundo de cor sólida. Você também quer limitar as opções que o cliente pode selecionar em um menu.

Neste exemplo, é possível criar um comando parametrizado semelhante ao seguinte:

A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.

Na interface do usuário personalizada, o cliente pode inserir os parâmetros usando um menu, e o valor escolhido preenche o comando que a Imagen recebe.

Exemplo:

  1. Comando: A minimalist logo for a health care company on a solid color background. Include the text Journey.

    Exemplo 1 de parametrização de comandos da Imagen 3

  2. Comando: A modern logo for a software company on a solid color background. Include the text Silo.

    Exemplo 2 de parametrização de comandos da Imagen 3

  3. Comando: A traditional logo for a baking company on a solid color background. Include the text Seed.

    Exemplo 3 de parametrização de comandos da Imagen 3

Estilo: fotografia

  • A solicitação inclui: "Uma foto de..."

Para usar esse estilo, comece usando palavras-chave que informem claramente ao Imagen na Vertex AI que você está procurando uma fotografia. Inicie suas solicitações com "Uma foto de . ". Por exemplo:

imagem fotorrealista de amostra 1
Prompt: uma foto de grãos de café em uma cozinha em uma superfície de madeira
imagem fotográfica realista 2
Prompt: uma foto de uma barra de chocolate em um balcão de cozinha
imagem fotorrealista de amostra 3
Prompt: uma foto de um edifício moderno com água em segundo plano

Fonte da imagem: cada imagem foi gerada usando a solicitação de texto correspondente com o modelo Imagen 3.

Estilo: ilustração e arte

  • A solicitação inclui: "A painting de...", "Um sketch de..."

Os estilos de arte variam de estilos monocromáticos como esboços a lápis à arte digital realista. Por exemplo, as imagens a seguir usam a mesma solicitação com estilos diferentes:

"Um [art style or creation technique] de um sedan elétrico esportivo angular com arranha-céus em segundo plano"

imagens de amostra de arte
Prompt: um desenho técnico de lápis de um angular...
imagens de amostra de arte
Prompt: um desenho de carvão de um angular...
imagens de amostra de arte
Prompt: um desenho de lápis de cor de um angular...
imagens de amostra de arte
Instrução: uma pintura pastel de um angular...
imagens de amostra de arte
Comando: uma arte digital de uma imagem angular...
imagens de amostra de arte
Prompt: um art déco (pôster) de um angular...

Fonte da imagem: cada imagem foi gerada usando a solicitação de texto correspondente com o modelo Imagen 2.

Técnicas avançadas para a criação de prompts

Use os exemplos a seguir para criar solicitações mais específicas com base nos atributos: descritores de foto, formas e materiais, movimentos de arte históricos e modificadores de qualidade de imagem.

Modificadores de fotografia

Nos exemplos abaixo, você pode ver vários modificadores e parâmetros específicos para fotografia.

  1. Proximidade da câmera - Close-up, tirada de longe

    Fechar imagem da amostra da câmera
    Prompt: uma foto de perto de grãos de café
    imagem de exemplo de câmera com zoom diminuído
    Prompt: uma foto afastada de um pequeno saco de grãos de café
    em uma cozinha bagunçada

  2. Posição da câmera: aéreo, vista de baixo

    imagem de amostra da foto aérea
    Comando: foto aérea de uma cidade urbana com arranha-céus
    uma imagem de amostra de uma vista de baixo
    Solicitação: foto de um dossel florestal com céu azul abaixo
  3. Iluminação: natural, dramático, calor, frio

    imagem de amostra de iluminação natural
    Prompt: foto de estúdio de uma cadeira moderna, iluminação natural
    imagem de exemplo de iluminação dramática
    Prompt: foto de estúdio de uma cadeira moderna, iluminação dramática
  4. Configurações da câmera — desfoque de movimento, foco suave, bokeh, retrato

    imagem de amostra de desfoque de movimento
    Prompt: foto de uma cidade com arranha-céus dentro de um carro com desfoque de movimento
    imagem de amostra de foco suave
    Prompt: foco na fotografia de uma ponte em uma cidade urbana à noite
  5. Tipos de lentes - 35 mm, 50 mm, olho de peixe, grande angular, macro

    imagem de amostra de lente macro
    Comando: foto de uma folha, lente macro
    imagem de amostra da lente olho de peixe
    Instrução: fotografia de rua, cidade de Nova York, lente olho de peixe
  6. Tipos de filme - preto e branco, polaroid

    imagem de amostra da foto polaroid
    Comando: um retrato polaroide de um cachorro usando óculos escuros
    imagem de amostra de foto em preto e branco
    Instrução: foto em preto e branco de um cachorro usando óculos escuros

Fonte da imagem: cada imagem foi gerada usando a solicitação de texto correspondente com o modelo Imagen 3.

Formas e materiais

  • A solicitação inclui: "...made of...", "...na forma de..."

Um dos pontos fortes dessa tecnologia é a possibilidade de criar imagens que seriam difíceis ou impossíveis. Por exemplo, é possível recriar o logotipo da empresa em diferentes materiais e texturas.

imagem e exemplos de exemplo de imagem 1
Prompt: uma bolsa de viagem feita de queijo
imagem e exemplos de exemplo de imagem 2
Solicitação: tubos de neon no formato de um pássaro
imagem e exemplos de exemplo de imagem 3
Solicitação: uma poltrona feita de papel, foto de estúdio, estilo origami

Fonte da imagem: cada imagem foi gerada usando a solicitação de texto correspondente com o modelo Imagen 3.

Referências de arte históricas

  • A solicitação inclui: "...in the style of..."

Alguns estilos se tornaram icônicos ao longo dos anos. Confira abaixo algumas ideias de pintura histórica ou estilos de arte que você pode testar.

"gere uma imagem no estilo de [art period or movement]: um parque eólico"

imagem de exemplo de impressionismo
Comando: gere uma imagem no estilo de uma pintura impressionista: um parque eólico
imagem de exemplo do renascentista
Comando: gere uma imagem no estilo de uma pintura renascentista: um parque eólico
imagem de exemplo de pop art
Comando: gere uma imagem no estilo de pop art: um parque eólico

Fonte da imagem: cada imagem foi gerada usando a solicitação de texto correspondente com o modelo Imagen 3.

Modificadores de qualidade da imagem

Algumas palavras-chave podem informar ao modelo que você está procurando um recurso de alta qualidade. Veja alguns exemplos de modificadores de qualidade:

  • Modificadores gerais: alta qualidade, bonito, estilizado
  • Fotos: fotos 4K, HDR e do Studio
  • Arte, Ilustração: por um profissional, detalhado

Veja a seguir alguns exemplos de prompts sem modificadores de qualidade e o mesmo com modificadores de qualidade.

imagem de exemplo de milho sem modificadores
Solicitação (sem modificadores de qualidade): uma foto de um talo de milho
imagem de exemplo de milho com modificadores Comando (com modificadores de qualidade): 4K HDR bonito
foto de uma haste de milho tirada por um fotógrafo profissional de

Fonte da imagem: cada imagem foi gerada usando a solicitação de texto correspondente com o modelo Imagen 3.

Proporções

A geração de imagens do Imagen 3 permite definir cinco proporções de imagem distintas.

  1. Quadrado (1:1, padrão): uma foto quadrada padrão. Usos comuns para essa proporção incluem postagens de mídias sociais.
  2. Tela cheia (4:3): essa proporção é usada com frequência em mídias ou filmes. Elas também têm as mesmas dimensões da maioria das TVs e câmeras de formato médio antigas. Ela captura mais da cena horizontalmente (em comparação com 1:1), o que a torna uma proporção preferencial para fotografia.

    exemplo de proporção
    Instrução: close dos dedos de um músico tocando piano, filme em preto e branco, vintage (proporção de 4:3)
    exemplo de proporção
    Instrução: uma foto profissional de um estúdio que mostra batatas fritas para um restaurante sofisticado, no estilo de uma revista de culinária (proporção de 4:3) )
  3. Tela cheia em modo retrato (3:4): é a proporção de tela cheia girada em 90 graus. Isso permite capturar mais da cena verticalmente em comparação com a proporção de 1:1.

    exemplo de proporção
    Instrução: uma mulher caminhando, perto de suas botas refletidas em uma poça, grandes montanhas ao fundo, no estilo de um anúncio, ângulos dramáticos (proporção 3:4)
    exemplo de proporção
    Instrução: imagem aérea de um rio fluindo por um vale místico (proporção 3:4)
  4. Widescreen (16:9): essa proporção substituiu a de 4:3 e agora é a proporção mais comum para TVs, monitores e telas de smartphones (paisagem). Use essa proporção quando quiser capturar mais do plano de fundo (por exemplo, paisagens panorâmicas).

    exemplo de proporção
    Instrução: um homem vestindo roupas brancas sentado na praia, de perto, com iluminação de golden hour (proporção de 16:9){101
  5. Retrato (9:16): essa proporção é widescreen, mas girada. Essa é uma proporção relativamente nova que ficou conhecida por apps de vídeos mais curtos (por exemplo, YouTube Shorts). Use essa opção para objetos altos com fortes orientações verticais, como edifícios, árvores, cachoeiras ou outros objetos semelhantes.

    exemplo de proporção
    Prompt: uma renderização digital de um arranha-céu enorme, moderno, grandioso, épico com um lindo pôr do sol ao fundo (proporção de 9:16){101

Solicitações negativas

Os exemplos anteriores se concentram em escrever solicitações para o que você quer que o Imagen crie, mas também é possível fornecer um prompt negativo com o prompt original para ajudar o produto a gerar ou editar imagens. Essas solicitações negativas podem ser uma ferramenta poderosa que ajuda a especificar quais elementos omitir da imagem. Basta descrever o que você não quer.

Recomendado: descreva claramente o que você não quer ver. Por exemplo, "wall, frame".

Não recomendado: evite linguagem instrutiva ou palavras como "não". Por exemplo, evite frases como "sem paredes" ou "não mostrar paredes".

imagem de exemplo de pintura sem solicitação negativa
Prompt (sem solicitação negativa): arte conceitual de videogames em 4K, selva urbana, cidade do cyberpunk, renderização detalhada
imagem de exemplo de pintura com prompt negativo
Comando: arte conceitual de videogames em 4K, selva urbana, cidade do cyberpunk, renderização detalhada
Comando negativo: vegetação, plantas, floresta, árvores
imagem de exemplo de pintura sem solicitação negativa
Comando (sem comando negativo): ilustração de um réu mítico voando sobre as montanhas
imagem de exemplo de pintura com prompt negativo
Instrução: ilustração de um réu mítico voando sobre montanhas
Instrução negativa: neve, geada

Imagens fotorrealistas

Versões diferentes do modelo de geração de imagens podem oferecer uma combinação de saídas artísticas e fotorrealistas. Use a seguinte palavra nos comandos para gerar uma saída mais fotorrealista com base no assunto que quiser gerar.

Caso de uso Tipo de lente Distâncias focais Mais detalhes
Pessoas (retratos) Prime, zoom 24-35mm filme em preto e branco, Filme noir, Profundidade de campo, duotone (mencione duas cores)
Comida, insetos, plantas (objetos, natureza morta) Macro 60-105mm Alto nível de detalhes, foco preciso, iluminação controlada
Esportes, vida selvagem (movimento) Zoom telefoto 100-400mm Velocidade rápida do obturador, rastreamento de ação ou movimento
Astronômico, paisagem (amplo angular) Grande angular 10-24mm Longos tempos de exposição, foco nítido, exposição longa, água suave ou nuvens

Retratos

Caso de uso Tipo de lente Distâncias focais Mais detalhes
Pessoas (retratos) Prime, zoom 24-35mm filme em preto e branco, Filme noir, Profundidade de campo, duotone (mencione duas cores)

Usando várias palavras-chave da tabela, o Imagen pode gerar os retratos a seguir.

exemplo de fotografia de retrato exemplo de fotografia de retrato exemplo de fotografia de retrato exemplo de fotografia de retrato

Comando: uma mulher, retrato de 35 mm, duotons azul e cinza
Modelo: Imagen 3 (imagen-3.0-generate-002)

exemplo de fotografia de retrato exemplo de fotografia de retrato exemplo de fotografia de retrato exemplo de fotografia de retrato

Comando: Uma mulher, retrato de 35 mm, film noir
Modelo: Imagen 3 (imagen-3.0-generate-002)

Objetos

Caso de uso Tipo de lente Distâncias focais Mais detalhes
Comida, insetos, plantas (objetos, natureza morta) Macro 60-105mm Alto nível de detalhes, foco preciso, iluminação controlada

Usando várias palavras-chave da tabela, o Imagen pode gerar as seguintes imagens de objeto.

exemplo de fotografia de objeto exemplo de fotografia de objeto exemplo de fotografia de objeto exemplo de fotografia de objeto

Comando: folha de uma planta de oração, lente macro, 60 mm
Modelo: Imagen 3 (imagen-3.0-generate-002)

exemplo de fotografia de objeto exemplo de fotografia de objeto exemplo de fotografia de objeto exemplo de fotografia de objeto

Comando: um prato de macarrão, lente macro de 100 mm
Modelo: Imagen 3 (imagen-3.0-generate-002)

Movimento

Caso de uso Tipo de lente Distâncias focais Mais detalhes
Esportes, vida selvagem (movimento) Zoom telefoto 100-400mm Velocidade rápida do obturador, rastreamento de ação ou movimento

Usando várias palavras-chave da tabela, o Imagen pode gerar as seguintes imagens em movimento.

exemplo de fotografia com movimento exemplo de fotografia com movimento exemplo de fotografia com movimento exemplo de fotografia com movimento

Comando: um touchdown vencedor, velocidade do obturador rápida e rastreamento de movimento
Modelo: Imagen 3 (imagen-3.0-generate-002)

exemplo de fotografia com movimento exemplo de fotografia com movimento exemplo de fotografia com movimento exemplo de fotografia com movimento

Comando: um cervo correndo na floresta, alta velocidade do obturador, rastreamento de movimento
Modelo: Imagen 3 (imagen-3.0-generate-002)

Grande angular

Caso de uso Tipo de lente Distâncias focais Mais detalhes
Astronômico, paisagem (amplo angular) Grande angular 10-24mm Longos tempos de exposição, foco nítido, exposição longa, água suave ou nuvens

Usando várias palavras-chave da tabela, o Imagen pode gerar as seguintes imagens grande angulares.

Exemplo de fotografia grande angular Exemplo de fotografia grande angular Exemplo de fotografia grande angular Exemplo de fotografia grande angular

Comando: uma ampla cordilheira, ângulo amplo de paisagem de 10 mm
Modelo: Imagen 3 (imagen-3.0-generate-002)

Exemplo de fotografia grande angular Exemplo de fotografia grande angular Exemplo de fotografia grande angular Exemplo de fotografia grande angular

Comando: uma foto da lua, fotografia astronômica, ângulo amplo de 10 mm
Modelo: Imagen 3 (imagen-3.0-generate-002)

A seguir

Confira artigos sobre o Imagen e outras IAs generativas nos produtos da Vertex AI: