Respostas multimodais

O Gemini 2.0 Flash oferece suporte à geração de respostas em várias modalidades, incluindo texto, fala e imagens.

Geração de texto

O Gemini 2.0 Flash oferece suporte à geração de texto usando o console do Google Cloud, a API REST e os SDKs compatíveis. Para mais informações, consulte nosso guia de geração de texto.

Geração de voz (experimental e privada)

O Gemini 2.0 oferece suporte a um novo recurso de geração multimodais: texto para fala. Usando o recurso de conversão de texto em fala, você pode solicitar que o modelo gere uma saída de áudio de alta qualidade que soe como uma voz humana (say "hi everyone") e pode refinar ainda mais a saída direcionando a voz.

Gerar fala

As seções a seguir abordam como gerar fala usando o Vertex AI Studio ou a API.

Para orientações e práticas recomendadas sobre comandos, consulte Criar comandos multimodais.

Como usar o Vertex AI Studio

Para usar a geração de voz:

  1. Abra Vertex AI Studio > Formato livre.
  2. Selecione gemini-2.0-flash-exp no menu suspenso Modelos.
  3. No painel Resposta, selecione Áudio no menu suspenso.
  4. Escreva uma descrição do discurso que você quer gerar na área de texto do painel Prompt.
  5. Clique no botão Prompt ().

O Gemini vai gerar a fala com base na sua descrição. Esse processo leva alguns segundos, mas pode ser mais lento dependendo da capacidade.*

Como usar a API

Salve o corpo da solicitação em um arquivo chamado request.json. Execute o comando a seguir no terminal para criar ou substituir esse arquivo no diretório atual:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Say, 'How are you?'" }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "AUDIO""
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Depois execute o comando a seguir para enviar a solicitação REST:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

O Gemini vai gerar áudio com base na sua descrição. Esse processo leva alguns segundos, mas pode ser mais lento dependendo da capacidade.

Geração de imagens (experimental público)

A geração de imagem experimental do Gemini 2.0 Flash (gemini-2.0-flash-exp) oferece suporte à capacidade de gerar imagens além de texto. Isso amplia os recursos do Gemini para incluir o seguinte:

  • Gere imagens iterativamente por meio de conversas com linguagem natural, ajustando imagens e mantendo a consistência e o contexto.
  • Gerar imagens com renderização de texto longo de alta qualidade.
  • Gerar saída de texto e imagem intercalados. Por exemplo, uma postagem de blog com texto e imagens em uma única vez. Antes, isso exigia a união de vários modelos.
  • Gere imagens usando os recursos de raciocínio e conhecimento de mundo do Gemini.

Com esse lançamento experimental público, a Geração de imagens experimental do Gemini 2.0 Flash pode gerar imagens em 1024 pixels, oferece suporte à geração e edição de imagens de pessoas e contém filtros de segurança atualizados que proporcionam uma experiência do usuário mais flexível e menos restritiva.

Ele oferece suporte às seguintes modalidades e recursos:

  • Texto para imagem

    • Exemplo de comando: "Gerencie uma imagem da Torre Eiffel com fogos de artifício no plano de fundo".
  • Texto para imagem (renderização de texto)

    • Exemplo de comando: "Gerar uma foto cinematográfica de um grande prédio com esta projeção de texto gigante mapeada na parte da frente do prédio: "O Gemini 2.0 agora pode gerar texto longo""
  • Texto para imagens e texto (intercalado)

    • Exemplo de comando: "Gerencie uma receita ilustrada de paella. Crie imagens ao lado do texto ao gerar a receita."
    • Exemplo de comando: "Gerencie uma história sobre um cachorro em um estilo de animação de desenho animado 3D. Para cada cena, gere uma imagem"
  • Imagens e texto para imagens e texto (intercalado)

    • Exemplo de comando: (com uma imagem de um cômodo mobiliado) "Quais outras cores de sofás funcionariam no meu espaço? Você pode atualizar a imagem?"
  • Edição de imagens (texto e imagem para imagem)

    • Exemplo de instrução: "Edite esta imagem para que ela pareça um desenho animado"
    • Exemplo de comando: [imagem de um gato] + [imagem de um travessseiro] + "Crie um ponto cruz do meu gato neste travesseiro".
  • Edição de imagens com vários turnos (chat)

    • Exemplos de comandos: [faça upload de uma imagem de um carro azul.] "Transforme este carro em um conversível." "Agora mude a cor para amarelo."

Limitações:

  • Para ter o melhor desempenho, use os seguintes idiomas: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • A geração de imagens não tem suporte para entradas de áudio ou vídeo.
  • A geração de imagens nem sempre aciona:
    • O modelo pode gerar apenas texto. Tente solicitar saídas de imagem explicitamente. Por exemplo, "forneça imagens ao longo do processo".
    • O modelo pode gerar texto como uma imagem. Tente solicitar saídas de texto explicitamente. Por exemplo, "gerar texto narrativo com ilustrações".
    • O modelo pode parar de gerar no meio do processo. Tente de novo ou use outro comando.

Gerar imagens

As seções a seguir abordam como gerar imagens usando o Vertex AI Studio ou a API.

Para orientações e práticas recomendadas sobre comandos, consulte Criar comandos multimodais.

Como usar o Vertex AI Studio

Para usar a geração de imagens:

  1. Abra Vertex AI Studio > Formato livre.
  2. Selecione gemini-2.0-flash-exp no menu suspenso Modelos.
  3. No painel Resposta, selecione Imagem e texto no menu suspenso.
  4. Escreva uma descrição da imagem que você quer gerar na área de texto do painel Prompt.
  5. Clique no botão Prompt ().

O Gemini vai gerar uma imagem com base na sua descrição. Esse processo leva alguns segundos, mas pode ser mais lento dependendo da capacidade.

Como usar a API

Salve o corpo da solicitação em um arquivo chamado request.json. Execute o comando a seguir no terminal para criar ou substituir esse arquivo no diretório atual:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Generate an image of a cat." }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "IMAGE", "TEXT"
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Depois execute o comando a seguir para enviar a solicitação REST:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

O Gemini vai gerar uma imagem com base na sua descrição. Esse processo leva alguns segundos, mas pode ser mais lento dependendo da capacidade.