O Gemini 2.0 Flash oferece suporte à geração de respostas em várias modalidades, incluindo texto, fala e imagens.
Geração de texto
O Gemini 2.0 Flash oferece suporte à geração de texto usando o console do Google Cloud, a API REST e os SDKs compatíveis. Para mais informações, consulte nosso guia de geração de texto.
Geração de voz (experimental e privada)
O Gemini 2.0 oferece suporte a um novo recurso de geração multimodais: texto para fala.
Usando o recurso de conversão de texto em fala, você pode solicitar que o modelo gere uma saída de áudio de alta
qualidade que soe como uma voz humana (say "hi everyone"
) e
pode refinar ainda mais a saída direcionando a voz.
Gerar fala
As seções a seguir abordam como gerar fala usando o Vertex AI Studio ou a API.
Para orientações e práticas recomendadas sobre comandos, consulte Criar comandos multimodais.
Como usar o Vertex AI Studio
Para usar a geração de voz:
- Abra Vertex AI Studio > Formato livre.
-
Selecione
gemini-2.0-flash-exp
no menu suspenso Modelos. - No painel Resposta, selecione Áudio no menu suspenso.
- Escreva uma descrição do discurso que você quer gerar na área de texto do painel Prompt.
- Clique no botão Prompt ( ).
O Gemini vai gerar a fala com base na sua descrição. Esse processo leva alguns segundos, mas pode ser mais lento dependendo da capacidade.*
Como usar a API
Salve o corpo da solicitação em um arquivo chamado request.json
.
Execute o comando a seguir no terminal para criar ou substituir esse arquivo no
diretório atual:
cat << EOF > request.json { "contents": [ { "role": "user", "parts": [ { "text": "Say, 'How are you?'" } ] } ], "generation_config": { "response_modalities": [ "AUDIO"" ] }, "safety_settings": [ { "category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "threshold": "BLOCK_NONE" } ] } EOF
Depois execute o comando a seguir para enviar a solicitação REST:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \ -d $"@request.json"
O Gemini vai gerar áudio com base na sua descrição. Esse processo leva alguns segundos, mas pode ser mais lento dependendo da capacidade.
Geração de imagens (experimental público)
A geração de imagem experimental do Gemini 2.0 Flash (gemini-2.0-flash-exp
) oferece suporte
à capacidade de gerar imagens além de texto. Isso amplia os recursos do Gemini
para incluir o seguinte:
- Gere imagens iterativamente por meio de conversas com linguagem natural, ajustando imagens e mantendo a consistência e o contexto.
- Gerar imagens com renderização de texto longo de alta qualidade.
- Gerar saída de texto e imagem intercalados. Por exemplo, uma postagem de blog com texto e imagens em uma única vez. Antes, isso exigia a união de vários modelos.
- Gere imagens usando os recursos de raciocínio e conhecimento de mundo do Gemini.
Com esse lançamento experimental público, a Geração de imagens experimental do Gemini 2.0 Flash pode gerar imagens em 1024 pixels, oferece suporte à geração e edição de imagens de pessoas e contém filtros de segurança atualizados que proporcionam uma experiência do usuário mais flexível e menos restritiva.
Ele oferece suporte às seguintes modalidades e recursos:
Texto para imagem
- Exemplo de comando: "Gerencie uma imagem da Torre Eiffel com fogos de artifício no plano de fundo".
Texto para imagem (renderização de texto)
- Exemplo de comando: "Gerar uma foto cinematográfica de um grande prédio com esta projeção de texto gigante mapeada na parte da frente do prédio: "O Gemini 2.0 agora pode gerar texto longo""
Texto para imagens e texto (intercalado)
- Exemplo de comando: "Gerencie uma receita ilustrada de paella. Crie imagens ao lado do texto ao gerar a receita."
- Exemplo de comando: "Gerencie uma história sobre um cachorro em um estilo de animação de desenho animado 3D. Para cada cena, gere uma imagem"
Imagens e texto para imagens e texto (intercalado)
- Exemplo de comando: (com uma imagem de um cômodo mobiliado) "Quais outras cores de sofás funcionariam no meu espaço? Você pode atualizar a imagem?"
Edição de imagens (texto e imagem para imagem)
- Exemplo de instrução: "Edite esta imagem para que ela pareça um desenho animado"
- Exemplo de comando: [imagem de um gato] + [imagem de um travessseiro] + "Crie um ponto cruz do meu gato neste travesseiro".
Edição de imagens com vários turnos (chat)
- Exemplos de comandos: [faça upload de uma imagem de um carro azul.] "Transforme este carro em um conversível." "Agora mude a cor para amarelo."
Limitações:
- Para ter o melhor desempenho, use os seguintes idiomas: EN, es-MX, ja-JP, zh-CN, hi-IN.
- A geração de imagens não tem suporte para entradas de áudio ou vídeo.
- A geração de imagens nem sempre aciona:
- O modelo pode gerar apenas texto. Tente solicitar saídas de imagem explicitamente. Por exemplo, "forneça imagens ao longo do processo".
- O modelo pode gerar texto como uma imagem. Tente solicitar saídas de texto explicitamente. Por exemplo, "gerar texto narrativo com ilustrações".
- O modelo pode parar de gerar no meio do processo. Tente de novo ou use outro comando.
Gerar imagens
As seções a seguir abordam como gerar imagens usando o Vertex AI Studio ou a API.
Para orientações e práticas recomendadas sobre comandos, consulte Criar comandos multimodais.
Como usar o Vertex AI Studio
Para usar a geração de imagens:
- Abra Vertex AI Studio > Formato livre.
-
Selecione
gemini-2.0-flash-exp
no menu suspenso Modelos. - No painel Resposta, selecione Imagem e texto no menu suspenso.
- Escreva uma descrição da imagem que você quer gerar na área de texto do painel Prompt.
- Clique no botão Prompt ( ).
O Gemini vai gerar uma imagem com base na sua descrição. Esse processo leva alguns segundos, mas pode ser mais lento dependendo da capacidade.
Como usar a API
Salve o corpo da solicitação em um arquivo chamado request.json
.
Execute o comando a seguir no terminal para criar ou substituir esse arquivo no
diretório atual:
cat << EOF > request.json { "contents": [ { "role": "user", "parts": [ { "text": "Generate an image of a cat." } ] } ], "generation_config": { "response_modalities": [ "IMAGE", "TEXT" ] }, "safety_settings": [ { "category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "threshold": "BLOCK_NONE" } ] } EOF
Depois execute o comando a seguir para enviar a solicitação REST:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \ -d $"@request.json"
O Gemini vai gerar uma imagem com base na sua descrição. Esse processo leva alguns segundos, mas pode ser mais lento dependendo da capacidade.