Respuestas multimodales

Gemini 2.0 Flash admite la generación de respuestas en varias modalidades, como texto, voz e imágenes.

Generación de texto

Gemini 2.0 Flash admite la generación de texto con la consola de Google Cloud, la API de REST y los SDK compatibles. Para obtener más información, consulta nuestra guía de generación de texto.

Generación de voz (experimental privado)

Gemini 2.0 admite una nueva función de generación multimodal: texto a voz. Con la función de texto a voz, puedes pedirle al modelo que genere un resultado de audio de alta calidad que suene como una voz humana (say "hi everyone") y puedes definir mejor el resultado dirigiendo la voz.

Generar voz

En las siguientes secciones, se explica cómo generar voz con Vertex AI Studio o con la API.

Para obtener orientación y prácticas recomendadas sobre las instrucciones, consulta Diseña instrucciones multimodales.

Cómo usar Vertex AI Studio

Para usar la generación de voz, haz lo siguiente:

  1. Abre Vertex AI Studio > Formato libre.
  2. Selecciona gemini-2.0-flash-exp en el menú desplegable Modelos.
  3. En el panel Response, selecciona Audio en el menú desplegable.
  4. Escribe una descripción del discurso que deseas generar en el área de texto del panel Consigna.
  5. Haz clic en el botón Instrucción ().

Gemini generará voz en función de tu descripción. Este proceso debería tardar unos segundos, pero puede ser más lento en comparación según la capacidad.*

Usar la API

Guarda el cuerpo de la solicitud en un archivo llamado request.json. Ejecuta el siguiente comando en la terminal para crear o reemplazar este archivo en el directorio actual:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Say, 'How are you?'" }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "AUDIO""
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini generará audio en función de tu descripción. Este proceso debería tardar unos segundos, pero puede ser más lento en comparación según la capacidad.

Generación de imágenes (experimental pública)

La generación de imágenes experimental de Gemini 2.0 Flash (gemini-2.0-flash-exp) admite la capacidad de generar imágenes además de texto. Esto amplía las capacidades de Gemini para incluir lo siguiente:

  • Genera imágenes de forma iterativa a través de una conversación con lenguaje natural y ajústalas mientras mantienes la coherencia y el contexto.
  • Genera imágenes con renderización de texto largo de alta calidad.
  • Genera una salida de texto e imagen intercalados. Por ejemplo, una entrada de blog con texto e imágenes en un solo turno. Anteriormente, esto requería unir varios modelos.
  • Genera imágenes con los conocimientos del mundo y las capacidades de razonamiento de Gemini.

Con esta versión experimental pública, la generación de imágenes experimentales de Gemini 2.0 Flash puede generar imágenes de 1, 024 px, admite la generación y edición de imágenes de personas y contiene filtros de seguridad actualizados que proporcionan una experiencia del usuario más flexible y menos restrictiva.

Admite las siguientes modalidades y capacidades:

  • Texto a imagen

    • Ejemplo de instrucción: "Genera una imagen de la Torre Eiffel con fuegos artificiales en el fondo".
  • Texto a imagen (renderización de texto)

    • Ejemplo de instrucción: "Genera una foto cinematográfica de un gran edificio con esta proyección de texto gigante en la parte frontal del edificio: "Gemini 2.0 ahora puede generar texto de formato largo"".
  • Texto a imágenes y texto (intercalado)

    • Ejemplo de instrucción: "Genera una receta ilustrada de una paella. Crea imágenes junto con el texto a medida que generas la receta".
    • Ejemplo de instrucción: “Genera una historia sobre un perro en un estilo de animación de dibujos animados en 3D. Para cada escena, genera una imagen".
  • De imágenes y texto a imágenes y texto (intercalado)

    • Ejemplo de instrucción: (Con una imagen de una habitación amueblada) "¿Qué otros colores de sofás funcionarían en mi espacio? ¿Puedes actualizar la imagen?".
  • Edición de imágenes (texto y de imagen a imagen)

    • Ejemplo de instrucción: “Edita esta imagen para que parezca un dibujo animado”.
    • Ejemplo de instrucción: [imagen de un gato] + [imagen de una almohada] + “Crea un bordado de mi gato en esta almohada”.
  • Edición de imágenes de varios turnos (chat)

    • Ejemplos de instrucciones: [Sube una imagen de un auto azul.] "Convierte este auto en un convertible". “Ahora cambia el color a amarillo”.

Limitaciones:

  • Para obtener el mejor rendimiento, usa los siguientes idiomas: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • La generación de imágenes no admite entradas de audio ni video.
  • Es posible que la generación de imágenes no siempre active lo siguiente:
    • El modelo solo puede generar texto. Intenta solicitar resultados de imagen de forma explícita. Por ejemplo, "proporciona imágenes a medida que avanzas".
    • El modelo puede generar texto como una imagen. Intenta solicitar resultados de texto de forma explícita. Por ejemplo, “generar texto narrativo junto con ilustraciones”.
    • Es posible que el modelo deje de generar contenido a mitad del proceso. Vuelve a intentarlo o prueba con otra instrucción.

Generar imágenes

En las siguientes secciones, se explica cómo generar imágenes con Vertex AI Studio o con la API.

Para obtener orientación y prácticas recomendadas sobre las instrucciones, consulta Diseña instrucciones multimodales.

Cómo usar Vertex AI Studio

Para usar la generación de imágenes, haz lo siguiente:

  1. Abre Vertex AI Studio > Formato libre.
  2. Selecciona gemini-2.0-flash-exp en el menú desplegable Modelos.
  3. En el panel Respuesta, selecciona Imagen y texto en el menú desplegable.
  4. Escribe una descripción de la imagen que deseas generar en el área de texto del panel Consigna.
  5. Haz clic en el botón Instrucción ().

Gemini generará una imagen en función de tu descripción. Este proceso debería tardar unos segundos, pero puede ser más lento en comparación según la capacidad.

Usar la API

Guarda el cuerpo de la solicitud en un archivo llamado request.json. Ejecuta el siguiente comando en la terminal para crear o reemplazar este archivo en el directorio actual:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Generate an image of a cat." }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "IMAGE", "TEXT"
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini generará una imagen en función de tu descripción. Este proceso debería tardar unos segundos, pero puede ser más lento en comparación según la capacidad.