La API de Gemini en Vertex AI te permite incluir entradas multimodales, como texto, imágenes y vídeo, en tu petición a los modelos de Gemini. En esta página se indican las prácticas recomendadas para diseñar peticiones multimodales y cómo solucionar problemas si tus peticiones no funcionan como esperabas. Para obtener directrices generales sobre el diseño de peticiones, consulta nuestras estrategias de diseño de peticiones recomendadas o la siguiente lista de prácticas recomendadas específicas para contenido multimodal.
Aspectos básicos del diseño de peticiones
Usar instrucciones específicas
Las peticiones claras y detalladas dan los mejores resultados. Si tienes un resultado específico en mente, incluye ese requisito en la petición para aumentar las probabilidades de obtener el resultado correcto.
Aunque una petición parezca clara para la persona que la ha escrito, puede que no esté lo suficientemente especificada. Para personalizar el comportamiento del modelo, piensa en cómo se podría interpretar tu petición y asegúrate de que las instrucciones que das sean específicas y claras.
Si has incluido la imagen de un panel de un aeropuerto en tu petición, pedirle al modelo que solo "describa esta imagen" podría generar una descripción general. Si necesitas que el modelo analice la hora y la ciudad de la imagen, incluye esa solicitud directamente en tu petición.
Petición | Respuesta del modelo |
---|---|
![]() Describe esta imagen. |
La imagen muestra un panel de llegadas y salidas de un aeropuerto. |
Petición actualizada | Respuesta mejorada |
---|---|
![]() Analiza la hora y la ciudad de la pantalla del aeropuerto que se muestra en esta imagen y crea una lista. |
|
Añadir ejemplos
El modelo puede aceptar varias entradas para usarlas como ejemplos y así entender el resultado que quieres. Añadir estos ejemplos puede ayudar al modelo a identificar los patrones y aplicar la relación entre las imágenes y las respuestas proporcionadas al nuevo ejemplo. Esto se denomina aprendizaje con pocos ejemplos.
En el siguiente ejemplo, el resultado inicial es una frase completa que también contiene el país (Brasil). Si la salida preferida es solo la ciudad, no el país, puedes añadir ejemplos de pocos disparos a tu petición para guiar al modelo y que responda en ese formato.
Petición | Respuesta del modelo |
---|---|
![]() Determina la ciudad y el monumento. |
El monumento es la estatua del Cristo Redentor de Río de Janeiro (Brasil). |
Petición actualizada | Respuesta mejorada |
---|---|
Determina la ciudad y el monumento. ![]() |
Ciudad: Roma. Monumento: el Coliseo. |
![]() |
city: Beijing, landmark: Forbidden City |
![]() |
city: Rio de Janeiro, landmark: Christ the Redeemer statue |
Dividir las tareas complejas en tareas más pequeñas
Para tareas complejas, como las que requieren comprensión visual y razonamiento, divide la tarea en pasos más pequeños y sencillos, o bien pide directamente al modelo que piense paso a paso en la petición.
Petición | Respuesta del modelo |
---|---|
![]() ¿Cuándo me quedaré sin papel higiénico? |
Pronto, solo te quedarán 3 rollos. |
Petición actualizada | Respuesta mejorada |
---|---|
![]()
|
|
Los problemas de matemáticas u otros tipos de problemas redactados también se pueden dividir en tareas más pequeñas.
Petición | Respuesta |
---|---|
![]() ¿Cuál es el cuarto término de la secuencia? |
-135 |
La respuesta del modelo es incorrecta. Prueba a pedirle al modelo que analice el problema antes de responder a la petición.
Petición | Respuesta |
---|---|
![]() Primero, analiza la fórmula de la imagen. A continuación, basándote en la fórmula, responde a la pregunta "¿Cuál es el cuarto término de la secuencia?". |
Haga clic para ver el resultado$$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$
Por lo tanto, el cuarto término de la secuencia es -405. |
Para que la respuesta sea aún más clara, puedes pedirle al modelo que analice la petición paso a paso.
Petición actualizada | Respuesta mejorada |
---|---|
![]() ¿Cuál es el cuarto término de la secuencia? Piensa paso a paso. |
El primer término es 15. El segundo término es b(1) * (-3) = 15 * (-3) = -45. El tercer término es b(2) * (-3) = -45 * (-3) = 135. El cuarto término es b(3) * (-3) = 135 * (-3) = -405. |
Especificar el formato de salida
Cuando se requiera un formato concreto, puedes indicar al modelo que lo use en su respuesta.
Petición | Respuesta del modelo |
---|---|
![]() Analiza la tabla de esta imagen y conviértela al formato Markdown |
| Subject | Status | Time | Start date | Due on | |-----------|-------------|---------|------------|------------| | Math | Done | 1.5 hrs | 11/29/2023 | 12/1/2023 | | Geography | Done | 30 min | 12/2/2023 | 12/4/2023 | | Physics | In progress | 2 hrs | 12/3/2023 | 12/5/2023 | | Biology | Not started | 6 hrs | 11/2/2016 | 12/6/2023 | |
Petición | Respuesta del modelo |
---|---|
![]() Proporcione una lista de todos los atributos siguientes: Ingredientes, tipo de cocina, si es vegetariano o no, en formato JSON |
|
Solucionar problemas con una petición multimodal
Para solucionar problemas con una petición, puedes mejorar el lenguaje de la petición, dirigir el enfoque de la petición o ajustar los parámetros. Estos enfoques diferentes pueden dar mejores resultados, sobre todo después de determinar la causa raíz del problema.
Centrarse en la parte pertinente de una imagen
Para mejorar la respuesta, indica qué partes de la imagen son más relevantes para la petición.
Petición | Respuesta del modelo |
---|---|
![]() ¿Para cuántos días tendrá pañales el bebé? |
Los pañales durarán 198 días antes de agotarse. |
Petición actualizada | Respuesta mejorada |
---|---|
![]() ¿Cuánto tiempo me durarán estos pañales antes de quedarme sin ellos? Usa el peso que se indica en la caja para determinar la edad del niño y el número total de pañales que hay en la caja. Divide el número total entre el número de pañales que usa el niño al día. |
La caja contiene 198 pañales. En la caja se indica que los pañales son para niños que pesan entre 10 y 17 kg. Lo más probable es que los niños de este intervalo de peso tengan entre 1 y 2 años. Un niño de 2 años suele usar 6 pañales al día, por lo que los pañales durarán unos 33 días (198/6). |
Adaptar la respuesta del modelo a la entrada
Pide al modelo que describa las imágenes antes de realizar la tarea de la petición.
Petición | Respuesta del modelo |
---|---|
![]() ![]() ![]() ![]() ¿Qué tienen en común estas imágenes? |
Las cuatro imágenes son ejemplos de fotografía de paisajes. |
Petición actualizada | Respuesta mejorada |
---|---|
![]() ![]() ![]() ![]() Primero, describe con detalle lo que aparece en cada imagen. ¿Qué tienen en común estas imágenes? |
En la primera imagen se ve a una persona haciendo una maleta. La segunda imagen muestra un pasillo vacío de un centro comercial. La tercera imagen muestra un rollo de papel higiénico. La cuarta imagen muestra un mar oscuro y tormentoso. Lo que tienen en común estas imágenes es que todas son ejemplos de espacios liminales. Los espacios liminales son lugares o situaciones que se encuentran entre otros dos lugares o situaciones. A menudo se caracterizan por una sensación de incertidumbre o ambigüedad. La primera imagen muestra a la persona en un punto intermedio entre estar en casa y estar de viaje. La segunda imagen muestra el pasillo entre dos tiendas. La tercera imagen es de papel higiénico, que puede representar un baño. Un baño es un espacio de transición entre lo privado y lo público. Es un lugar donde nos preparamos para entrar o salir del mundo exterior. La cuarta imagen muestra el mar en calma y con tormenta. Los espacios liminales pueden ser emocionantes e inquietantes. Pueden ser un lugar de nuevos comienzos o de finales. Pueden ser un lugar de reflexión o un lugar de acción. |
Puedes pedirle explícitamente al modelo que haga referencia a lo que aparece en la imagen.
Petición actualizada | Respuesta mejorada |
---|---|
![]() ![]() ![]() ![]() ¿Qué tienen en común estas imágenes? Haz referencia a lo que aparece en las imágenes de tu respuesta. |
Todas las imágenes están relacionadas con viajes. En la primera imagen se ve a una persona haciendo una maleta, en la segunda, un pasillo vacío de un centro comercial, en la tercera, una pila de papel higiénico y, en la cuarta, un mar oscuro y tormentoso. Todas estas imágenes están relacionadas con los viajes, ya que son cosas que la gente necesita o usa cuando viaja. En la primera imagen se ve a una persona haciendo una maleta, algo que se hace cuando se va de viaje. La segunda imagen muestra un pasillo vacío de un centro comercial, un lugar al que la gente suele ir para comprar cosas para sus viajes. La tercera imagen muestra una pila de papel higiénico, algo que la gente suele usar cuando viaja. La cuarta imagen muestra un mar oscuro y tormentoso, algo que la gente suele encontrarse cuando viaja. |
Los mismos consejos sirven para la salida creativa. Pide explícitamente al modelo que incluya aspectos de la imagen, ya que esto puede mejorar el resultado.
Petición | Respuesta del modelo |
---|---|
![]() ¿Puedes escribir un poema sobre esta imagen? |
Little bunny, so soft and brown, Hopping through the field, up and down. Your ears so long, your tail so small, You're the cutest creature of them all. You nibble on the grass, so green and sweet, And hop away when you see me. But I'll always be your friend, Little bunny, until the very end. |
Petición actualizada | Respuesta mejorada |
---|---|
![]() ¿Puedes escribir un poema descriptivo y dramático sobre esta imagen e incluir la ubicación? |
Little bunny on the green, Ears so long, so keen. What do you see out there, In the distance, where you stare? Is it the ocean blue, Sparkling in the sun's hue? Or the waves that crash and roar, A rhythm that you adore? Little bunny, tell me true, What captures your attention so? Is it the salty breeze, Or the seagulls' cries that please? Perhaps it's the vastness of it all, A world so big and small. A place where dreams can roam, And adventures can be sown. Little bunny, I wonder what you dream, As you sit on the grass, so serene. Do you yearn to explore the deep, Or stay on land, where you can leap? Whatever it may be, little bunny, Keep that spark of wonder burning brightly. For in your dreams and aspirations, Lies a world waiting for your creation. |
Determinar por qué no se ha podido completar la petición
Un prompt puede fallar porque el modelo no ha entendido la imagen en absoluto o porque no ha seguido los pasos de razonamiento correctos después. Para distinguir entre esos motivos, pide al modelo que describa lo que hay en la imagen.
En este ejemplo, si el modelo responde con un aperitivo que parece sorprendente cuando se combina con té (como palomitas de maíz), primero determina si el modelo ha reconocido que la imagen contiene té.
Petición | Petición para solucionar problemas |
---|---|
![]() ¿Qué aperitivo puedo preparar en 1 minuto que combine bien con esto? |
![]() Describe el contenido de esta imagen. |
Pedir al modelo que explique su razonamiento puede ayudar a acotar qué parte del razonamiento ha fallado, si es que ha fallado alguna.
Petición | Petición para solucionar problemas |
---|---|
![]() ¿Qué aperitivo puedo preparar en 1 minuto que combine bien con esto? |
![]() ¿Qué aperitivo puedo preparar en 1 minuto que combine bien con esto? Explica por qué. |
Ajustar los parámetros de muestreo
En cada solicitud, se envía al modelo no solo la petición multimodal, sino también un conjunto de parámetros de muestreo. El modelo puede generar resultados diferentes para distintos valores de parámetros. Experimenta con los diferentes parámetros para obtener los mejores valores para la tarea. Los parámetros que se suelen ajustar con más frecuencia son los siguientes:
Temperatura
La temperatura se usa para el muestreo durante la generación de respuestas, que se produce cuando se aplican los parámetros top-P y top-K. La temperatura controla el grado de aleatoriedad en la selección de tokens. Las temperaturas más bajas son adecuadas para las peticiones que requieren una respuesta más determinista y menos abierta o creativa, mientras que las temperaturas más altas pueden dar lugar a resultados más diversos o creativos. Una temperatura de 0 es determinista, lo que significa que es más probable que se seleccione la respuesta con la probabilidad más alta.
En la mayoría de los casos prácticos, empieza con una temperatura de 0,4. Si necesitas resultados más creativos, aumenta la temperatura. Si observas alucinaciones claras, reduce la temperatura.
Top-P
Top-P cambia la forma en que el modelo selecciona los tokens de salida. Los tokens se seleccionan de mayor a menor probabilidad hasta que la suma de sus probabilidades sea igual al valor de top-P. Por ejemplo, si los tokens A, B y C tienen una probabilidad de 0,6, 0,3 y 0,1, y el valor de top_p es 0,9, el modelo seleccionará A o B como el siguiente token mediante la temperatura y excluirá C como candidato.
Especifica un valor más bajo para obtener respuestas menos aleatorias y un valor más alto para obtener respuestas más aleatorias. El valor predeterminado de top-P es 1.0.
Siguientes pasos
- Prueba un tutorial de inicio rápido con Vertex AI Studio o la API de Vertex AI.
- Para empezar a usar la API de Gemini en Vertex AI, consulta la guía de inicio rápido de la API de Gemini en Vertex AI.