多模态回答

Gemini 2.0 Flash 支持多种模态的回答生成,包括文本、语音和图片。

文本生成

Gemini 2.0 Flash 支持使用 Google Cloud 控制台、REST API 和受支持的 SDK 生成文本。如需了解详情,请参阅我们的文本生成指南

语音生成(不公开实验版)

Gemini 2.0 支持一种新的多模态生成功能:文本转语音。借助文本转语音功能,您可以提示模型生成听起来像人声的高品质音频输出 (say "hi everyone"),还可以通过引导语音进一步优化输出。

生成语音

以下部分介绍了如何使用 Vertex AI Studio 或使用 API 生成语音。

如需有关提示的准则和最佳实践,请参阅设计多模态提示

使用 Vertex AI Studio

如需使用语音生成功能,请执行以下操作:

  1. 依次打开 Vertex AI Studio > Freeform
  2. 模型下拉菜单中选择 gemini-2.0-flash-exp
  3. 回答面板中,从下拉菜单中选择音频
  4. 问题面板的文本区域中,撰写要生成的语音的说明。
  5. 点击提示 () 按钮。

Gemini 会根据您的说明生成语音。此过程应该需要几秒钟的时间,但可能相对较慢,具体取决于容量。*

使用 API

将请求正文保存在名为 request.json 的文件中。在终端中运行以下命令,在当前目录中创建或覆盖此文件:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Say, 'How are you?'" }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "AUDIO""
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

然后,执行以下命令以发送 REST 请求:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini 会根据您的说明生成音频。此过程应该需要几秒钟的时间,但可能相对较慢,具体取决于容量。

图片生成(公开实验版)

Gemini 2.0 Flash 实验版图片生成功能 (gemini-2.0-flash-exp) 除了支持生成文本之外,还支持生成图片。这扩展了 Gemini 的功能,包括:

  • 通过自然语言对话迭代生成图片,在调整图片的同时保持一致性和上下文。
  • 生成具有高质量长文本渲染的图片。
  • 生成交错的文本-图片输出。例如,单次转弯即可显示包含文本和图片的博文。以前,这需要将多个模型串联起来。
  • 使用 Gemini 的世界知识和推理能力生成图片。

通过此公开实验版,Gemini 2.0 Flash 实验版图片生成功能可以生成 1024 像素的图片,支持生成和编辑人物图片,并包含经过更新的安全过滤器,可提供更灵活、更宽松的用户体验。

它支持以下模态和功能:

  • 文本到图像

    • 示例提示:“生成一张背景为焰火的埃菲尔铁塔图片。”
  • 文本到图片(文本渲染)

    • 示例提示:“生成一张大楼的电影照片,并将以下巨大文本投影映射到大楼正面:‘Gemini 2.0 现在可以生成长篇幅文本’”
  • 文本转图片和文本(交织)

    • 示例问题:“生成一张带插图的西班牙海鲜饭食谱。在生成食谱时,同时创建图片和文本。”
    • 示例提示:“以 3D 卡通动画风格生成一个关于狗狗的故事。For each scene, generate an image”(针对每个场景生成图片)
  • 图片和文本转图片和文本(交织)

    • 示例提示:(显示家具摆设的房间图片)“我的空间适合哪些其他颜色的沙发?Can you update the image?"
  • 图片编辑(文字和图片转图片)

    • 示例提示:“将此图片编辑成卡通图片”
    • 示例提示:[猫的图片] + [枕头的图片] +“在这种枕头上制作我猫的十字绣图案。”
  • 多轮图片编辑(聊天)

    • 示例提示:[上传一张蓝色汽车的图片。]“将这辆车改装成敞篷车。”“现在将颜色更改为黄色。”

限制:

  • 为获得最佳效果,请使用以下语言:英语、西班牙语(墨西哥)、日语、简体中文、印地语。
  • 图片生成功能不支持音频或视频输入。
  • 图片生成功能未必总会触发以下操作:
    • 模型可能只会输出文本。尝试明确请求图片输出。例如,“随时提供图片”。
    • 模型可能会以图片的形式生成文本。请尝试明确要求系统输出文本。例如,“生成带插图的叙述文本”。
    • 模型可能会在中途停止生成。请重试或尝试使用其他提示。

生成图片

以下部分介绍了如何使用 Vertex AI StudioAPI 生成图片。

如需有关提示的准则和最佳实践,请参阅设计多模态提示

使用 Vertex AI Studio

如需使用图片生成功能,请执行以下操作:

  1. 依次打开 Vertex AI Studio > Freeform
  2. 模型下拉菜单中选择 gemini-2.0-flash-exp
  3. 回答面板中,从下拉菜单中选择图片和文字
  4. 提示面板的文本区域中,编写要生成的图片的说明。
  5. 点击提示 () 按钮。

Gemini 会根据您的描述生成图片。此过程应该需要几秒钟的时间,但可能会相对较慢,具体取决于容量。

使用 API

将请求正文保存在名为 request.json 的文件中。在终端中运行以下命令,在当前目录中创建或覆盖此文件:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Generate an image of a cat." }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "IMAGE", "TEXT"
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

然后,执行以下命令以发送 REST 请求:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini 会根据您的说明生成图片。此过程应该需要几秒钟的时间,但可能相对较慢,具体取决于容量。