Gemini 2.0 Flash 支持多种模态的回答生成,包括文本、语音和图片。
文本生成
Gemini 2.0 Flash 支持使用 Google Cloud 控制台、REST API 和受支持的 SDK 生成文本。如需了解详情,请参阅我们的文本生成指南。
语音生成(不公开实验版)
Gemini 2.0 支持一种新的多模态生成功能:文本转语音。借助文本转语音功能,您可以提示模型生成听起来像人声的高品质音频输出 (say "hi everyone"
),还可以通过引导语音进一步优化输出。
生成语音
以下部分介绍了如何使用 Vertex AI Studio 或使用 API 生成语音。
如需有关提示的准则和最佳实践,请参阅设计多模态提示。
使用 Vertex AI Studio
如需使用语音生成功能,请执行以下操作:
- 依次打开 Vertex AI Studio > Freeform。
-
从模型下拉菜单中选择
gemini-2.0-flash-exp
。 - 在回答面板中,从下拉菜单中选择音频。
- 在问题面板的文本区域中,撰写要生成的语音的说明。
- 点击提示 ( ) 按钮。
Gemini 会根据您的说明生成语音。此过程应该需要几秒钟的时间,但可能相对较慢,具体取决于容量。*
使用 API
将请求正文保存在名为 request.json
的文件中。在终端中运行以下命令,在当前目录中创建或覆盖此文件:
cat << EOF > request.json { "contents": [ { "role": "user", "parts": [ { "text": "Say, 'How are you?'" } ] } ], "generation_config": { "response_modalities": [ "AUDIO"" ] }, "safety_settings": [ { "category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "threshold": "BLOCK_NONE" } ] } EOF
然后,执行以下命令以发送 REST 请求:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \ -d $"@request.json"
Gemini 会根据您的说明生成音频。此过程应该需要几秒钟的时间,但可能相对较慢,具体取决于容量。
图片生成(公开实验版)
Gemini 2.0 Flash 实验版图片生成功能 (gemini-2.0-flash-exp
) 除了支持生成文本之外,还支持生成图片。这扩展了 Gemini 的功能,包括:
- 通过自然语言对话迭代生成图片,在调整图片的同时保持一致性和上下文。
- 生成具有高质量长文本渲染的图片。
- 生成交错的文本-图片输出。例如,单次转弯即可显示包含文本和图片的博文。以前,这需要将多个模型串联起来。
- 使用 Gemini 的世界知识和推理能力生成图片。
通过此公开实验版,Gemini 2.0 Flash 实验版图片生成功能可以生成 1024 像素的图片,支持生成和编辑人物图片,并包含经过更新的安全过滤器,可提供更灵活、更宽松的用户体验。
它支持以下模态和功能:
文本到图像
- 示例提示:“生成一张背景为焰火的埃菲尔铁塔图片。”
文本到图片(文本渲染)
- 示例提示:“生成一张大楼的电影照片,并将以下巨大文本投影映射到大楼正面:‘Gemini 2.0 现在可以生成长篇幅文本’”
文本转图片和文本(交织)
- 示例问题:“生成一张带插图的西班牙海鲜饭食谱。在生成食谱时,同时创建图片和文本。”
- 示例提示:“以 3D 卡通动画风格生成一个关于狗狗的故事。For each scene, generate an image”(针对每个场景生成图片)
图片和文本转图片和文本(交织)
- 示例提示:(显示家具摆设的房间图片)“我的空间适合哪些其他颜色的沙发?Can you update the image?"
图片编辑(文字和图片转图片)
- 示例提示:“将此图片编辑成卡通图片”
- 示例提示:[猫的图片] + [枕头的图片] +“在这种枕头上制作我猫的十字绣图案。”
多轮图片编辑(聊天)
- 示例提示:[上传一张蓝色汽车的图片。]“将这辆车改装成敞篷车。”“现在将颜色更改为黄色。”
限制:
- 为获得最佳效果,请使用以下语言:英语、西班牙语(墨西哥)、日语、简体中文、印地语。
- 图片生成功能不支持音频或视频输入。
- 图片生成功能未必总会触发以下操作:
- 模型可能只会输出文本。尝试明确请求图片输出。例如,“随时提供图片”。
- 模型可能会以图片的形式生成文本。请尝试明确要求系统输出文本。例如,“生成带插图的叙述文本”。
- 模型可能会在中途停止生成。请重试或尝试使用其他提示。
生成图片
以下部分介绍了如何使用 Vertex AI Studio 或 API 生成图片。
如需有关提示的准则和最佳实践,请参阅设计多模态提示。
使用 Vertex AI Studio
如需使用图片生成功能,请执行以下操作:
- 依次打开 Vertex AI Studio > Freeform。
-
从模型下拉菜单中选择
gemini-2.0-flash-exp
。 - 在回答面板中,从下拉菜单中选择图片和文字。
- 在提示面板的文本区域中,编写要生成的图片的说明。
- 点击提示 ( ) 按钮。
Gemini 会根据您的描述生成图片。此过程应该需要几秒钟的时间,但可能会相对较慢,具体取决于容量。
使用 API
将请求正文保存在名为 request.json
的文件中。在终端中运行以下命令,在当前目录中创建或覆盖此文件:
cat << EOF > request.json { "contents": [ { "role": "user", "parts": [ { "text": "Generate an image of a cat." } ] } ], "generation_config": { "response_modalities": [ "IMAGE", "TEXT" ] }, "safety_settings": [ { "category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE" }, { "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "threshold": "BLOCK_NONE" } ] } EOF
然后,执行以下命令以发送 REST 请求:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \ -d $"@request.json"
Gemini 会根据您的说明生成图片。此过程应该需要几秒钟的时间,但可能相对较慢,具体取决于容量。