借助 Imagen 3 自定义功能的风格自定义设置,您可以通过输入文本提示和提供参考图片来生成新图片。这些参考图片可引导系统据此生成新图片。
使用场景
Imagen 3 自定义功能可提供自由式提示,这可能会给人一种印象,即它能完成的任务比训练时学到的更多。以下部分介绍了 Imagen 3 自定义功能的预期应用场景,以及一些并非详尽无遗的非预期应用场景示例。
我们建议您将 Imagen 3 自定义功能用于预期应用场景,因为我们已针对这些应用场景训练了模型,可期望获得良好的结果。反之,虽然您可以让模型执行预期应用场景之外的任务,但我们不保证能获得理想的结果。
预期应用场景
以下是 Imagen 3 自定义功能提供的风格自定义设置的预期应用场景:
- 根据文本输入生成图片,且该图片采用通过参考图片提供的特定风格。
- 更改人物照片。
- 更改人物照片并保留其面部表情。
非预期应用场景示例
下面列出了 Imagen 3 自定义功能未进行针对性训练,可能无法生成理想结果的应用场景(并非详尽无遗):
根据文本和参考图片生成图片,目的是对通过参考图片生成的构图进行一定程度的控制。
根据参考图片生成人物图片,且该参考图片中的人物具有特定的面部表情。
将两个人放置到一个不同的场景中,在保留其身份特征的同时使用参考图片指定输出图片的风格(例如油画风格)。
对宠物照片进行风格化处理并将其转换为绘画,同时保留或指定图片的构图。
将饼干或沙发等产品以不同的产品角度置于不同的场景中,同时遵循特定的图片风格(例如具有特定颜色、采光风格或动画效果的写实图片)。
风格自定义设置示例
以下示例展示了 Imagen 3 自定义功能提供的风格自定义设置的一个应用场景:
示例输入 | 输出示例 |
---|---|
|
![]() |
1使用 Imagen 3 图片生成功能根据以下提示生成的参考输入图片:a simple mosaic。
查看 Imagen for Editing and Customization 模型卡片
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
为您的环境设置身份验证。
Select the tab for how you plan to use the samples on this page:
Console
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
REST
如需在本地开发环境中使用本页面上的 REST API 示例,请使用您提供给 gcloud CLI 的凭证。
安装 Google Cloud CLI。 安装完成后,运行以下命令来初始化 Google Cloud CLI:
gcloud init
如果您使用的是外部身份提供方 (IdP),则必须先使用联合身份登录 gcloud CLI。
如需了解详情,请参阅 Google Cloud 身份验证文档中的使用 REST 时进行身份验证。
风格自定义
使用 Imagen 3 自定义功能时,您可以提供参考图片来指定风格类型。您选择的风格会影响您生成请求的方式。
与 Imagen 3 自定义结合使用的提示可能会影响生成的图片的质量。以下部分提供了建议的提示模板及示例,可用于发送自定义请求。
使用场景 参考图片 提示模板 示例 对象风格 主题图片 (1-4) Generate an image in STYLE_DESCRIPTION [1] based on the following caption: IMAGE_DESCRIPTION. Generate an image in neon sign style [1] based on the following caption: a sign saying have a great day. 不使用人脸网格输入的人物图片风格化处理 主题图片 (1-4) Create an image about SUBJECT_DESCRIPTION [1] to match the description: a portrait of SUBJECT_DESCRIPTION [1] ${PROMPT} Create an image about a woman with short hair[1] to match the description: a portrait of a woman with short hair[1] in 3d-cartoon style with blurred background. A cute and lovely character, smile face, looking at the camera, pastel color tone, high quality, 4k, masterpiece, super details, skin texture, texture mapping, soft shadows, soft realistic lighting, vibrant colors 使用人脸网格输入的人物图片风格化处理 主题图片 (1-3)
Facemesh 控制图片 (1)Create an image about SUBJECT_DESCRIPTION [1] in the pose of the CONTROL_IMAGE [2] to match the description: a portrait of SUBJECT_DESCRIPTION [1] ${PROMPT} Create an image about a woman with short hair [1] in the pose of the control image [2] to match the description: a portrait of a woman with short hair [1] in 3d-cartoon style with blur background. A Cute and lovely character, smile face. See the camera, pastel color tone, high quality, 4k, masterpiece, super details, skin texture, texture mapping, Soft shadows, soft realistic lighting, vibrant colors REST
如需详细了解
imagen-3.0-capability-001
模型请求,请参阅imagen-3.0-capability-001
模型 API 参考文档。在使用任何请求数据之前,请先进行以下替换:
- PROJECT_ID:您的 Google Cloud 项目 ID。
- LOCATION:您的项目的区域。 例如
us-central1
、europe-west2
或asia-northeast3
。如需查看可用区域的列表,请参阅 Vertex AI 上的生成式 AI 位置。 - TEXT_PROMPT:文本提示可用于指导模型生成的图片。如需使用 Imagen 3 自定义,请以 [$referenceId] 格式添加您提供的参考图片的
referenceId
。例如:- 以下文本提示适用于包含单个参考图片的请求,该图片具有
"referenceId": 1
和可选说明"styleDescription": "glowing style"
: Generate an image in glowing style [1] based on the following caption: A church in the mountain.
- 以下文本提示适用于包含单个参考图片的请求,该图片具有
"referenceId"
:参考图片的 ID,或与同一主体或风格对应的一系列参考图片的 ID。 在此示例中,单个参考图片的referenceId
为 (1
)。- BASE64_REFERENCE_IMAGE:用于引导图片生成的参考图片。图片必须指定为 base64 编码的字节字符串。
- STYLE_DESCRIPTION:可选。您随后可以用于
prompt
字段的参考图片的文本说明。例如:"prompt": "Generate an image in glowing style [1] based on the following caption: A church in the mountain.", [...], "styleImageConfig": { "styleDescription": "glowing style" }
- IMAGE_COUNT:生成的图片数量。 接受的整数值:1-4。 默认值:4。
HTTP 方法和网址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict
请求 JSON 正文:
{ "instances": [ { "prompt": "TEXT_PROMPT", "referenceImages": [ { "referenceType": "REFERENCE_TYPE_STYLE", "referenceId": 1, "referenceImage": { "bytesBase64Encoded": "BASE64_REFERENCE_IMAGE" }, "styleImageConfig": { "styleDescription": "STYLE_DESCRIPTION" } } ] } ], "parameters": { "sampleCount": IMAGE_COUNT } }
如需发送请求,请选择以下方式之一:
curl
将请求正文保存在名为
request.json
的文件中,然后执行以下命令:curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict"PowerShell
将请求正文保存在名为
request.json
的文件中,然后执行以下命令:$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict" | Select-Object -Expand Content"sampleCount": 2
的请求。响应返回两个预测对象,其中生成的图片字节采用 base64 编码。{ "predictions": [ { "bytesBase64Encoded": "BASE64_IMG_BYTES", "mimeType": "image/png" }, { "mimeType": "image/png", "bytesBase64Encoded": "BASE64_IMG_BYTES" } ] }
Python
产品使用
如需查看与 Imagen on Vertex AI 关联的使用标准和内容限制,请参阅使用指南。
模型版本
您可以使用多种图片生成模型。如需了解详情,请参阅 Imagen 模型。
后续步骤
阅读有关 Imagen 和其他 Vertex AI 上的生成式 AI 产品的文章:
- Imagen 3 on Vertex AI 开发者入门指南
- 与创作者一起为创作者打造的全新生成式媒体模型和工具
- Gemini 中的新功能:自定义 Gem 以及通过 Imagen 3 改进的图片生成
- Google DeepMind:Imagen 3 - 我们质量最高的文本转图片模型
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-08-25。