如需在 Vertex AI 上使用 Imagen,您必须提供要生成或修改的内容的文本说明。这些说明称为“提示”,这些提示是您与 Vertex AI 上的生成式 AI 进行通信的主要方式。
本指南介绍了修改文本转图片提示的部分内容会如何产生不同的结果,并举例说明了您可以创建的图片。本指南还提供了有关如何使用文本提示和迭代修改图片的指导。
产品使用
如需查看与 Imagen on Vertex AI 关联的使用标准和内容限制,请参阅使用指南。
内容过滤 - 输入文本、上传的图片和生成的图片
生成的图片会过滤掉不良或有害内容。同样,系统会检查 Imagen on Vertex AI 收到的任何输入内容中是否包含冒犯性内容。这包括输入文本提示和上传的照片(在进行图片修改的情况下)。如需了解详情,请参阅 Responsible AI 和 Imagen 使用指南。
您还可以使用举报Google Cloud上的疑似滥用行为表单来举报涉嫌滥用 Imagen on Vertex AI 的行为或是任何包含不当材料或不准确信息的生成输出。
提示撰写基本知识(主体、背景和风格)
虽然不存在一种方法就可以撰写较好的提示,但添加一些关键字和修饰符可以帮助您更接近最终目标。提示不需要很长或复杂,但大多数良好的提示都具有描述性,并且清晰明了。
您不妨先考虑主体、上下文和风格。

主体:对于任何提示,首先要考虑的都是主体:对象、人物、动物或场景。
背景和环境:与主体所处的背景或环境一样重要。请尝试将主体置于各种背景下。例如,白色背景、户外或室内环境下的工作室。
样式:最后,添加所需图片的样式。样式可以是常规内容(绘画、照片、草图),也可以是非常具体的内容(色粉画、木炭画、无透视三维绘图)。
在撰写第一版提示后,请通过添加更多详细信息来优化提示,直到您获得所需的图片为止。迭代很重要。首先确定核心概念,然后在此核心概念的基础上进行优化和扩展,直到生成的图片接近您的构想为止。
![]() |
![]() |
![]() |
Imagen 3 提示撰写
无论您的提示是简短的还是较长且详细的,Imagen 3 都可以将您的想法转换为详细的图片。通过迭代提示和添加详细信息来优化您的构想,直到您获得理想的结果。
您可以使用短提示快速生成图片。 ![]() |
您可以使用较长提示添加具体详细信息并构建图片。 ![]() |
关于 Imagen 3 提示撰写的其他建议:
- 使用描述性语言:使用详细的形容词和副词,为 Imagen 3 描绘清晰的画面。
- 提供背景信息:根据需要,添加背景信息以帮助 AI 理解。
- 参考特定艺术家或风格:如果您有特定的审美观,参考特定艺术家或艺术运动可能会有所帮助。
- 使用提示工程工具:可考虑探索提示工程工具或资源,以帮助您优化提示并实现最佳结果。
- 增强个人和群组图片中的面部细节:
- 指定面部细节作为照片的焦点(例如,在提示中使用“portrait”一词)。
- 考虑使用更大的模型(例如 Imagen 3,而不是 Imagen 3 Fast)来改进细节。
在图片中生成文本
Imagen 3 能够在图片中添加文本,从而为创造性图片生成提供了更多可能性。请按照以下指南来充分利用此功能:
- 自信地迭代:您可能需要重新生成图片,直到实现所需的外观为止。Imagen 的文本集成仍在不断发展,有时多次尝试才能获得最佳结果。
- 简短明了:为获得最佳生成效果,请将文本长度限制在 25 个字符以内。
多个短语:尝试使用两三个不同的词组来提供更多信息。为了让组合更清晰,请避免超过三个短语。
提示:A poster with the text "Summerland" in bold font as a title, underneath this text is the slogan "Summer never felt so good" 指导放置:虽然 Imagen 可以尝试按指示放置文本,但您应该预料到偶尔会出现一些变化。此功能正在不断改进。
启发性字体样式:指定一种常规字体样式,以巧妙地影响 Imagen 的选择。不要依赖精确的字体复制,而是期待富有创意的诠释。
字体大小:指定字体大小或有关大小的一般指示(例如,小、中、大)以影响字体大小生成。
提示参数化
为了更好地控制输出结果,在使用 Imagen API 或 Vertex AI SDK for Python 时,将发送给 Imagen 的输入参数化可能会有所帮助。例如,假设您希望客户能够为自己的企业生成徽标,并且希望确保徽标始终在纯色背景上生成。您还想限制客户端可以从菜单中选择的选项。
在此示例中,您可以创建一个类似于以下内容的参数化提示:
A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.
在自定义界面中,客户可以使用菜单输入参数,并且他们选择的值会填充 Imagen 收到的提示。
例如:
提示:
A minimalist logo for a health care company on a solid color background. Include the text Journey.
提示:
A modern logo for a software company on a solid color background. Include the text Silo.
提示:
A traditional logo for a baking company on a solid color background. Include the text Seed.
风格:摄影
- 提示包括:“...的照片”
如需使用此风格,请先使用关键字,明确告诉 Imagen on Vertex AI 您所需要的是照片。提示开头是“一张. . . 的照片”。例如:
![]() |
![]() |
![]() |
图片来源:每张图片都是使用相应的文本提示通过 Imagen 3 模型生成的。
样式:插图和艺术
- 提示包括:“...的 painting”、“...的 sketch”
艺术风格各不相同,从铅笔素描等单色风格到超现实的数字艺术均有。例如,以下图片使用相同提示而使用不同风格:
一辆背景是摩天大楼的棱角分明的运动型电动轿车的 [art style or creation technique]
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
图片来源:每张图片都是使用相应的文本提示通过 Imagen 2 模型生成的。
高级提示撰写技术
使用以下示例根据属性创建更具体的提示:摄影描述符、形状和材料、历史艺术运动和图像质量修饰符。
摄影修饰符
在以下示例中,您可以看到多个专用于照片的修饰符和参数。
相机邻近性 - 特写,从远处拍摄
提示:A close-up photo of coffee beans 提示:A zoomed out photo of a small bag of
coffee beans in a messy kitchen相机位置 - 航拍、仰拍
提示:aerial photo of urban city with skyscrapers 提示:A photo of a forest canopy with blue skies from below 光线 - 自然、舞台、暖、冷
提示:studio photo of a modern arm chair, natural lighting 提示:studio photo of a modern arm chair, dramatic lighting 相机设置 - 运动模糊、柔焦、焦外成像、人像
提示:photo of a city with skyscrapers from the inside of a car with motion blur 提示:soft focus photograph of a bridge in an urban city at night 镜头类型 - 35 毫米、50 毫米、鱼眼、广角、微距
提示:photo of a leaf, macro lens 提示:street photography, new york city, fisheye lens 胶片类型 - 黑白、拍立得
提示:a polaroid portrait of a dog wearing sunglasses 提示:black and white photo of a dog wearing sunglasses
图片来源:每张图片都是使用相应的文本提示通过 Imagen 3 模型生成的。
形状和材料
- 提示包括:“...制作的...”、“...形状的…”
这项技术的一大优势是您可以创建以其他方式难以实现或无法实现的图像。例如,您可以用不同的材料和纹理重新创建公司徽标。
![]() |
![]() |
![]() |
图片来源:每张图片都是使用相应的文本提示通过 Imagen 3 模型生成的。
历史艺术参考
- 提示包括:“...风格的...”
多年来,某些风格已经成为标志。以下是一些您可以尝试的历史绘图或艺术风格想法。
“generate an image in the style of [art period or movement]: a wind farm”
![]() |
![]() |
![]() |
图片来源:每张图片都是使用相应的文本提示通过 Imagen 3 模型生成的。
图片质量修饰符
某些关键字可使模型知道您正在寻找高质量的资源。质量修饰符的示例包括:
- 常规修饰符 - 高品质、精美、风格化
- 照片 - 4K、HDR、摄影棚照片
- 艺术、插图 - 由专业的、详细的
以下是几个不带质量修饰符的提示以及带有质量修饰符的相同提示的示例。
![]() |
![]() photo of a corn stalk taken by a professional photographer |
图片来源:每张图片都是使用相应的文本提示通过 Imagen 3 模型生成的。
宽高比
借助 Imagen 3 图片生成,您可以设置五种不同的图片宽高比。
- 方形(1:1,默认值)- 标准方形照片。这种宽高比的常见用途包括社交媒体帖子。
全屏 (4:3) - 这种宽高比通常用于媒体或电影。它也是大多数旧款(非宽屏)电视和中等格式相机的尺寸。它可水平拍摄更多场景(与 1:1 相比),因而成为摄影的首选宽高比。
提示:close up of a musician's fingers playing the piano, black and white film, vintage (4:3 aspect ratio) 提示:高档餐厅的炸玉米饼的专业工作室照片,采用美食杂志的风格(宽高比为 4:3) 纵向全屏 (3:4) - 这是旋转 90 度的全屏宽高比。与 1:1 宽高比相比,这种宽高比可垂直拍摄更多场景。
提示:一位徒步旅行的女士,靴子的近处倒映在水坑中,背景是大山,广告风格,戏剧性的角度(宽高比为 3:4) 提示:aerial shot of a river flowing up a mystical valley (3:4 aspect ratio) 宽屏 (16:9) - 此宽高比已取代 4:3,现在是电视、显示器和手机屏幕(横向)的最常用宽高比。如果您想拍摄更多背景(例如风景),请使用这种宽高比。
提示:a man wearing all white clothing sitting on the beach, close up, golden hour lighting (16:9 aspect ratio) 纵向 (9:16) - 这种宽高比是宽屏,但进行了旋转。这是一种相对较新的宽高比,深受短视频应用(例如 YouTube Shorts)的欢迎。可将这种宽高比用于具有强烈垂直方向的较高对象,例如建筑物、树、瀑布或其他类似对象。
提示:a digital render of a massive skyscraper, modern, grand, epic with a beautiful sunset in the background (9:16 aspect ratio)
否定提示
上述示例侧重于为您希望 Imagen 创建的内容编写提示,但您也可以提供否定提示以及原始提示,以帮助商品生成或修改图片。 这些否定提示是一种强大的工具,有助于指定要从图片中省略哪些元素。只需描述您不想要的内容即可。
推荐 - 简洁地描述您不想看到的内容。例如,“墙、框架”wall, frame。
不建议 - 避免使用指令语言或“没有”或“不”等字词。例如,请避免使用“没有墙”或“不要显示墙”之类的短语。
![]() |
![]() 否定提示:greenery, plants, forest, trees |
![]() |
![]() 否定提示:snow, frost |
逼真图片
图片生成模型的不同版本可以同时提供具有艺术效果的输出和逼真的输出。根据要生成的主题,在提示中使用以下措辞,以生成更逼真的输出。
使用场景 | 镜头类型 | 焦距 | 其他详情 |
---|---|---|---|
人物(人像) | 定焦、变焦 | 24-35 毫米 | 黑白胶片、黑色电影、景深、双色调(提及两种颜色) |
食品、昆虫、植物(物体、静物) | 宏 | 60-105 毫米 | 高精度、精准聚焦、控制照明 |
体育运动、野生动物(运动) | 远摄变焦 | 100-400 毫米 | 高速快门、动作或运动追踪 |
天文、风光(广角) | 广角 | 10-24 毫米 | 长曝光、清晰对焦、长曝光、平滑的水或云 |
人像
使用场景 | 镜头类型 | 焦距 | 其他详情 |
---|---|---|---|
人物(人像) | 定焦、变焦 | 24-35 毫米 | 黑白胶片、黑色电影、景深、双色调(提及两种颜色) |
使用表中的多个关键字,Imagen 可以生成以下人像图片。
![]() |
![]() |
![]() |
![]() |
提示:A woman, 35mm portrait, blue and grey duotones
模型:Imagen 3 (imagen-3.0-generate-002
)
![]() |
![]() |
![]() |
![]() |
提示:A woman, 35mm portrait, film noir
模型:Imagen 3 (imagen-3.0-generate-002
)
对象
使用场景 | 镜头类型 | 焦距 | 其他详情 |
---|---|---|---|
食品、昆虫、植物(物体、静物) | 宏 | 60-105 毫米 | 高精度、精准聚焦、控制照明 |
使用表中的多个关键字,Imagen 可以生成以下静物图片。
![]() |
![]() |
![]() |
![]() |
提示:leaf of a prayer plant, macro lens, 60mm
模型:Imagen 3 (imagen-3.0-generate-002
)
![]() |
![]() |
![]() |
![]() |
提示:a plate of pasta, 100mm Macro lens
模型:Imagen 3 (imagen-3.0-generate-002
)
运动
使用场景 | 镜头类型 | 焦距 | 其他详情 |
---|---|---|---|
体育运动、野生动物(运动) | 远摄变焦 | 100-400 毫米 | 高速快门、动作或运动追踪 |
使用表中的多个关键字,Imagen 可以生成以下运动图片。
![]() |
![]() |
![]() |
![]() |
提示:a winning touchdown, fast shutter speed, movement tracking
模型:Imagen 3 (imagen-3.0-generate-002
)
![]() |
![]() |
![]() |
![]() |
提示:A deer running in the forest, fast shutter speed, movement tracking
模型:Imagen 3 (imagen-3.0-generate-002
)
广角
使用场景 | 镜头类型 | 焦距 | 其他详情 |
---|---|---|---|
天文、风光(广角) | 广角 | 10-24 毫米 | 长曝光、清晰对焦、长曝光、平滑的水或云 |
使用表中的多个关键字,Imagen 可以生成以下广角图片。
![]() |
![]() |
![]() |
![]() |
提示:an expansive mountain range, landscape wide angle 10mm
模型:Imagen 3 (imagen-3.0-generate-002
)
![]() |
![]() |
![]() |
![]() |
提示:a photo of the moon, astro photography, wide angle 10mm
模型:Imagen 3 (imagen-3.0-generate-002
)
后续步骤
阅读有关 Imagen 和其他 Vertex AI 上的生成式 AI 产品的文章:
- Imagen 3 on Vertex AI 开发者入门指南
- 与创作者一起为创作者打造的全新生成式媒体模型和工具
- Gemini 中的新功能:自定义 Gem 以及通过 Imagen 3 改进的图片生成
- Google DeepMind:Imagen 3 - 我们质量最高的文本转图片模型