Pour utiliser Imagen sur Vertex AI, vous devez fournir une description textuelle de ce que vous souhaitez générer ou modifier. Ces descriptions sont appelées des requêtes, et constituent le principal mode de communication avec l'IA générative sur Vertex AI.
Ce guide vous explique comment la modification de parties d'une requête texte vers image peut produire différents résultats et vous donne des exemples d'images que vous pouvez créer. Ce guide explique également comment modifier des images à l'aide de requêtes textuelles et d'itérations.
Utilisation du produit
Pour afficher les normes d'utilisation et les restrictions de contenu associées à Imagen sur Vertex AI, consultez les consignes d'utilisation.
Filtrage du contenu : texte saisi, images importées et images générées
Les images générées sont filtrées pour éliminer les contenus indésirables ou dangereux. De même, toute entrée reçue par Imagen sur Vertex AI est vérifiée afin de détecter tout contenu choquant. Cela inclut la requête de texte saisie et les photos importées dans le cas de la retouche d'image. Pour en savoir plus, consultez IA responsable et consignes d'utilisation d'Imagen.
Vous pouvez également signaler une utilisation abusive d'Imagen sur Vertex AI ou tout résultat généré contenant des informations inappropriées ou inexactes à l'aide du formulaire Signaler une utilisation abusive surGoogle Cloud.
Principes de base de l'écriture d'invites (objet, contexte et style)
Bien qu'il n'existe pas de méthode universelle pour rédiger des requêtes, l'ajout de mots clés et de modificateurs vous aidera à vous rapprocher de votre objectif final. Les requêtes n'ont pas besoin d'être longues ou complexes, mais la plupart d'entre elles sont descriptives et claires.
Un bon point de départ consiste à réfléchir à l'objet, au contexte et au style.
Objet : La première chose à laquelle réfléchir pour une requête est l'objet : c'est-à-dire l'objet, la personne, l'animal ou le paysage dont vous souhaitez obtenir une image.
Contexte et arrière-plan : L'arrière-plan ou le contexte dans lequel le sujet sera placé est tout aussi important. Essayez de placer votre sujet dans différents arrière-plans. Par exemple, un studio sur fond blanc, en extérieur ou en intérieur.
Style : Pour finir, ajoutez le style d'image souhaité. Les styles peuvent être généraux (peinture, photographie, croquis) ou très spécifiques (pastel, fusain, 3D isométrique).
Après avoir rédigé une première version de votre requête, affinez-la en ajoutant des détails jusqu'à obtenir l'image souhaitée. L'itération est importante. Commencez par établir votre idée principale, puis affinez-la et développez-la jusqu'à ce que l'image générée corresponde à votre vision.
|
|
|
Écrire une requête Imagen 3
Afficher la fiche du modèle Imagen pour la génération d'images
Imagen 3 peut transformer vos idées en images détaillées, que vos requêtes soient courtes ou longues et détaillées. Affinez votre vision en ajoutant des détails à vos requêtes jusqu'à obtenir le résultat parfait.
|
Les requêtes courtes vous permettent de générer rapidement une image.
|
Les requêtes plus longues vous permettent d'ajouter des détails spécifiques et de créer votre image.
|
Conseils supplémentaires pour rédiger des requêtes Imagen 3 :
- Utilisez un langage descriptif : employez des adjectifs et des adverbes détaillés pour donner une image claire à Imagen 3.
- Donnez du contexte : si nécessaire, incluez des informations générales pour aider l'IA à comprendre.
- Faites référence à des artistes ou des styles spécifiques : si vous avez une esthétique particulière en tête, il peut être utile de faire référence à des artistes ou des mouvements artistiques spécifiques.
- Utilisez des outils d'ingénierie des requêtes : envisagez d'explorer les outils ou ressources d'ingénierie des requêtes pour vous aider à affiner vos requêtes et à obtenir des résultats optimaux.
- Améliorer les détails des visages sur vos photos personnelles et de groupe :
- Spécifiez les détails du visage comme point central de la photo (par exemple, utilisez le mot "portrait" dans la requête).
- Pour améliorer les détails, envisagez d'utiliser un modèle plus grand comme Imagen 3 au lieu d'Imagen 3 Fast.
Générer du texte dans des images
La capacité d'Imagen 3 à ajouter du texte dans vos images ouvre de nouvelles possibilités de génération d'images créatives. Suivez les conseils ci-dessous pour tirer le meilleur parti de cette fonctionnalité :
- Itérez en toute confiance : vous devrez peut-être régénérer des images jusqu'à obtenir le résultat souhaité. L'intégration de texte d'Imagen est encore en cours de développement. Parfois, plusieurs tentatives sont nécessaires pour obtenir les meilleurs résultats.
- Soyez bref : limitez le texte à 25 caractères maximum pour une génération optimale.
Plusieurs expressions : testez deux ou trois expressions distinctes pour fournir des informations supplémentaires. Évitez de dépasser trois expressions pour des compositions plus claires.
Requête : Affiche avec le texte "Summerland" en gras comme titre, en dessous de ce texte se trouve le slogan "Summer never felt so good" Emplacement du texte : bien qu'Imagen puisse tenter de positionner le texte comme indiqué, vous devez vous attendre à des variations occasionnelles. Cette fonctionnalité s'améliore constamment.
Style de police Inspire : spécifiez un style de police général pour influencer subtilement les choix d'Imagen. Ne vous attendez pas à une réplication précise des polices, mais plutôt à des interprétations créatives.
Taille de la police : spécifiez une taille de police ou une indication générale de la taille (par exemple, petite, moyenne, grande) pour influencer la génération de la taille de la police.
Paramétrage des requêtes
Pour mieux contrôler les résultats, il peut être utile de paramétrer les entrées dans Imagen lorsque vous utilisez l'API Imagen ou le SDK Vertex AI pour Python. Par exemple, supposons que vous souhaitiez que vos clients puissent générer des logos pour leur entreprise et que vous souhaitiez vous assurer que les logos sont toujours générés sur un fond de couleur unie. Vous souhaitez également limiter les options que le client peut sélectionner dans un menu.
Dans cet exemple, vous pouvez créer une requête paramétrée semblable à celle-ci :
A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.Dans votre interface utilisateur personnalisée, le client peut saisir les paramètres à l'aide d'un menu. La valeur choisie est alors insérée dans l'invite reçue par Imagen.
Exemple :
Invite :
A minimalist logo for a health care company on a solid color background. Include the text Journey.
Invite :
A modern logo for a software company on a solid color background. Include the text Silo.
Invite :
A traditional logo for a baking company on a solid color background. Include the text Seed.
Style : Photographie
- La requête inclut : "Une photo de…"
Pour utiliser ce style, commencez par utiliser des mots clés qui indiquent clairement à Vertex AI que vous souhaitez obtenir une photographie. Start your prompts with "A photo of. . .". Par exemple :
|
|
|
Source de l'image : chaque image a été générée à l'aide de la requête de texte correspondante avec le modèle Imagen 3.
Style : illustration et art
- La requête inclut : "Une painting de…", "Une sketch de…"
Les styles artistiques vont des styles monochromes tels que les esquisses au crayon à l'art numérique hyperréaliste. Par exemple, les images suivantes utilisent la même requête avec différents styles :
"Une [art style or creation technique] d'une berline électrique angulaire avec des gratte-ciel en arrière-plan"
|
|
|
|
|
|
Source de l'image : chaque image a été générée à l'aide de la requête textuelle correspondante avec le modèle Imagen 2.
Techniques d'écriture de requête avancées
Utilisez les exemples suivants pour créer des requêtes plus spécifiques basées sur des attributs : descripteurs de photo, formes et matériaux, courants artistiques historiques et modificateurs de qualité d'image.
Modificateurs de photo
Dans les exemples ci-dessous, vous pouvez voir plusieurs modificateurs et paramètres spécifiques à la photographie.
Proximité de l'appareil : gros plan, plan large
Requête : Une photo en gros plan de grains de café
Requête : Une photo en plan large d'un petit sac de
grains de café dans une cuisine en désordrePosition de l'appareil : vue aérienne, vue de dessous
Requête : photo en vue aérienne d'une ville urbaine avec des gratte-ciel
Requête : Photo d'une canopée de forêt avec un ciel bleu en vue de dessous Éclairage : naturel, spectaculaire, chaud, froid
Requête : photo en studio d'un fauteuil moderne, éclairage naturel
Requête : photo en studio d'un fauteuil moderne, éclairage spectaculaire Paramètres de l'appareil : flou de mouvement, flou artistique, bokeh, portrait
Requête : photo d'une ville avec des gratte-ciel à l'intérieur d'une voiture avec floutage du mouvement
Requête : photo avec flou artistique d'un pont dans une ville urbaine de nuit Types d'objectifs : 35 mm, 50 mm, fisheye, grand angle, macro
Requête : photo de feuille, objectif macro
Requête : photographie de rue, New York, objectif fisheye Types de pellicule : noir et blanc, polaroid
Requête : un portrait polaroid d'un chien portant des lunettes de soleil
Requête : photo en noir et blanc d'un chien portant des lunettes de soleil
Source de l'image : chaque image a été générée à l'aide de la requête de texte correspondante avec le modèle Imagen 3.
Formes et matériaux
- La requête inclut : "…fait en…", "…en forme de…"
L'un des points forts de cette technologie est que vous pouvez créer des images qui seraient autrement difficiles voire impossibles à obtenir. Par exemple, vous pouvez recréer le logo de votre entreprise dans différents matériaux et textures.
|
|
|
Source de l'image : chaque image a été générée à l'aide de la requête de texte correspondante avec le modèle Imagen 3.
Références artistiques historiques
- La requête inclut : "…dans le style de…"
Certains styles sont devenus iconiques au fil des années. Voici quelques idées de styles artistiques ou de peinture que vous pouvez essayer.
"génère une image dans le style de [art period or movement] : une ferme éolienne"
|
|
|
Source de l'image : chaque image a été générée à l'aide de la requête de texte correspondante avec le modèle Imagen 3.
Modificateurs de qualité d'image
Certains mots clés peuvent indiquer au modèle que vous recherchez un élément de haute qualité. Voici quelques exemples de modificateurs de qualité :
- Modificateurs généraux : de haute qualité, agréable, stylisé
- Photos : 4K, HDR, photo studio
- Art, iIlustration : professionnel, détaillé
Voici quelques exemples de requêtes utilisées avec et sans modificateurs de qualité.
|
d'un pied de maïs prise par un photographe professionnel |
Source de l'image : chaque image a été générée à l'aide de la requête de texte correspondante avec le modèle Imagen 3.
Formats
La génération d'images Imagen 3 vous permet de définir cinq formats d'image distincts.
- Carré (1:1, par défaut) : photo carrée standard. Les utilisations courantes de ce format incluent les publications sur les réseaux sociaux.
Plein écran (4:3) : ce format est couramment utilisé dans les médias ou les films. Il correspond également aux dimensions de la plupart des anciens téléviseurs (non panoramiques) et des appareils photo de format moyen. Il capture une plus grande partie de la scène horizontalement (comparé au format 1:1), ce qui en fait le format préféré pour la photographie.
Requête : gros plan des doigts d'un Musicien qui jouent du piano, film en noir et blanc, rétro (format 4:3)
Requête : Photo professionnelle en studio de frites pour un restaurant haut de gamme, dans le style d'un magazine de cuisine (format 4:3) Portrait plein écran (3:4) : il s'agit du format plein écran ayant une rotation de 90 degrés. Cela permet de capturer une plus grande partie de la scène verticalement par rapport au format 1:1.
Requête : une femme faisant une randonnée, près de ses bottes, le reflet dans une flaque de grandes montagnes en arrière-plan, dans le style d'une publicité, angles spectaculaires (format 3:4)
Requête : plan en vue aérienne d'une rivière s'écoulant dans une montagne mystique (format 3:4) Écran large (16:9) : ce format a remplacé le format 4:3 et est désormais le format le plus courant pour les téléviseurs, les écrans d'ordinateur et les écrans de téléphones mobiles (paysage). Utilisez ce format lorsque vous souhaitez capturer davantage d'arrière-plan (par exemple, des paysages).
Requête : un homme portant des vêtements blancs, assis sur la plage, en gros plan, un éclairage de l'heure dorée (format 16:9) Portrait (9:16) : il s'agit d'un format grand écran, mais pivoté. Il s'agit d'un format relativement nouveau qui est rendu populaire par les applications vidéo courtes (par exemple, les Shorts YouTube). Utilisez ce format pour les éléments élevés ayant une orientation verticale marquée, tels que les bâtiments, les arbres, les cascades ou d'autres éléments similaires.
Requête : rendu numérique d'un gratte-ciel massif, moderne, grand et épique avec un magnifique coucher de soleil en arrière-plan (format 9:16)
Requêtes négatives
Les exemples précédents se concentrent sur l'écriture de requêtes pour ce que vous souhaitez créer avec Imagen. Vous pouvez également fournir une requête négative avec la requête initiale afin d'aider le produit à générer ou modifier des images. Ces requêtes négatives peuvent être un outil puissant pour spécifier des éléments à omettre dans l'image. Décrivez simplement ce que vous ne souhaitez pas voir.
Recommandé : Décrivez clairement ce que vous ne souhaitez pas voir. Par exemple, "mur, cadre".
Déconseillé : évitez d'utiliser des mots ou des expressions instructives comme "pas de" ou "ne pas". Par exemple, évitez les expressions pas de mur ou ne pas afficher les murs.
|
Requête négative : verdure, plantes, forêts, arbres |
|
Requête négative : neige, givre |
Images photoréalistes
Différentes versions du modèle de génération d'images peuvent offrir une combinaison de sorties artistiques et photoréalistes. Utilisez les mots suivants dans vos requêtes pour générer un résultat plus réaliste en fonction du sujet que vous souhaitez générer.
| Cas d'utilisation | Type d'objectif | Longueurs focales | Informations supplémentaires |
|---|---|---|---|
| Personnes (Portraits) | Primaire, zoom | 24-35 mm | Pellicule noir et blanc, Film noir, Profondeur de champ, Bichromie (mentionnez les noms de deux couleurs) |
| Aliment, insectes, plantes (objets, nature morte) | Macro | 60-105 mm | Niveau de détail élevé, mise au point précise, éclairage contrôlé |
| Sport, faune (mouvement) | Téléobjectif | 100-400 mm | Vitesse d'obturation rapide, Action ou suivi des mouvements |
| Astronomique, paysage (grand angle) | Grand angle | 10-24 mm | Durées d'exposition longues, mise au point nette, longue exposition, eau ou nuages fluides |
Portraits
| Cas d'utilisation | Type d'objectif | Longueurs focales | Informations supplémentaires |
|---|---|---|---|
| Personnes (Portraits) | Primaire, zoom | 24-35 mm | Pellicule noir et blanc, Film noir, Profondeur de champ, Bichromie (mentionnez les noms de deux couleurs) |
Avec plusieurs mots clés du tableau, Imagen peut générer les portraits suivants.
|
|
|
|
Requête : Femme, portrait en 35 mm, bichromie bleu et gris
Modèle : Imagen 3 (imagen-3.0-generate-002)
|
|
|
|
Requête : Femme, portrait en 35 mm, film noir
Modèle : Imagen 3 (imagen-3.0-generate-002)
Objets
| Cas d'utilisation | Type d'objectif | Longueurs focales | Informations supplémentaires |
|---|---|---|---|
| Aliment, insectes, plantes (objets, nature morte) | Macro | 60-105 mm | Niveau de détail élevé, mise au point précise, éclairage contrôlé |
Avec plusieurs mots clés du tableau, Imagen peut générer les images d'objets suivantes.
|
|
|
|
Requête : feuille de maranta, objectif macro, 60 mm
Modèle : Imagen 3 (imagen-3.0-generate-002)
|
|
|
|
Requête : Assiette de pâtes, Objectif macro de 100 mm
Modèle : Imagen 3 (imagen-3.0-generate-002)
Mouvement
| Cas d'utilisation | Type d'objectif | Longueurs focales | Informations supplémentaires |
|---|---|---|---|
| Sport, faune (mouvement) | Téléobjectif | 100-400 mm | Vitesse d'obturation rapide, Action ou suivi des mouvements |
Avec plusieurs mots clés du tableau, Imagen peut générer les images de mouvement suivantes.
|
|
|
|
Requête : Un "touchdown" victorieux, vitesse d'obturation rapide, suivi des mouvements
Modèle : Imagen 3 (imagen-3.0-generate-002)
|
|
|
|
Requête : Cerf courant dans la forêt, vitesse d'obturation rapide, suivi des mouvements
Modèle : Imagen 3 (imagen-3.0-generate-002)
Grand angle
| Cas d'utilisation | Type d'objectif | Longueurs focales | Informations supplémentaires |
|---|---|---|---|
| Astronomique, paysage (grand angle) | Grand angle | 10-24 mm | Durées d'exposition longues, mise au point nette, longue exposition, eau ou nuages fluides |
Avec plusieurs mots clés du tableau, Imagen peut générer les images grand angle suivantes.
|
|
|
|
Requête : Une chaîne de montagnes très large, paysage grand angle de 10 mm
Modèle : Imagen 3 (imagen-3.0-generate-002)
|
|
|
|
Requête : une photo de la lune, astrophotographie, grand angle de 10 mm
Modèle : Imagen 3 (imagen-3.0-generate-002)
Étapes suivantes
Consultez des articles concernant Imagen et d'autres produits d'IA générative sur Vertex AI :
- Guide du développeur pour bien démarrer avec Imagen 3 sur Vertex AI
- Nouveaux outils et modèles multimédias génératifs, conçus avec et pour les créateurs
- Nouveautés dans Gemini : Gems personnalisés et génération d'images améliorée avec Imagen 3
- Google DeepMind : Imagen 3 – Notre modèle texte-vers-image le plus puissant