Stilanpassung

Mit der Stil-Anpassung von Imagen 3 Customization können Sie neue Bilder aus Text-Prompts und Referenzbildern generieren, die Sie bereitstellen. Die Referenzbilder dienen als Grundlage für die Generierung neuer Bilder.

Anwendungsfälle

Die Imagen 3-Anpassung bietet die Möglichkeit, Prompts in freiem Stil zu verwenden. Das kann den Eindruck erwecken, dass sie mehr leisten kann, als für sie trainiert wurde. In den folgenden Abschnitten werden die vorgesehenen Anwendungsfälle für die Imagen 3-Anpassung sowie nicht erschöpfende Beispiele für nicht vorgesehene Anwendungsfälle beschrieben.

Wir empfehlen, Imagen 3 Customization für die vorgesehenen Anwendungsfälle zu verwenden, da wir das Modell für diese Anwendungsfälle trainiert haben und gute Ergebnisse erwarten. Umgekehrt können Sie das Modell zwar dazu bringen, Dinge außerhalb der vorgesehenen Anwendungsfälle zu tun, aber wir erwarten keine guten Ergebnisse.

Vorgesehene Anwendungsfälle

Im Folgenden finden Sie Anwendungsfälle für die Anpassung des Imagen 3-Stils:

  • Generieren Sie ein Bild aus Texteingaben, das dem Stil eines Referenzbilds entspricht.
  • Ein Foto einer Person verändern.
  • Ein Foto einer Person bearbeiten und den Gesichtsausdruck beibehalten

Beispiele für unbeabsichtigte Anwendungsfälle

Im Folgenden finden Sie eine unvollständige Liste von Anwendungsfällen, für die Imagen 3 Customization nicht trainiert wurde und für die schlechte Ergebnisse erzielt werden:

  • Generieren Sie ein Bild aus Text und einem Referenzbild, um die Komposition des generierten Bildes anhand des Referenzbildes zu steuern.

  • Ein Bild einer Person aus einem Referenzbild generieren, auf dem eine Person mit einem bestimmten Gesichtsausdruck zu sehen ist.

  • Zwei Personen in eine andere Szene einfügen, ihre Identitäten beibehalten und den Stil des Ausgabebilds (z. B. ein Ölgemälde) mithilfe eines Referenzbilds festlegen.

  • Ein Foto eines Haustiers stilisieren und in eine Zeichnung umwandeln, wobei die Komposition des Bildes beibehalten oder angegeben wird.

  • Platzieren Sie ein Produkt wie einen Keks oder ein Sofa in verschiedenen Szenen mit unterschiedlichen Produktansichten und in einem bestimmten Bildstil (z. B. fotorealistisch mit bestimmten Farben, Beleuchtungsarten oder Animationen).

Beispiel für die Anpassung des Stils

Das folgende Beispiel zeigt einen Anwendungsfall für die Anpassung des Stils von Imagen 3:

Beispieleingabe Beispielausgabe
  1. Referenzbild1:
    Beispieleingabe für die Anpassung von Tierbegleitern
  2. Text-Prompt:
    Generiere ein Bild in mosaic style [1] basierend auf
    der folgenden Bildunterschrift: Die Skyline von New York City

Beispielausgabe für die Anpassung von Tierbegleitern

1 Referenz-Eingabebild, das mit der Bildgenerierung von Imagen 3 aus dem Prompt ein einfaches Mosaik generiert wurde.

Modellkarte für Imagen for Editing and Customization ansehen

Hinweise

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Richten Sie die Authentifizierung für Ihre Umgebung ein.

    Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    REST

    Verwenden Sie die von der gcloud CLI bereitgestellten Anmeldedaten, um die REST API-Beispiele auf dieser Seite in einer lokalen Entwicklungsumgebung zu verwenden.

      After installing the Google Cloud CLI, initialize it by running the following command:

      gcloud init

      If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

    Weitere Informationen finden Sie in der Dokumentation zur Google Cloud -Authentifizierung unter Für die Verwendung von REST authentifizieren.

    Stilanpassung

    Wenn Sie Imagen 3 Customization verwenden, können Sie Referenzbilder für Stilarten angeben. Der von Ihnen gewählte Stil wirkt sich darauf aus, wie Sie Ihren Generierungsanfrage formulieren.

    Der Prompt, den Sie für die Imagen 3-Anpassung verwenden, kann sich auf die Qualität der generierten Bilder auswirken. In den folgenden Abschnitten werden empfohlene Prompt-Vorlagen und Beispiele für das Senden von Anpassungsanfragen beschrieben.

    Anwendungsfall Referenzbilder Prompt-Vorlage Beispiel
    Objektstil Bild des Motivs (1–4) Generiere ein Bild in STYLE_DESCRIPTION [1] basierend auf dem folgenden Untertitel: IMAGE_DESCRIPTION. Generiere ein Bild in neon sign style [1] basierend auf dem folgenden Untertitel: a sign saying have a great day.
    Stilisierung von Personenbildern ohne Eingabe von Gesichts-Mesh Bild des Motivs (1–4) Erstelle ein Bild von SUBJECT_DESCRIPTION [1], das der Beschreibung entspricht: ein Porträt von SUBJECT_DESCRIPTION [1] ${PROMPT} Erstelle ein Bild von a woman with short hair[1], das der Beschreibung entspricht: ein Porträt von a woman with short hair[1] im 3D-Cartoonstil mit verschwommenem Hintergrund. Eine niedliche und liebenswerte Figur, lächelndes Gesicht, das in die Kamera schaut, Pastellfarben, hohe Qualität, 4K, Meisterwerk, super Details, Hautstruktur, Textur-Mapping, weiche Schatten, weiche realistische Beleuchtung, lebendige Farben
    Stilisierung von Personenbildern mit Gesichtserkennung Motivbild (1–3)

    Facemesh-Kontrollbild (1)
    Erstelle ein Bild von SUBJECT_DESCRIPTION [1] in der Pose von CONTROL_IMAGE [2], das der Beschreibung entspricht: ein Porträt von SUBJECT_DESCRIPTION [1] ${PROMPT} Erstelle ein Bild von a woman with short hair [1] in der Pose von control image [2], das der Beschreibung entspricht: ein Porträt von a woman with short hair [1] im 3D-Cartoonstil mit verschwommenem Hintergrund. Eine niedliche Figur mit einem lächelnden Gesicht. Kamera, Pastellfarben, hohe Qualität, 4K, Meisterwerk, super Details, Hautstruktur, Texture Mapping, weiche Schatten, weiche realistische Beleuchtung, lebendige Farben

    REST

    Weitere Informationen zu imagen-3.0-capability-001-Modellanfragen finden Sie in der API-Referenz des imagen-3.0-capability-001-Modells.

    Ersetzen Sie diese Werte in den folgenden Anfragedaten:

    • PROJECT_ID: Ihre Google Cloud Projekt-ID.
    • LOCATION: Die Region Ihres Projekts. Beispiel: us-central1, europe-west2 oder asia-northeast3. Eine Liste der verfügbaren Regionen finden Sie unter Generative AI an Vertex AI-Standorten.
    • TEXT_PROMPT ist der Text-Prompt, der bestimmt, welche Bilder das Modell generiert. Wenn Sie die Imagen 3-Anpassung verwenden möchten, geben Sie die referenceId des Referenzbilds oder der Referenzbilder, die Sie bereitstellen, im Format [$referenceId] an. Beispiel:
      • Der folgende Text-Prompt bezieht sich auf eine Anfrage mit einem einzelnen Referenzbild mit "referenceId": 1 und einer optionalen Beschreibung von "styleDescription": "glowing style": Generiere ein Bild in glowing style [1] basierend auf der folgenden Bildunterschrift: Eine Kirche in den Bergen.
    • "referenceId": Die ID des Referenzbilds oder die ID einer Reihe von Referenzbildern, die demselben Motiv oder Stil entsprechen. In diesem Beispiel hat das einzelne Referenzbild einen referenceId von (1).
    • BASE64_REFERENCE_IMAGE: Ein Referenzbild, das als Grundlage für die Bildgenerierung dient. Das Bild muss als base64-codierter Bytestring angegeben werden.
    • STYLE_DESCRIPTION: Optional. Eine Textbeschreibung des Referenzbilds, die Sie dann im Feld prompt verwenden können. Beispiel:
            "prompt": "Generate an image in glowing style [1] based on the following
              caption: A church in the mountain.",
            [...],
            "styleImageConfig": {
              "styleDescription": "glowing style"
            }
          
    • IMAGE_COUNT ist die Anzahl der generierten Bilder. Zulässige Ganzzahlwerte: 1–4. Standardwert: 4

    HTTP-Methode und URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict

    JSON-Text der Anfrage:

    {
      "instances": [
        {
          "prompt": "TEXT_PROMPT",
          "referenceImages": [
            {
              "referenceType": "REFERENCE_TYPE_STYLE",
              "referenceId": 1,
              "referenceImage": {
                "bytesBase64Encoded": "BASE64_REFERENCE_IMAGE"
              },
              "styleImageConfig": {
                "styleDescription": "STYLE_DESCRIPTION"
              }
            }
          ]
        }
      ],
      "parameters": {
        "sampleCount": IMAGE_COUNT
      }
    }
    

    Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

    curl

    Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict"

    PowerShell

    Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict" | Select-Object -Expand Content
    Die folgende Beispielantwort bezieht sich auf eine Anfrage mit "sampleCount": 2. Die Antwort gibt zwei Vorhersageobjekte zurück, wobei die generierten Bildbyte base64-codiert sind.
    {
      "predictions": [
        {
          "bytesBase64Encoded": "BASE64_IMG_BYTES",
          "mimeType": "image/png"
        },
        {
          "mimeType": "image/png",
          "bytesBase64Encoded": "BASE64_IMG_BYTES"
        }
      ]
    }
    

    Python

    from google import genai
    from google.genai.types import EditImageConfig, Image, StyleReferenceConfig, StyleReferenceImage
    
    client = genai.Client()
    
    # TODO(developer): Update and un-comment below line
    # output_gcs_uri = "gs://your-bucket/your-prefix"
    
    # Create a style reference image of a neon sign stored in Google Cloud Storage
    # using https://storage.googleapis.com/cloud-samples-data/generative-ai/image/neon.png
    style_reference_image = StyleReferenceImage(
        reference_id=1,
        reference_image=Image(gcs_uri="gs://cloud-samples-data/generative-ai/image/neon.png"),
        config=StyleReferenceConfig(style_description="neon sign"),
    )
    
    image = client.models.edit_image(
        model="imagen-3.0-capability-001",
        prompt="generate an image of a neon sign [1] with the words: have a great day",
        reference_images=[style_reference_image],
        config=EditImageConfig(
            edit_mode="EDIT_MODE_DEFAULT",
            number_of_images=1,
            seed=1,
            safety_filter_level="BLOCK_MEDIUM_AND_ABOVE",
            person_generation="ALLOW_ADULT",
            output_gcs_uri=output_gcs_uri,
        ),
    )
    
    # Example response:
    # gs://your-bucket/your-prefix
    print(image.generated_images[0].image.gcs_uri)

    Produktnutzung

    Informationen zu den Nutzungsstandards und Inhaltsbeschränkungen für Imagen in Vertex AI finden Sie in den Nutzungsrichtlinien.

    Modellversionen

    Es gibt mehrere Modelle zur Bildgenerierung, die Sie verwenden können. Weitere Informationen finden Sie unter Imagen-Modelle.

    Nächste Schritte

    Artikel zu Imagen und anderen Produkten für generative KI in Vertex AI: