Ottenere embedding multimodali

Il modello di embedding multimodale genera vettori a 1408 dimensioni in base all'input fornito, che può includere una combinazione di dati di immagini, testo e video. I vettori di incorporamento possono quindi essere utilizzati per attività successive come la classificazione delle immagini o la moderazione dei contenuti video.

Il vettore di embedding dell'immagine e il vettore di embedding del testo si trovano nello stesso spazio semantico con la stessa dimensionalità. Di conseguenza, questi vettori possono essere utilizzati in modo intercambiabile per casi d'uso come la ricerca di immagini per testo o di video per immagine.

Per i casi d'uso di embedding solo di testo, ti consigliamo di utilizzare l'API text-embeddings di Vertex AI. Ad esempio, l'API text-embeddings potrebbe essere più adatta per la ricerca semantica basata su testo, il clustering, l'analisi di documenti in formato lungo e altri casi d'uso di recupero di testo o question answering. Per ulteriori informazioni, vedi Ottenere incorporamenti di testo.

Modelli supportati

Puoi ottenere incorporamenti multimodali utilizzando il seguente modello:

  • multimodalembedding

Best practice

Quando utilizzi il modello di incorporamenti multimodali, considera i seguenti aspetti dell'input:

  • Testo nelle immagini: il modello è in grado di distinguere il testo nelle immagini, in modo simile al riconoscimento ottico dei caratteri (OCR). Se devi distinguere tra una descrizione dei contenuti dell'immagine e il testo all'interno di un'immagine, valuta la possibilità di utilizzare l'ingegneria dei prompt per specificare i contenuti di destinazione. Ad esempio, anziché solo "gatto", specifica "foto di un gatto" o "il testo "gatto"", a seconda del caso d'uso.




    il testo "gatto"

    immagine di un testo con la parola gatto




    immagine di un gatto

    immagine di un gatto
    Crediti immagine: Manja Vitolic su Unsplash.
  • Somiglianze di incorporamento: il prodotto scalare degli incorporamenti non è una probabilità calibrata. Il prodotto scalare è una metrica di similarità e potrebbe avere distribuzioni di punteggio diverse per casi d'uso diversi. Di conseguenza, evita di utilizzare una soglia di valore fissa per misurare la qualità. Utilizza invece approcci di ranking per il recupero o la funzione sigmoidea per la classificazione.

Utilizzo delle API

Limiti dell'API

Quando utilizzi il modello multimodalembedding per gli incorporamenti di testo e immagini, si applicano i seguenti limiti:

Limite Valore e descrizione
Dati di testo e immagini
Numero massimo di richieste API al minuto per progetto 120-600 a seconda della regione
Lunghezza massima del testo 32 token (~32 parole)

La lunghezza massima del testo è di 32 token (circa 32 parole). Se l'input supera i 32 token, il modello lo abbrevia internamente a questa lunghezza.
Lingua Inglese
Formati immagine BMP, GIF, JPG, PNG
Dimensioni dell'immagine Immagini con codifica base64: 20 MB (dopo la transcodifica in PNG)
Immagini di Cloud Storage: 20 MB (formato file originale)

La dimensione massima dell'immagine accettata è 20 MB. Per evitare un aumento della latenza di rete, utilizza immagini più piccole. Inoltre, il modello ridimensiona le immagini a una risoluzione di 512 x 512 pixel. Di conseguenza, non è necessario fornire immagini a risoluzione più elevata.
Dati video
Audio supportato N/A: il modello non prende in considerazione i contenuti audio durante la generazione degli incorporamenti video
Formati video AVI, FLV, MKV, MOV, MP4, MPEG, MPG, WEBM e WMV
Durata massima del video (Cloud Storage) Nessun limite. Tuttavia, è possibile analizzare solo 2 minuti di contenuti alla volta.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Configura l'autenticazione per il tuo ambiente.

    Select the tab for how you plan to use the samples on this page:

    Java

    Per utilizzare gli esempi di Java questa pagina in un ambiente di sviluppo locale, installa e inizializza gcloud CLI, quindi configura le Credenziali predefinite dell'applicazione con le tue credenziali utente.

    1. Install the Google Cloud CLI.

    2. If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

    3. To initialize the gcloud CLI, run the following command:

      gcloud init
    4. After initializing the gcloud CLI, update it and install the required components:

      gcloud components update
      gcloud components install beta
    5. If you're using a local shell, then create local authentication credentials for your user account:

      gcloud auth application-default login

      You don't need to do this if you're using Cloud Shell.

      If an authentication error is returned, and you are using an external identity provider (IdP), confirm that you have signed in to the gcloud CLI with your federated identity.

    Per saperne di più, consulta Configura ADC per un ambiente di sviluppo locale nella documentazione sull'autenticazione Google Cloud .

    Node.js

    Per utilizzare gli esempi di Node.js questa pagina in un ambiente di sviluppo locale, installa e inizializza gcloud CLI, quindi configura le Credenziali predefinite dell'applicazione con le tue credenziali utente.

    1. Install the Google Cloud CLI.

    2. If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

    3. To initialize the gcloud CLI, run the following command:

      gcloud init
    4. After initializing the gcloud CLI, update it and install the required components:

      gcloud components update
      gcloud components install beta
    5. If you're using a local shell, then create local authentication credentials for your user account:

      gcloud auth application-default login

      You don't need to do this if you're using Cloud Shell.

      If an authentication error is returned, and you are using an external identity provider (IdP), confirm that you have signed in to the gcloud CLI with your federated identity.

    Per saperne di più, consulta Configura ADC per un ambiente di sviluppo locale nella documentazione sull'autenticazione Google Cloud .

    Python

    Per utilizzare gli esempi di Python questa pagina in un ambiente di sviluppo locale, installa e inizializza gcloud CLI, quindi configura le Credenziali predefinite dell'applicazione con le tue credenziali utente.

    1. Install the Google Cloud CLI.

    2. If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

    3. To initialize the gcloud CLI, run the following command:

      gcloud init
    4. After initializing the gcloud CLI, update it and install the required components:

      gcloud components update
      gcloud components install beta
    5. If you're using a local shell, then create local authentication credentials for your user account:

      gcloud auth application-default login

      You don't need to do this if you're using Cloud Shell.

      If an authentication error is returned, and you are using an external identity provider (IdP), confirm that you have signed in to the gcloud CLI with your federated identity.

    Per saperne di più, consulta Configura ADC per un ambiente di sviluppo locale nella documentazione sull'autenticazione Google Cloud .

    REST

    Per utilizzare gli esempi di API REST in questa pagina in un ambiente di sviluppo locale, utilizzi le credenziali che fornisci a gcloud CLI.

    1. Install the Google Cloud CLI.

    2. If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

    3. To initialize the gcloud CLI, run the following command:

      gcloud init
    4. After initializing the gcloud CLI, update it and install the required components:

      gcloud components update
      gcloud components install beta

    Per saperne di più, consulta la sezione Autenticarsi per l'utilizzo di REST nella documentazione sull'autenticazione di Google Cloud .

  9. Per utilizzare l'SDK Python, segui le istruzioni riportate in Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Vertex AI SDK for Python.
  10. Facoltativo. Consulta i prezzi di questa funzionalità. I prezzi per gli incorporamenti dipendono dal tipo di dati che invii (ad esempio immagini o testo) e anche dalla modalità che utilizzi per determinati tipi di dati (ad esempio Video Plus, Video Standard o Video Essential).
  11. Località

    Una località è una regione che puoi specificare in una richiesta per controllare dove vengono archiviati i dati at-rest. Per un elenco delle regioni disponibili, consulta Località dell'AI generativa su Vertex AI.

    Messaggi di errore

    Errore di superamento della quota

    google.api_core.exceptions.ResourceExhausted: 429 Quota exceeded for
    aiplatform.googleapis.com/online_prediction_requests_per_base_model with base
    model: multimodalembedding. Please submit a quota increase request.
    

    Se è la prima volta che ricevi questo errore, utilizza la console Google Cloud per richiedere una modifica della quota per il tuo progetto. Utilizza i seguenti filtri prima di richiedere l'aggiustamento:

    • Service ID: aiplatform.googleapis.com
    • metric: aiplatform.googleapis.com/online_prediction_requests_per_base_model
    • base_model:multimodalembedding

    Vai a Quote

    Se hai già inviato una richiesta di aggiustamento della quota, attendi prima di inviarne un'altra. Se devi aumentare ulteriormente la quota, ripeti la richiesta di aggiustamento della quota con la giustificazione per un aggiustamento della quota sostenuto.

    Specifica gli incorporamenti a dimensioni inferiori

    Per impostazione predefinita, una richiesta di incorporamento restituisce un vettore float di 1408 per un tipo di dati. Puoi anche specificare embedding a dimensioni inferiori (vettori float a 128, 256 o 512 dimensioni) per i dati di testo e immagine. Questa opzione ti consente di ottimizzare la latenza e lo spazio di archiviazione o la qualità in base a come prevedi di utilizzare gli incorporamenti. Gli incorporamenti a dimensioni inferiori riducono le esigenze di spazio di archiviazione e la latenza per le successive attività di incorporamento (come la ricerca o i suggerimenti), mentre gli incorporamenti a dimensioni superiori offrono una maggiore precisione per le stesse attività.

    REST

    È possibile accedere alla dimensione bassa aggiungendo il campo parameters.dimension. Il parametro accetta uno dei seguenti valori: 128, 256, 512 o 1408. La risposta include l'incorporamento di quella dimensione.

    Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

    • LOCATION: la regione del tuo progetto. Ad esempio, us-central1, europe-west2 o asia-northeast3. Per un elenco delle regioni disponibili, consulta Località dell'AI generativa su Vertex AI.
    • PROJECT_ID: il tuo Google Cloud ID progetto.
    • IMAGE_URI: l'URI Cloud Storage dell'immagine di destinazione per cui ottenere gli incorporamenti. Ad esempio, gs://my-bucket/embeddings/supermarket-img.png.

      Puoi anche fornire l'immagine come stringa di byte con codifica base64:

      [...]
      "image": {
        "bytesBase64Encoded": "B64_ENCODED_IMAGE"
      }
      [...]
      
    • TEXT: Il testo di destinazione per cui ottenere gli incorporamenti. Ad esempio, a cat.
    • EMBEDDING_DIMENSION: il numero di dimensioni dell'incorporamento. Valori più bassi offrono una latenza ridotta quando utilizzi questi incorporamenti per attività successive, mentre valori più alti offrono una maggiore precisione. Valori disponibili: 128, 256, 512 e 1408 (impostazione predefinita).

    Metodo HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict

    Corpo JSON della richiesta:

    {
      "instances": [
        {
          "image": {
            "gcsUri": "IMAGE_URI"
          },
          "text": "TEXT"
        }
      ],
      "parameters": {
        "dimension": EMBEDDING_DIMENSION
      }
    }
    

    Per inviare la richiesta, scegli una di queste opzioni:

    curl

    Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict"

    PowerShell

    Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict" | Select-Object -Expand Content
    L'incorporamento restituito dal modello è un vettore float della dimensione specificata. I seguenti esempi di risposte sono abbreviati per motivi di spazio.

    Dimensioni 128:

    {
      "predictions": [
        {
          "imageEmbedding": [
            0.0279239565,
            [...128 dimension vector...]
            0.00403284049
          ],
          "textEmbedding": [
            0.202921599,
            [...128 dimension vector...]
            -0.0365431122
          ]
        }
      ],
      "deployedModelId": "DEPLOYED_MODEL_ID"
    }

    256 dimensioni:

    {
      "predictions": [
        {
          "imageEmbedding": [
            0.248620048,
            [...256 dimension vector...]
            -0.0646447465
          ],
          "textEmbedding": [
            0.0757875815,
            [...256 dimension vector...]
            -0.02749932
          ]
        }
      ],
      "deployedModelId": "DEPLOYED_MODEL_ID"
    }

    Dimensioni 512:

    {
      "predictions": [
        {
          "imageEmbedding": [
            -0.0523675755,
            [...512 dimension vector...]
            -0.0444030389
          ],
          "textEmbedding": [
            -0.0592851527,
            [...512 dimension vector...]
            0.0350437127
          ]
        }
      ],
      "deployedModelId": "DEPLOYED_MODEL_ID"
    }
    

    Python

    import vertexai
    
    from vertexai.vision_models import Image, MultiModalEmbeddingModel
    
    # TODO(developer): Update & uncomment line below
    # PROJECT_ID = "your-project-id"
    vertexai.init(project=PROJECT_ID, location="us-central1")
    
    # TODO(developer): Try different dimenions: 128, 256, 512, 1408
    embedding_dimension = 128
    
    model = MultiModalEmbeddingModel.from_pretrained("multimodalembedding@001")
    image = Image.load_from_file(
        "gs://cloud-samples-data/vertex-ai/llm/prompts/landmark1.png"
    )
    
    embeddings = model.get_embeddings(
        image=image,
        contextual_text="Colosseum",
        dimension=embedding_dimension,
    )
    
    print(f"Image Embedding: {embeddings.image_embedding}")
    print(f"Text Embedding: {embeddings.text_embedding}")
    
    # Example response:
    # Image Embedding: [0.0622573346, -0.0406507477, 0.0260440577, ...]
    # Text Embedding: [0.27469793, -0.146258667, 0.0222803634, ...]

    Go

    import (
    	"context"
    	"encoding/json"
    	"fmt"
    	"io"
    
    	aiplatform "cloud.google.com/go/aiplatform/apiv1beta1"
    	aiplatformpb "cloud.google.com/go/aiplatform/apiv1beta1/aiplatformpb"
    	"google.golang.org/api/option"
    	"google.golang.org/protobuf/encoding/protojson"
    	"google.golang.org/protobuf/types/known/structpb"
    )
    
    // generateWithLowerDimension shows how to generate lower-dimensional embeddings for text and image inputs.
    func generateWithLowerDimension(w io.Writer, project, location string) error {
    	// location = "us-central1"
    	ctx := context.Background()
    	apiEndpoint := fmt.Sprintf("%s-aiplatform.googleapis.com:443", location)
    	client, err := aiplatform.NewPredictionClient(ctx, option.WithEndpoint(apiEndpoint))
    	if err != nil {
    		return fmt.Errorf("failed to construct API client: %w", err)
    	}
    	defer client.Close()
    
    	model := "multimodalembedding@001"
    	endpoint := fmt.Sprintf("projects/%s/locations/%s/publishers/google/models/%s", project, location, model)
    
    	// This is the input to the model's prediction call. For schema, see:
    	// https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/multimodal-embeddings-api#request_body
    	instance, err := structpb.NewValue(map[string]any{
    		"image": map[string]any{
    			// Image input can be provided either as a Google Cloud Storage URI or as
    			// base64-encoded bytes using the "bytesBase64Encoded" field.
    			"gcsUri": "gs://cloud-samples-data/vertex-ai/llm/prompts/landmark1.png",
    		},
    		"text": "Colosseum",
    	})
    	if err != nil {
    		return fmt.Errorf("failed to construct request payload: %w", err)
    	}
    
    	// TODO(developer): Try different dimenions: 128, 256, 512, 1408
    	outputDimensionality := 128
    	params, err := structpb.NewValue(map[string]any{
    		"dimension": outputDimensionality,
    	})
    	if err != nil {
    		return fmt.Errorf("failed to construct request params: %w", err)
    	}
    
    	req := &aiplatformpb.PredictRequest{
    		Endpoint: endpoint,
    		// The model supports only 1 instance per request.
    		Instances:  []*structpb.Value{instance},
    		Parameters: params,
    	}
    
    	resp, err := client.Predict(ctx, req)
    	if err != nil {
    		return fmt.Errorf("failed to generate embeddings: %w", err)
    	}
    
    	instanceEmbeddingsJson, err := protojson.Marshal(resp.GetPredictions()[0])
    	if err != nil {
    		return fmt.Errorf("failed to convert protobuf value to JSON: %w", err)
    	}
    	// For response schema, see:
    	// https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/multimodal-embeddings-api#response-body
    	var instanceEmbeddings struct {
    		ImageEmbeddings []float32 `json:"imageEmbedding"`
    		TextEmbeddings  []float32 `json:"textEmbedding"`
    	}
    	if err := json.Unmarshal(instanceEmbeddingsJson, &instanceEmbeddings); err != nil {
    		return fmt.Errorf("failed to unmarshal JSON: %w", err)
    	}
    
    	imageEmbedding := instanceEmbeddings.ImageEmbeddings
    	textEmbedding := instanceEmbeddings.TextEmbeddings
    
    	fmt.Fprintf(w, "Text embedding (length=%d): %v\n", len(textEmbedding), textEmbedding)
    	fmt.Fprintf(w, "Image embedding (length=%d): %v\n", len(imageEmbedding), imageEmbedding)
    	// Example response:
    	// Text Embedding (length=128): [0.27469793 -0.14625867 0.022280363 ... ]
    	// Image Embedding (length=128): [0.06225733 -0.040650766 0.02604402 ... ]
    
    	return nil
    }
    

    Inviare una richiesta di incorporamento (immagine e testo)

    Utilizza i seguenti esempi di codice per inviare una richiesta di incorporamento con dati di immagini e testo. Gli esempi mostrano come inviare una richiesta con entrambi i tipi di dati, ma puoi utilizzare il servizio anche con un singolo tipo di dati.

    Ottenere incorporamenti di testo e immagini

    REST

    Per ulteriori informazioni sulle richieste del modello multimodalembedding, consulta il riferimento API del modello multimodalembedding.

    Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

    • LOCATION: la regione del tuo progetto. Ad esempio, us-central1, europe-west2 o asia-northeast3. Per un elenco delle regioni disponibili, consulta Località dell'AI generativa su Vertex AI.
    • PROJECT_ID: il tuo Google Cloud ID progetto.
    • TEXT: Il testo di destinazione per cui ottenere gli incorporamenti. Ad esempio, a cat.
    • B64_ENCODED_IMG: L'immagine di destinazione per cui ottenere gli incorporamenti. L'immagine deve essere specificata come stringa di byte con codifica base64.

    Metodo HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict

    Corpo JSON della richiesta:

    {
      "instances": [
        {
          "text": "TEXT",
          "image": {
            "bytesBase64Encoded": "B64_ENCODED_IMG"
          }
        }
      ]
    }
    

    Per inviare la richiesta, scegli una di queste opzioni:

    curl

    Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict"

    PowerShell

    Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict" | Select-Object -Expand Content
    L'incorporamento restituito dal modello è un vettore float di 1408. La seguente risposta di esempio è abbreviata per motivi di spazio.
    {
      "predictions": [
        {
          "textEmbedding": [
            0.010477379,
            -0.00399621,
            0.00576670747,
            [...]
            -0.00823613815,
            -0.0169572588,
            -0.00472954148
          ],
          "imageEmbedding": [
            0.00262696808,
            -0.00198890246,
            0.0152047109,
            -0.0103145819,
            [...]
            0.0324628279,
            0.0284924973,
            0.011650892,
            -0.00452344026
          ]
        }
      ],
      "deployedModelId": "DEPLOYED_MODEL_ID"
    }
    

    Python

    Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.

    import vertexai
    from vertexai.vision_models import Image, MultiModalEmbeddingModel
    
    # TODO(developer): Update & uncomment line below
    # PROJECT_ID = "your-project-id"
    vertexai.init(project=PROJECT_ID, location="us-central1")
    
    model = MultiModalEmbeddingModel.from_pretrained("multimodalembedding@001")
    image = Image.load_from_file(
        "gs://cloud-samples-data/vertex-ai/llm/prompts/landmark1.png"
    )
    
    embeddings = model.get_embeddings(
        image=image,
        contextual_text="Colosseum",
        dimension=1408,
    )
    print(f"Image Embedding: {embeddings.image_embedding}")
    print(f"Text Embedding: {embeddings.text_embedding}")
    # Example response:
    # Image Embedding: [-0.0123147098, 0.0727171078, ...]
    # Text Embedding: [0.00230263756, 0.0278981831, ...]
    

    Node.js

    Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Node.js.

    Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.

    /**
     * TODO(developer): Uncomment these variables before running the sample.\
     * (Not necessary if passing values as arguments)
     */
    // const project = 'YOUR_PROJECT_ID';
    // const location = 'YOUR_PROJECT_LOCATION';
    // const baseImagePath = 'YOUR_BASE_IMAGE_PATH';
    // const textPrompt = 'YOUR_TEXT_PROMPT';
    const aiplatform = require('@google-cloud/aiplatform');
    
    // Imports the Google Cloud Prediction service client
    const {PredictionServiceClient} = aiplatform.v1;
    
    // Import the helper module for converting arbitrary protobuf.Value objects.
    const {helpers} = aiplatform;
    
    // Specifies the location of the api endpoint
    const clientOptions = {
      apiEndpoint: 'us-central1-aiplatform.googleapis.com',
    };
    const publisher = 'google';
    const model = 'multimodalembedding@001';
    
    // Instantiates a client
    const predictionServiceClient = new PredictionServiceClient(clientOptions);
    
    async function predictImageFromImageAndText() {
      // Configure the parent resource
      const endpoint = `projects/${project}/locations/${location}/publishers/${publisher}/models/${model}`;
    
      const fs = require('fs');
      const imageFile = fs.readFileSync(baseImagePath);
    
      // Convert the image data to a Buffer and base64 encode it.
      const encodedImage = Buffer.from(imageFile).toString('base64');
    
      const prompt = {
        text: textPrompt,
        image: {
          bytesBase64Encoded: encodedImage,
        },
      };
      const instanceValue = helpers.toValue(prompt);
      const instances = [instanceValue];
    
      const parameter = {
        sampleCount: 1,
      };
      const parameters = helpers.toValue(parameter);
    
      const request = {
        endpoint,
        instances,
        parameters,
      };
    
      // Predict request
      const [response] = await predictionServiceClient.predict(request);
      console.log('Get image embedding response');
      const predictions = response.predictions;
      console.log('\tPredictions :');
      for (const prediction of predictions) {
        console.log(`\t\tPrediction : ${JSON.stringify(prediction)}`);
      }
    }
    
    await predictImageFromImageAndText();

    Java

    Prima di provare questo esempio, segui le istruzioni di configurazione di Java nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Java.

    Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.

    
    import com.google.cloud.aiplatform.v1beta1.EndpointName;
    import com.google.cloud.aiplatform.v1beta1.PredictResponse;
    import com.google.cloud.aiplatform.v1beta1.PredictionServiceClient;
    import com.google.cloud.aiplatform.v1beta1.PredictionServiceSettings;
    import com.google.gson.Gson;
    import com.google.gson.JsonObject;
    import com.google.protobuf.InvalidProtocolBufferException;
    import com.google.protobuf.Value;
    import com.google.protobuf.util.JsonFormat;
    import java.io.IOException;
    import java.nio.charset.StandardCharsets;
    import java.nio.file.Files;
    import java.nio.file.Paths;
    import java.util.ArrayList;
    import java.util.Base64;
    import java.util.HashMap;
    import java.util.List;
    import java.util.Map;
    
    public class PredictImageFromImageAndTextSample {
    
      public static void main(String[] args) throws IOException {
        // TODO(developer): Replace this variable before running the sample.
        String project = "YOUR_PROJECT_ID";
        String textPrompt = "YOUR_TEXT_PROMPT";
        String baseImagePath = "YOUR_BASE_IMAGE_PATH";
    
        // Learn how to use text prompts to update an image:
        // https://cloud.google.com/vertex-ai/docs/generative-ai/image/edit-images
        Map<String, Object> parameters = new HashMap<String, Object>();
        parameters.put("sampleCount", 1);
    
        String location = "us-central1";
        String publisher = "google";
        String model = "multimodalembedding@001";
    
        predictImageFromImageAndText(
            project, location, publisher, model, textPrompt, baseImagePath, parameters);
      }
    
      // Update images using text prompts
      public static void predictImageFromImageAndText(
          String project,
          String location,
          String publisher,
          String model,
          String textPrompt,
          String baseImagePath,
          Map<String, Object> parameters)
          throws IOException {
        final String endpoint = String.format("%s-aiplatform.googleapis.com:443", location);
        final PredictionServiceSettings predictionServiceSettings =
            PredictionServiceSettings.newBuilder().setEndpoint(endpoint).build();
    
        // Initialize client that will be used to send requests. This client only needs to be created
        // once, and can be reused for multiple requests.
        try (PredictionServiceClient predictionServiceClient =
            PredictionServiceClient.create(predictionServiceSettings)) {
          final EndpointName endpointName =
              EndpointName.ofProjectLocationPublisherModelName(project, location, publisher, model);
    
          // Convert the image to Base64
          byte[] imageData = Base64.getEncoder().encode(Files.readAllBytes(Paths.get(baseImagePath)));
          String encodedImage = new String(imageData, StandardCharsets.UTF_8);
    
          JsonObject jsonInstance = new JsonObject();
          jsonInstance.addProperty("text", textPrompt);
          JsonObject jsonImage = new JsonObject();
          jsonImage.addProperty("bytesBase64Encoded", encodedImage);
          jsonInstance.add("image", jsonImage);
    
          Value instanceValue = stringToValue(jsonInstance.toString());
          List<Value> instances = new ArrayList<>();
          instances.add(instanceValue);
    
          Gson gson = new Gson();
          String gsonString = gson.toJson(parameters);
          Value parameterValue = stringToValue(gsonString);
    
          PredictResponse predictResponse =
              predictionServiceClient.predict(endpointName, instances, parameterValue);
          System.out.println("Predict Response");
          System.out.println(predictResponse);
          for (Value prediction : predictResponse.getPredictionsList()) {
            System.out.format("\tPrediction: %s\n", prediction);
          }
        }
      }
    
      // Convert a Json string to a protobuf.Value
      static Value stringToValue(String value) throws InvalidProtocolBufferException {
        Value.Builder builder = Value.newBuilder();
        JsonFormat.parser().merge(value, builder);
        return builder.build();
      }
    }

    Go

    Prima di provare questo esempio, segui le istruzioni di configurazione di Go nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Go.

    Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.

    import (
    	"context"
    	"encoding/json"
    	"fmt"
    	"io"
    
    	aiplatform "cloud.google.com/go/aiplatform/apiv1beta1"
    	aiplatformpb "cloud.google.com/go/aiplatform/apiv1beta1/aiplatformpb"
    	"google.golang.org/api/option"
    	"google.golang.org/protobuf/encoding/protojson"
    	"google.golang.org/protobuf/types/known/structpb"
    )
    
    // generateForTextAndImage shows how to use the multimodal model to generate embeddings for
    // text and image inputs.
    func generateForTextAndImage(w io.Writer, project, location string) error {
    	// location = "us-central1"
    	ctx := context.Background()
    	apiEndpoint := fmt.Sprintf("%s-aiplatform.googleapis.com:443", location)
    	client, err := aiplatform.NewPredictionClient(ctx, option.WithEndpoint(apiEndpoint))
    	if err != nil {
    		return fmt.Errorf("failed to construct API client: %w", err)
    	}
    	defer client.Close()
    
    	model := "multimodalembedding@001"
    	endpoint := fmt.Sprintf("projects/%s/locations/%s/publishers/google/models/%s", project, location, model)
    
    	// This is the input to the model's prediction call. For schema, see:
    	// https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/multimodal-embeddings-api#request_body
    	instance, err := structpb.NewValue(map[string]any{
    		"image": map[string]any{
    			// Image input can be provided either as a Google Cloud Storage URI or as
    			// base64-encoded bytes using the "bytesBase64Encoded" field.
    			"gcsUri": "gs://cloud-samples-data/vertex-ai/llm/prompts/landmark1.png",
    		},
    		"text": "Colosseum",
    	})
    	if err != nil {
    		return fmt.Errorf("failed to construct request payload: %w", err)
    	}
    
    	req := &aiplatformpb.PredictRequest{
    		Endpoint: endpoint,
    		// The model supports only 1 instance per request.
    		Instances: []*structpb.Value{instance},
    	}
    
    	resp, err := client.Predict(ctx, req)
    	if err != nil {
    		return fmt.Errorf("failed to generate embeddings: %w", err)
    	}
    
    	instanceEmbeddingsJson, err := protojson.Marshal(resp.GetPredictions()[0])
    	if err != nil {
    		return fmt.Errorf("failed to convert protobuf value to JSON: %w", err)
    	}
    	// For response schema, see:
    	// https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/multimodal-embeddings-api#response-body
    	var instanceEmbeddings struct {
    		ImageEmbeddings []float32 `json:"imageEmbedding"`
    		TextEmbeddings  []float32 `json:"textEmbedding"`
    	}
    	if err := json.Unmarshal(instanceEmbeddingsJson, &instanceEmbeddings); err != nil {
    		return fmt.Errorf("failed to unmarshal JSON: %w", err)
    	}
    
    	imageEmbedding := instanceEmbeddings.ImageEmbeddings
    	textEmbedding := instanceEmbeddings.TextEmbeddings
    
    	fmt.Fprintf(w, "Text embedding (length=%d): %v\n", len(textEmbedding), textEmbedding)
    	fmt.Fprintf(w, "Image embedding (length=%d): %v\n", len(imageEmbedding), imageEmbedding)
    	// Example response:
    	// Text embedding (length=1408): [0.0023026613 0.027898183 -0.011858357 ... ]
    	// Image embedding (length=1408): [-0.012314269 0.07271844 0.00020170923 ... ]
    
    	return nil
    }
    

    Inviare una richiesta di incorporamento (video, immagine o testo)

    Quando invii una richiesta di incorporamento, puoi specificare solo un video di input oppure una combinazione di dati video, immagine e testo.

    Modalità di incorporamento dei video

    Esistono tre modalità che puoi utilizzare con i video incorporati: Essenziale, Standard o Plus. La modalità corrisponde alla densità degli incorporamenti generati, che può essere specificata dalla configurazione interval_sec nella richiesta. Per ogni intervallo video con lunghezza interval_sec, viene generato un incorporamento. La durata minima dell'intervallo tra i video è di 4 secondi. Intervalli di durata superiore a 120 secondi potrebbero influire negativamente sulla qualità degli incorporamenti generati.

    Il prezzo per l'incorporamento dei video dipende dalla modalità utilizzata. Per ulteriori informazioni, consulta la sezione Prezzi.

    La seguente tabella riassume le tre modalità che puoi utilizzare per i video incorporati:

    Modalità Numero massimo di incorporamenti al minuto Intervallo di incorporamento video (valore minimo)
    Essential 4 15

    Corrisponde a: intervalSec >= 15
    Standard 8 8

    Corrisponde a: 8 <= intervalSec < 15
    Plus 15 4

    Corrisponde a: 4 <= intervalSec < 8

    Best practice per gli incorporamenti video

    Quando invii richieste di incorporamento di video, tieni presente quanto segue:

    • Per generare un singolo embedding per i primi due minuti di un video di input di qualsiasi durata, utilizza la seguente impostazione videoSegmentConfig:

      request.json:

      // other request body content
      "videoSegmentConfig": {
        "intervalSec": 120
      }
      // other request body content
      
    • Per generare l'incorporamento di un video con una durata superiore a due minuti, puoi inviare più richieste che specificano l'ora di inizio e di fine in videoSegmentConfig:

      request1.json:

      // other request body content
      "videoSegmentConfig": {
        "startOffsetSec": 0,
        "endOffsetSec": 120
      }
      // other request body content
      

      request2.json:

      // other request body content
      "videoSegmentConfig": {
        "startOffsetSec": 120,
        "endOffsetSec": 240
      }
      // other request body content
      

    Ottenere gli incorporamenti dei video

    Utilizza il seguente esempio per ottenere gli incorporamenti solo per i contenuti video.

    REST

    Per ulteriori informazioni sulle richieste del modello multimodalembedding, consulta il riferimento API del modello multimodalembedding.

    L'esempio seguente utilizza un video archiviato in Cloud Storage. Puoi anche utilizzare il campo video.bytesBase64Encoded per fornire una rappresentazione di stringa codificata in Base64 del video.

    Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

    • LOCATION: la regione del tuo progetto. Ad esempio, us-central1, europe-west2 o asia-northeast3. Per un elenco delle regioni disponibili, consulta Località dell'AI generativa su Vertex AI.
    • PROJECT_ID: il tuo Google Cloud ID progetto.
    • VIDEO_URI: l'URI Cloud Storage del video di destinazione per cui ottenere i contenuti incorporati. Ad esempio, gs://my-bucket/embeddings/supermarket-video.mp4.

      Puoi anche fornire il video come stringa di byte codificata in base64:

      [...]
      "video": {
        "bytesBase64Encoded": "B64_ENCODED_VIDEO"
      }
      [...]
      
    • videoSegmentConfig (START_SECOND, END_SECOND, INTERVAL_SECONDS). Facoltativo. I segmenti video specifici (in secondi) per cui vengono generati gli incorporamenti.

      Ad esempio:

      [...]
      "videoSegmentConfig": {
        "startOffsetSec": 10,
        "endOffsetSec": 60,
        "intervalSec": 10
      }
      [...]

      L'utilizzo di questa configurazione specifica i dati video da 10 a 60 secondi e genera incorporamenti per i seguenti intervalli video di 10 secondi: [10, 20), [20, 30), [30, 40), [40, 50), [50, 60). Questo intervallo video ("intervalSec": 10) rientra nella modalità di incorporamento video standard e all'utente viene addebitata la tariffa della modalità Standard.

      Se ometti videoSegmentConfig, il servizio utilizza i seguenti valori predefiniti: "videoSegmentConfig": { "startOffsetSec": 0, "endOffsetSec": 120, "intervalSec": 16 }. Questo intervallo video ("intervalSec": 16) rientra nella modalità di incorporamento video essenziale e all'utente viene addebitata la tariffa della modalità essenziale.

    Metodo HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict

    Corpo JSON della richiesta:

    {
      "instances": [
        {
          "video": {
            "gcsUri": "VIDEO_URI",
            "videoSegmentConfig": {
              "startOffsetSec": START_SECOND,
              "endOffsetSec": END_SECOND,
              "intervalSec": INTERVAL_SECONDS
            }
          }
        }
      ]
    }
    

    Per inviare la richiesta, scegli una di queste opzioni:

    curl

    Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict"

    PowerShell

    Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict" | Select-Object -Expand Content
    L'incorporamento restituito dal modello è un vettore float di 1408. Le seguenti risposte di esempio sono abbreviate per motivi di spazio.

    Risposta (video di 7 secondi, nessun videoSegmentConfig specificato):

    {
      "predictions": [
        {
          "videoEmbeddings": [
            {
              "endOffsetSec": 7,
              "embedding": [
                -0.0045467657,
                0.0258095954,
                0.0146885719,
                0.00945400633,
                [...]
                -0.0023291884,
                -0.00493789,
                0.00975185353,
                0.0168156829
              ],
              "startOffsetSec": 0
            }
          ]
        }
      ],
      "deployedModelId": "DEPLOYED_MODEL_ID"
    }

    Risposta (video di 59 secondi, con la seguente configurazione del segmento video: "videoSegmentConfig": { "startOffsetSec": 0, "endOffsetSec": 60, "intervalSec": 10 }):

    {
      "predictions": [
        {
          "videoEmbeddings": [
            {
              "endOffsetSec": 10,
              "startOffsetSec": 0,
              "embedding": [
                -0.00683252793,
                0.0390476175,
                [...]
                0.00657121744,
                0.013023301
              ]
            },
            {
              "startOffsetSec": 10,
              "endOffsetSec": 20,
              "embedding": [
                -0.0104404651,
                0.0357737206,
                [...]
                0.00509833824,
                0.0131902946
              ]
            },
            {
              "startOffsetSec": 20,
              "embedding": [
                -0.0113538112,
                0.0305239167,
                [...]
                -0.00195809244,
                0.00941874553
              ],
              "endOffsetSec": 30
            },
            {
              "embedding": [
                -0.00299320649,
                0.0322436653,
                [...]
                -0.00993082579,
                0.00968887936
              ],
              "startOffsetSec": 30,
              "endOffsetSec": 40
            },
            {
              "endOffsetSec": 50,
              "startOffsetSec": 40,
              "embedding": [
                -0.00591270532,
                0.0368893594,
                [...]
                -0.00219071587,
                0.0042470959
              ]
            },
            {
              "embedding": [
                -0.00458270218,
                0.0368121453,
                [...]
                -0.00317760976,
                0.00595594104
              ],
              "endOffsetSec": 59,
              "startOffsetSec": 50
            }
          ]
        }
      ],
      "deployedModelId": "DEPLOYED_MODEL_ID"
    }
    

    Python

    Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.

    import vertexai
    
    from vertexai.vision_models import MultiModalEmbeddingModel, Video
    from vertexai.vision_models import VideoSegmentConfig
    
    # TODO(developer): Update & uncomment line below
    # PROJECT_ID = "your-project-id"
    vertexai.init(project=PROJECT_ID, location="us-central1")
    
    model = MultiModalEmbeddingModel.from_pretrained("multimodalembedding@001")
    
    embeddings = model.get_embeddings(
        video=Video.load_from_file(
            "gs://cloud-samples-data/vertex-ai-vision/highway_vehicles.mp4"
        ),
        video_segment_config=VideoSegmentConfig(end_offset_sec=1),
    )
    
    # Video Embeddings are segmented based on the video_segment_config.
    print("Video Embeddings:")
    for video_embedding in embeddings.video_embeddings:
        print(
            f"Video Segment: {video_embedding.start_offset_sec} - {video_embedding.end_offset_sec}"
        )
        print(f"Embedding: {video_embedding.embedding}")
    
    # Example response:
    # Video Embeddings:
    # Video Segment: 0.0 - 1.0
    # Embedding: [-0.0206376351, 0.0123456789, ...]
    

    Go

    Prima di provare questo esempio, segui le istruzioni di configurazione di Go nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Go.

    Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.

    import (
    	"context"
    	"encoding/json"
    	"fmt"
    	"io"
    	"time"
    
    	aiplatform "cloud.google.com/go/aiplatform/apiv1beta1"
    	aiplatformpb "cloud.google.com/go/aiplatform/apiv1beta1/aiplatformpb"
    	"google.golang.org/api/option"
    	"google.golang.org/protobuf/encoding/protojson"
    	"google.golang.org/protobuf/types/known/structpb"
    )
    
    // generateForVideo shows how to use the multimodal model to generate embeddings for video input.
    func generateForVideo(w io.Writer, project, location string) error {
    	// location = "us-central1"
    
    	// The default context timeout may be not enough to process a video input.
    	ctx, cancel := context.WithTimeout(context.Background(), 15*time.Second)
    	defer cancel()
    
    	apiEndpoint := fmt.Sprintf("%s-aiplatform.googleapis.com:443", location)
    	client, err := aiplatform.NewPredictionClient(ctx, option.WithEndpoint(apiEndpoint))
    	if err != nil {
    		return fmt.Errorf("failed to construct API client: %w", err)
    	}
    	defer client.Close()
    
    	model := "multimodalembedding@001"
    	endpoint := fmt.Sprintf("projects/%s/locations/%s/publishers/google/models/%s", project, location, model)
    
    	// This is the input to the model's prediction call. For schema, see:
    	// https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/multimodal-embeddings-api#request_body
    	instances, err := structpb.NewValue(map[string]any{
    		"video": map[string]any{
    			// Video input can be provided either as a Google Cloud Storage URI or as base64-encoded
    			// bytes using the "bytesBase64Encoded" field.
    			"gcsUri": "gs://cloud-samples-data/vertex-ai-vision/highway_vehicles.mp4",
    			"videoSegmentConfig": map[string]any{
    				"startOffsetSec": 1,
    				"endOffsetSec":   5,
    			},
    		},
    	})
    	if err != nil {
    		return fmt.Errorf("failed to construct request payload: %w", err)
    	}
    
    	req := &aiplatformpb.PredictRequest{
    		Endpoint: endpoint,
    		// The model supports only 1 instance per request.
    		Instances: []*structpb.Value{instances},
    	}
    	resp, err := client.Predict(ctx, req)
    	if err != nil {
    		return fmt.Errorf("failed to generate embeddings: %w", err)
    	}
    
    	instanceEmbeddingsJson, err := protojson.Marshal(resp.GetPredictions()[0])
    	if err != nil {
    		return fmt.Errorf("failed to convert protobuf value to JSON: %w", err)
    	}
    	// For response schema, see:
    	// https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/multimodal-embeddings-api#response-body
    	var instanceEmbeddings struct {
    		VideoEmbeddings []struct {
    			Embedding      []float32 `json:"embedding"`
    			StartOffsetSec float64   `json:"startOffsetSec"`
    			EndOffsetSec   float64   `json:"endOffsetSec"`
    		} `json:"videoEmbeddings"`
    	}
    	if err := json.Unmarshal(instanceEmbeddingsJson, &instanceEmbeddings); err != nil {
    		return fmt.Errorf("failed to unmarshal json: %w", err)
    	}
    	// Get the embedding for our single video segment (`.videoEmbeddings` object has one entry per
    	// each processed segment).
    	videoEmbedding := instanceEmbeddings.VideoEmbeddings[0]
    
    	fmt.Fprintf(w, "Video embedding (seconds: %.f-%.f; length=%d): %v\n",
    		videoEmbedding.StartOffsetSec,
    		videoEmbedding.EndOffsetSec,
    		len(videoEmbedding.Embedding),
    		videoEmbedding.Embedding,
    	)
    	// Example response:
    	// Video embedding (seconds: 1-5; length=1408): [-0.016427778 0.032878537 -0.030755188 ... ]
    
    	return nil
    }
    

    Ottenere incorporamenti di immagini, testo e video

    Utilizza il seguente esempio per ottenere gli incorporamenti per i contenuti video, di testo e delle immagini.

    REST

    Per ulteriori informazioni sulle richieste del modello multimodalembedding, consulta il riferimento API del modello multimodalembedding.

    L'esempio seguente utilizza dati di immagine, testo e video. Puoi utilizzare qualsiasi combinazione di questi tipi di dati nel corpo della richiesta.

    Inoltre, questo esempio utilizza un video archiviato in Cloud Storage. Puoi anche utilizzare il campo video.bytesBase64Encoded per fornire una rappresentazione di stringa codificata in Base64 del video.

    Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

    • LOCATION: la regione del tuo progetto. Ad esempio, us-central1, europe-west2 o asia-northeast3. Per un elenco delle regioni disponibili, consulta Località dell'AI generativa su Vertex AI.
    • PROJECT_ID: il tuo Google Cloud ID progetto.
    • TEXT: Il testo di destinazione per cui ottenere gli incorporamenti. Ad esempio, a cat.
    • IMAGE_URI: l'URI Cloud Storage dell'immagine di destinazione per cui ottenere gli incorporamenti. Ad esempio, gs://my-bucket/embeddings/supermarket-img.png.

      Puoi anche fornire l'immagine come stringa di byte con codifica base64:

      [...]
      "image": {
        "bytesBase64Encoded": "B64_ENCODED_IMAGE"
      }
      [...]
      
    • VIDEO_URI: l'URI Cloud Storage del video di destinazione per cui ottenere i contenuti incorporati. Ad esempio, gs://my-bucket/embeddings/supermarket-video.mp4.

      Puoi anche fornire il video come stringa di byte codificata in base64:

      [...]
      "video": {
        "bytesBase64Encoded": "B64_ENCODED_VIDEO"
      }
      [...]
      
    • videoSegmentConfig (START_SECOND, END_SECOND, INTERVAL_SECONDS). Facoltativo. I segmenti video specifici (in secondi) per cui vengono generati gli incorporamenti.

      Ad esempio:

      [...]
      "videoSegmentConfig": {
        "startOffsetSec": 10,
        "endOffsetSec": 60,
        "intervalSec": 10
      }
      [...]

      L'utilizzo di questa configurazione specifica i dati video da 10 a 60 secondi e genera incorporamenti per i seguenti intervalli video di 10 secondi: [10, 20), [20, 30), [30, 40), [40, 50), [50, 60). Questo intervallo video ("intervalSec": 10) rientra nella modalità di incorporamento video standard e all'utente viene addebitata la tariffa della modalità Standard.

      Se ometti videoSegmentConfig, il servizio utilizza i seguenti valori predefiniti: "videoSegmentConfig": { "startOffsetSec": 0, "endOffsetSec": 120, "intervalSec": 16 }. Questo intervallo video ("intervalSec": 16) rientra nella modalità di incorporamento video essenziale e all'utente viene addebitata la tariffa della modalità essenziale.

    Metodo HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict

    Corpo JSON della richiesta:

    {
      "instances": [
        {
          "text": "TEXT",
          "image": {
            "gcsUri": "IMAGE_URI"
          },
          "video": {
            "gcsUri": "VIDEO_URI",
            "videoSegmentConfig": {
              "startOffsetSec": START_SECOND,
              "endOffsetSec": END_SECOND,
              "intervalSec": INTERVAL_SECONDS
            }
          }
        }
      ]
    }
    

    Per inviare la richiesta, scegli una di queste opzioni:

    curl

    Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict"

    PowerShell

    Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/multimodalembedding@001:predict" | Select-Object -Expand Content
    L'incorporamento restituito dal modello è un vettore float di 1408. La seguente risposta di esempio è abbreviata per motivi di spazio.
    {
      "predictions": [
        {
          "textEmbedding": [
            0.0105433334,
            -0.00302835181,
            0.00656806398,
            0.00603460241,
            [...]
            0.00445805816,
            0.0139605571,
            -0.00170318608,
            -0.00490092579
          ],
          "videoEmbeddings": [
            {
              "startOffsetSec": 0,
              "endOffsetSec": 7,
              "embedding": [
                -0.00673126569,
                0.0248149596,
                0.0128901172,
                0.0107588246,
                [...]
                -0.00180952181,
                -0.0054573305,
                0.0117037306,
                0.0169312079
              ]
            }
          ],
          "imageEmbedding": [
            -0.00728622358,
            0.031021487,
            -0.00206603738,
            0.0273937676,
            [...]
            -0.00204976718,
            0.00321615417,
            0.0121978866,
            0.0193375275
          ]
        }
      ],
      "deployedModelId": "DEPLOYED_MODEL_ID"
    }
    

    Python

    Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.

    import vertexai
    
    from vertexai.vision_models import Image, MultiModalEmbeddingModel, Video
    from vertexai.vision_models import VideoSegmentConfig
    
    # TODO(developer): Update & uncomment line below
    # PROJECT_ID = "your-project-id"
    vertexai.init(project=PROJECT_ID, location="us-central1")
    
    model = MultiModalEmbeddingModel.from_pretrained("multimodalembedding@001")
    
    image = Image.load_from_file(
        "gs://cloud-samples-data/vertex-ai/llm/prompts/landmark1.png"
    )
    video = Video.load_from_file(
        "gs://cloud-samples-data/vertex-ai-vision/highway_vehicles.mp4"
    )
    
    embeddings = model.get_embeddings(
        image=image,
        video=video,
        video_segment_config=VideoSegmentConfig(end_offset_sec=1),
        contextual_text="Cars on Highway",
    )
    
    print(f"Image Embedding: {embeddings.image_embedding}")
    
    # Video Embeddings are segmented based on the video_segment_config.
    print("Video Embeddings:")
    for video_embedding in embeddings.video_embeddings:
        print(
            f"Video Segment: {video_embedding.start_offset_sec} - {video_embedding.end_offset_sec}"
        )
        print(f"Embedding: {video_embedding.embedding}")
    
    print(f"Text Embedding: {embeddings.text_embedding}")
    # Example response:
    # Image Embedding: [-0.0123144267, 0.0727186054, 0.000201397663, ...]
    # Video Embeddings:
    # Video Segment: 0.0 - 1.0
    # Embedding: [-0.0206376351, 0.0345234685, ...]
    # Text Embedding: [-0.0207006838, -0.00251058186, ...]
    

    Go

    Prima di provare questo esempio, segui le istruzioni di configurazione di Go nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Go.

    Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.

    import (
    	"context"
    	"encoding/json"
    	"fmt"
    	"io"
    	"time"
    
    	aiplatform "cloud.google.com/go/aiplatform/apiv1beta1"
    	aiplatformpb "cloud.google.com/go/aiplatform/apiv1beta1/aiplatformpb"
    	"google.golang.org/api/option"
    	"google.golang.org/protobuf/encoding/protojson"
    	"google.golang.org/protobuf/types/known/structpb"
    )
    
    // generateForImageTextAndVideo shows how to use the multimodal model to generate embeddings for
    // image, text and video data.
    func generateForImageTextAndVideo(w io.Writer, project, location string) error {
    	// location = "us-central1"
    
    	// The default context timeout may be not enough to process a video input.
    	ctx, cancel := context.WithTimeout(context.Background(), 15*time.Second)
    	defer cancel()
    
    	apiEndpoint := fmt.Sprintf("%s-aiplatform.googleapis.com:443", location)
    	client, err := aiplatform.NewPredictionClient(ctx, option.WithEndpoint(apiEndpoint))
    	if err != nil {
    		return fmt.Errorf("failed to construct API client: %w", err)
    	}
    	defer client.Close()
    
    	model := "multimodalembedding@001"
    	endpoint := fmt.Sprintf("projects/%s/locations/%s/publishers/google/models/%s", project, location, model)
    
    	// This is the input to the model's prediction call. For schema, see:
    	// https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/multimodal-embeddings-api#request_body
    	instance, err := structpb.NewValue(map[string]any{
    		"text": "Domestic cats in natural conditions",
    		"image": map[string]any{
    			// Image and video inputs can be provided either as a Google Cloud Storage URI or as
    			// base64-encoded bytes using the "bytesBase64Encoded" field.
    			"gcsUri": "gs://cloud-samples-data/generative-ai/image/320px-Felis_catus-cat_on_snow.jpg",
    		},
    		"video": map[string]any{
    			"gcsUri": "gs://cloud-samples-data/video/cat.mp4",
    		},
    	})
    	if err != nil {
    		return fmt.Errorf("failed to construct request payload: %w", err)
    	}
    
    	req := &aiplatformpb.PredictRequest{
    		Endpoint: endpoint,
    		// The model supports only 1 instance per request.
    		Instances: []*structpb.Value{instance},
    	}
    
    	resp, err := client.Predict(ctx, req)
    	if err != nil {
    		return fmt.Errorf("failed to generate embeddings: %w", err)
    	}
    
    	instanceEmbeddingsJson, err := protojson.Marshal(resp.GetPredictions()[0])
    	if err != nil {
    		return fmt.Errorf("failed to convert protobuf value to JSON: %w", err)
    	}
    	// For response schema, see:
    	// https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/multimodal-embeddings-api#response-body
    	var instanceEmbeddings struct {
    		ImageEmbeddings []float32 `json:"imageEmbedding"`
    		TextEmbeddings  []float32 `json:"textEmbedding"`
    		VideoEmbeddings []struct {
    			Embedding      []float32 `json:"embedding"`
    			StartOffsetSec float64   `json:"startOffsetSec"`
    			EndOffsetSec   float64   `json:"endOffsetSec"`
    		} `json:"videoEmbeddings"`
    	}
    	if err := json.Unmarshal(instanceEmbeddingsJson, &instanceEmbeddings); err != nil {
    		return fmt.Errorf("failed to unmarshal JSON: %w", err)
    	}
    
    	imageEmbedding := instanceEmbeddings.ImageEmbeddings
    	textEmbedding := instanceEmbeddings.TextEmbeddings
    	// Get the embedding for our single video segment (`.videoEmbeddings` object has one entry per
    	// each processed segment).
    	videoEmbedding := instanceEmbeddings.VideoEmbeddings[0].Embedding
    
    	fmt.Fprintf(w, "Image embedding (length=%d): %v\n", len(imageEmbedding), imageEmbedding)
    	fmt.Fprintf(w, "Text embedding (length=%d): %v\n", len(textEmbedding), textEmbedding)
    	fmt.Fprintf(w, "Video embedding (length=%d): %v\n", len(videoEmbedding), videoEmbedding)
    	// Example response:
    	// Image embedding (length=1408): [-0.01558477 0.0258355 0.016342038 ... ]
    	// Text embedding (length=1408): [-0.005894961 0.008349559 0.015355394 ... ]
    	// Video embedding (length=1408): [-0.018867437 0.013997682 0.0012682161 ... ]
    
    	return nil
    }
    

    Passaggi successivi