Panoramica delle API Embeddings

Gli embedding sono rappresentazioni numeriche di testo, immagini o video che rilevano le relazioni tra gli input. I modelli di machine learning, in particolare quelli di AI generativa, sono adatti per creare embedding identificando pattern all'interno di set di dati di grandi dimensioni. Le applicazioni possono utilizzare gli embedding per elaborare e produrre linguaggio, riconoscendo significati complessi e relazioni semantiche specifiche per i tuoi contenuti. Interagisci con gli embedding ogni volta che completi una ricerca su Google o visualizzi consigli di streaming di musica.

Gli incorporamenti funzionano convertendo testo, immagini e video in array di numeri con virgola mobile, chiamati vettori. Questi vettori sono progettati per cogliere il significato del testo, delle immagini e dei video. La lunghezza dell'array di embedding è chiamata dimensionalità del vettore. Ad esempio, un passaggio di testo potrebbe essere rappresentato da un vettore contenente centinaia di dimensioni. Poi, calcolando la distanza numerica tra le rappresentazioni vettoriali di due testi, un'applicazione può determinare la somiglianza tra gli oggetti.

Vertex AI supporta due tipi di modelli di embedding: di testo e multimodali.

Casi d'uso degli incorporamenti di testo

Ecco alcuni casi d'uso comuni per gli embedding di testo:

  • Ricerca semantica: il testo di ricerca viene classificato in base alla somiglianza semantica.
  • Classificazione: restituisce la classe degli elementi i cui attributi di testo sono simili al testo specificato.
  • Clustering: raggruppa gli elementi i cui attributi di testo sono simili al testo specificato.
  • Rilevamento di valori anomali: restituisce gli elementi in cui gli attributi di testo sono meno correlati al testo specificato.
  • Interfaccia di conversazione: raggruppa in cluster gruppi di frasi che possono portare a risposte simili, ad esempio in uno spazio di embedding a livello di conversazione.

Caso d'uso di esempio: sviluppo di un chatbot per consigli sui libri

Se vuoi sviluppare un chatbot per consigli sui libri, la prima cosa da fare è utilizzare una rete neurale profonda (DNN) per convertire ogni libro in un vettore di embedding, dove un vettore di embedding rappresenta un libro. Puoi fornire come input al DNN solo il titolo del libro o solo il contenuto del testo. In alternativa, puoi utilizzare entrambi, insieme a qualsiasi altro metadato che descriva il libro, ad esempio il genere.

Gli embedding in questo esempio potrebbero essere costituiti da migliaia di titoli di libri con i relativi riepiloghi e generi e potrebbero avere rappresentazioni di libri come Wuthering Heights di Emily Brontë e Persuasion di Jane Austen che sono simili tra loro (piccola distanza tra la rappresentazione numerica). Invece, la rappresentazione numerica del libro Il grande Gatsby di F. Scott Fitzgerald sarebbe più lontano, in quanto il periodo di tempo, il genere e il riepilogo sono meno simili.

Gli input sono l'influenza principale sull'orientamento dello spazio di embedding. Ad esempio, se avessimo solo input del titolo del libro, due libri con titoli simili, ma con riepiloghi molto diversi, potrebbero essere vicini. Tuttavia, se includiamo il titolo e il riepilogo, questi stessi libri sono meno simili (più lontani) nello spazio di incorporamento.

Grazie all'AI generativa, questo chatbot di suggerimenti di libri può riassumere, suggerire e mostrare libri che potrebbero piacerti (o meno), in base alla tua query.

Casi d'uso degli embedding multimodali

Ecco alcuni casi d'uso comuni per gli embedding multimodali:

  • Casi d'uso di testo e immagini:

    • Classificazione delle immagini: prende un'immagine come input e prevede una o più classi (etichette).
    • Ricerca di immagini: cerca immagini pertinenti o simili.
    • Consigli: genera consigli sui prodotti o sugli annunci in base alle immagini.
  • Casi d'uso di immagini, testo e video:

    • Consigli: genera consigli di prodotti o annunci basati su video (ricerca di similarità).
    • Ricerca di contenuti video
    • Utilizzo della ricerca semantica: prendi un testo come input e restituisci un insieme di frame classificati corrispondenti alla query.
    • Utilizzare la ricerca di immagini simili:
      • Prende un video come input e restituisce un insieme di video corrispondenti alla query.
      • Riceve un'immagine come input e restituisce un insieme di video corrispondenti alla query.
    • Classificazione dei video: prende un video come input e prevede una o più classi.

Caso d'uso di esempio: esperienza di vendita al dettaglio online

I rivenditori online stanno sempre più sfruttando gli embedding multimodali per migliorare l'esperienza dei clienti. Ogni volta che vedi consigli sui prodotti personalizzati mentre fai acquisti e ricevi risultati visivi da una ricerca di testo, interagisci con un'incorporazione.

Se vuoi creare un embedding multimodale per un caso d'uso di vendita al dettaglio online, inizia elaborando ogni immagine prodotto per generare un embedding immagine univoco, che è una rappresentazione matematica del suo stile visivo, della tavolozza dei colori, dei dettagli chiave e altro ancora. Contemporaneamente, converti le descrizioni dei prodotti, le recensioni dei clienti e altri dati di testo pertinenti in embedding di testo che ne acquisiscono il significato e il contesto semantico. Unendo questi incorporamenti di immagini e testo in un motore di ricerca e consigli unificato, il negozio può offrire consigli personalizzati di articoli visivamente simili in base alla cronologia di navigazione e alle preferenze di un cliente. Inoltre, consente ai clienti di cercare i prodotti utilizzando descrizioni in linguaggio naturale, con il motore che recupera e mostra gli articoli più simili visivamente che corrispondono alla loro query di ricerca. Ad esempio, se un cliente cerca "Abito estivo nero", il motore di ricerca può mostrare abiti neri, con taglio estivo, realizzati in materiale più leggero e senza maniche. Questa potente combinazione di comprensione visiva e testuale crea un'esperienza di acquisto semplificata che migliora il coinvolgimento e la soddisfazione dei clienti e, in ultima analisi, può aumentare le vendite.

Passaggi successivi