API Vertex AI per creare esperienze di ricerca e RAG

Vertex AI offre una suite di API per aiutarti a creare le tue applicazioni di Retrieval- Augmented Generation (RAG) o il tuo motore di ricerca. Questa pagina introduce queste API.

Recupero e generazione

La RAG è una metodologia che consente ai modelli linguistici di grandi dimensioni (LLM) di generare risposte basate sull'origine dati che preferisci. Esistono due fasi in RAG:

  1. Recupero: ottenere rapidamente i fatti più pertinenti può essere un problema comune di ricerca. Con RAG, puoi recuperare rapidamente i fatti importanti per generare una risposta.
  2. Generazione:i fatti recuperati vengono utilizzati dall'LLM per generare una risposta fondata.

Vertex AI offre opzioni per entrambe le fasi per soddisfare una serie di esigenze degli sviluppatori.

Recupero

Scegli il metodo di recupero più adatto alle tue esigenze:

  • Vertex AI Search: Vertex AI Search è un motore di recupero delle informazioni di qualità pari alla Ricerca Google che può essere un componente di qualsiasi applicazione di AI generativa che utilizza i dati aziendali. Vertex AI Search funziona come un motore di ricerca semantico e per parole chiave pronto all'uso per RAG, con la possibilità di elaborare una varietà di tipi di documenti e con connettori a una varietà di sistemi di origine, tra cui BigQuery e molti sistemi di terze parti.

    Per ulteriori informazioni, consulta Vertex AI Search.

  • Crea il tuo recupero: se vuoi creare la tua ricerca semantica, puoi fare affidamento sulle API Vertex AI per i componenti del tuo sistema RAG personalizzato. Questa suite di API fornisce implementazioni di alta qualità per l'analisi dei documenti, la generazione di incorporamenti, la ricerca vettoriale e il ranking semantico. L'utilizzo di queste API di livello inferiore ti offre la massima flessibilità nella progettazione del tuo retriever e allo stesso tempo offre un time to market più rapido e un'alta qualità basandosi sulle API Vertex AI di livello inferiore.

    Per saperne di più, vedi Crea la tua generazione aumentata dal recupero.

  • Importa un recupero esistente: puoi utilizzare la ricerca esistente come recupero per la generazione fondata. Puoi anche utilizzare le API Vertex per RAG per eseguire l'upgrade della ricerca esistente a una qualità superiore. Per ulteriori informazioni, consulta la panoramica sull'ancoraggio.

  • Vertex AI RAG Engine: Vertex AI RAG Engine fornisce un runtime completamente gestito per l'orchestrazione RAG, che consente agli sviluppatori di creare RAG da utilizzare in contesti di produzione e di livello enterprise.

    Per ulteriori informazioni, consulta la panoramica del motore RAG di Vertex AI nella documentazione di Generative AI su Vertex AI.

  • Ricerca Google: quando utilizzi Grounding con la Ricerca Google per il tuo modello Gemini, Gemini utilizza la Ricerca Google e genera un output basato sui risultati di ricerca pertinenti. Questo metodo di recupero non richiede la gestione e ti consente di accedere alle conoscenze mondiali disponibili per Gemini.

    Per saperne di più, consulta Grounding con la Ricerca Google nella documentazione dell'AI generativa su Vertex AI.

Generazione

Scegli il metodo di generazione più adatto alle tue esigenze:

  • Basati sui tuoi dati: genera risposte ben fondate alla query di un utente. L'API grounded generation utilizza modelli Gemini specializzati e ottimizzati ed è un modo efficace per ridurre le allucinazioni e fornire risposte basate sulle tue fonti o su fonti di terze parti, inclusi riferimenti a contenuti di assistenza per la fondatezza.

    Per saperne di più, consulta Generare risposte basate su dati reali con RAG.

    Puoi anche basare le risposte sui dati di Vertex AI Search utilizzando l'AI generativa su Vertex AI. Per ulteriori informazioni, vedi Motivare le decisioni con i dati.

  • Fondamento con la Ricerca Google: Gemini è il modello più avanzato di Google e offre un fondamento predefinito con la Ricerca Google. Puoi utilizzarlo per creare la tua soluzione di generazione basata su dati reali completamente personalizzata.

    Per ulteriori informazioni, consulta Grounding con la Ricerca Google nella documentazione di Generative AI su Vertex AI.

  • Model Garden: se vuoi il pieno controllo e il modello che preferisci, puoi utilizzare uno qualsiasi dei modelli in Vertex AI Model Garden per la generazione.

Crea la tua Retrieval Augmented Generation

Lo sviluppo di un sistema RAG personalizzato per la fondatezza offre flessibilità e controllo in ogni fase del processo. Vertex AI offre una suite di API per aiutarti a creare le tue soluzioni di ricerca. L'utilizzo di queste API ti offre la massima flessibilità nella progettazione della tua applicazione RAG, offrendo al contempo un time to market più rapido e un'alta qualità grazie all'utilizzo di queste API Vertex AI di livello inferiore.

  • Il parser del layout di Document AI. Il parser del layout di Document AI trasforma i documenti in vari formati in rappresentazioni strutturate, rendendo accessibili contenuti come paragrafi, tabelle, elenchi ed elementi strutturali come intestazioni, intestazioni di pagina e piè di pagina e creando blocchi sensibili al contesto che facilitano il recupero di informazioni in una gamma di app di AI generativa e di scoperta.

    Per saperne di più, consulta Document AI Layout Parser nella documentazione di Document AI.

  • API Embeddings:le API Vertex AI Embeddings consentono di creare embedding per input di testo o multimodali. Gli incorporamenti sono vettori di numeri in virgola mobile progettati per acquisire il significato del loro input. Puoi utilizzare gli embedding per eseguire la ricerca semantica utilizzando la ricerca vettoriale.

    Per ulteriori informazioni, consulta Text embedding e Embedding multimodali nella documentazione di AI generativa su Vertex AI.

  • Vector Search. Il motore di recupero è una parte fondamentale dell'applicazione RAG o di ricerca. Vertex AI Vector Search è un motore di recupero in grado di eseguire ricerche tra miliardi di elementi semanticamente simili o semanticamente correlati su larga scala, con un numero elevato di query al secondo (QPS), un richiamo elevato, una bassa latenza e un buon rapporto costi-efficacia. Può eseguire ricerche su incorporamenti densi e supporta la ricerca di parole chiave con incorporamento sparso e la ricerca ibrida nell'anteprima pubblica.

    Per ulteriori informazioni, consulta la panoramica di Vertex AI Vector Search nella documentazione di Vertex AI.

  • L'API di ranking. L'API di ranking accetta un elenco di documenti e li riordina in base alla loro pertinenza per una determinata query. Rispetto agli incorporamenti che esaminano puramente la somiglianza semantica di un documento e di una query, l'API Ranking può fornire un punteggio più preciso di quanto un documento risponda a una determinata query.

    Per saperne di più, consulta la pagina Migliorare la qualità della ricerca e della RAG con l'API di ranking.

  • L'API di generazione fondata. Utilizza l'API di generazione basata su dati reali per generare risposte ben fondate al prompt di un utente. Le fonti di fondatezza possono essere i tuoi datastore Vertex AI Search, dati personalizzati forniti da te o la Ricerca Google.

    Per maggiori informazioni, consulta Generare risposte basate su dati reali.

  • L'API per la generazione di contenuti. Utilizza l'API Genera contenuti per generare risposte ben fondate al prompt di un utente. Le fonti di grounding possono essere i tuoi datastore di Vertex AI Search o la Ricerca Google.

    Per ulteriori informazioni, vedi Ground con la Ricerca Google o Ground con i tuoi dati.

  • L'API di controllo della fondatezza. L'API di controllo del grounding determina il livello di grounding di un determinato testo in un determinato insieme di testi di riferimento. L'API può generare citazioni di supporto dal testo di riferimento per indicare dove il testo fornito è supportato dai testi di riferimento. Tra le altre cose, l'API può essere utilizzata per valutare la fondatezza delle risposte di un sistema RAG. Inoltre, come funzionalità sperimentale, l'API genera anche citazioni contraddittorie che mostrano i punti di disaccordo tra il testo dato e i testi di riferimento.

    Per ulteriori informazioni, consulta Verifica la messa a terra.

Flusso di lavoro: genera risposte basate su dati non strutturati

Ecco un flusso di lavoro che descrive come integrare le API RAG di Vertex AI per generare risposte fondate su dati non strutturati.

  1. Importa i tuoi documenti non strutturati, come file PDF, file HTML o immagini con testo, in una posizione Cloud Storage.
  2. Elabora i documenti importati utilizzando il parser di layout. Il parser del layout suddivide i documenti non strutturati in blocchi e trasforma i contenuti non strutturati nella loro rappresentazione strutturata. Il parser del layout estrae anche le annotazioni dai blocchi.
  3. Crea embedding di testo per i chunk utilizzando l'API Vertex AI text embeddings.
  4. Indicizza e recupera gli embedding dei chunk utilizzando la ricerca vettoriale.
  5. Classifica i chunk utilizzando l'API di classificazione e determina i chunk con il ranking più alto.
  6. Genera risposte basate sui chunk con il ranking più alto utilizzando l'API Grounded Generation o l'API Generate Content.

Se hai generato le risposte utilizzando un modello di generazione di risposte diverso dai modelli Google, puoi controllare la fondatezza di queste risposte utilizzando il metodo di controllo della fondatezza.