API Vertex AI per creare esperienze di ricerca e RAG

Vertex AI offre una suite di API per aiutarti a creare le tue applicazioni di Retrieval-Augmented Generation (RAG) o il tuo motore di ricerca. Questa pagina introduce queste API.

Recupero e generazione

La RAG è una metodologia che consente ai modelli linguistici di grandi dimensioni (LLM) di generare risposte basate sull'origine dati che preferisci. Il RAG prevede due fasi:

  1. Rievocazione: trovare rapidamente i fatti più pertinenti può essere un problema comune della ricerca. Con la RAG, puoi recuperare rapidamente i fatti importanti per generare una risposta.
  2. Generare: i fatti recuperati vengono utilizzati dall'LLM per generare una risposta fondata.

Vertex AI offre opzioni per entrambe le fasi per soddisfare una serie di esigenze degli sviluppatori.

Le opzioni di recupero includono Vertex AI, la creazione di un tuo retriever, LlamaIndex su Vertex AI, l'utilizzo di un tuo retriever e la Ricerca Google. Le opzioni di generazione includono l'API Grounded Generation e Gemini.

Recupero

Scegli il metodo di recupero più adatto alle tue esigenze:

  • Vertex AI Search: Vertex AI Search è un motore di recupero delle informazioni di qualità pari alla Ricerca Google e può essere un componente di qualsiasi applicazione di IA generativa che utilizza i dati aziendali. Vertex AI Search funziona come un motore di ricerca semantico e per parole chiave pronto all'uso per il RAG, con la possibilità di elaborare diversi tipi di documenti e con connettori a vari sistemi di origine, tra cui BigQuery e molti sistemi di terze parti.

    Per ulteriori informazioni, consulta Vertex AI Search.

  • Crea il tuo recupero:se vuoi creare la tua ricerca semantica, puoi affidarti alle API Vertex AI per i componenti del tuo sistema RAG personalizzato. Questa suite di API fornisce implementazioni di alta qualità per la analisi sintattica dei documenti, la generazione di rappresentazioni, la ricerca vettoriale e il ranking semantico. L'utilizzo di queste API di basso livello ti offre piena flessibilità nella progettazione del tuo retriever, offrendo al contempo un time to market accelerato e un'elevata qualità grazie alle API Vertex AI di basso livello.

    Per ulteriori informazioni, consulta Creare la tua generazione di annunci basata sul recupero.

  • Importa un recupero esistente:puoi utilizzare la tua ricerca esistente come recupero per la generazione basata su dati. Puoi anche utilizzare le API Vertex per RAG per eseguire l'upgrade della tua ricerca esistente a una qualità superiore.

  • LlamaIndex su Vertex AI:LlamaIndex su Vertex AI consente agli sviluppatori che hanno familiarità con questo popolare framework di software open source (OSS) di creare retriever da utilizzare in produzione e in un contesto adatto alle aziende.

    Per ulteriori informazioni, consulta la panoramica di LlamaIndex su Vertex AI per RAG nella documentazione dell'IA generativa su Vertex AI.

  • Ricerca Google: quando utilizzi il Grounding con la Ricerca Google per il tuo modello Gemini, Gemini utilizza la Ricerca Google e genera un output basato sui risultati di ricerca pertinenti. Questo metodo di recupero non richiede gestione e ti consente di avere a disposizione le conoscenze di tutto il mondo per Gemini.

    Per ulteriori informazioni, consulta Grounding con la ricerca Google nella documentazione sull'IA generativa su Vertex AI.

Generazione

Scegli il metodo di generazione più adatto alle tue esigenze:

  • API di generazione basata su dati (GA con lista consentita): utilizza l'API di generazione basata su dati per generare risposte ben fondate alla query di un utente. Questa API utilizza un modello Gemini specializzato e ottimizzato ed è un modo efficace per ridurre le allucinazioni e fornire risposte basate sulle tue fonti, su fonti di terze parti o sulla Ricerca Google, inclusi i riferimenti ai contenuti di supporto per l'orientamento.

    Per ulteriori informazioni, consulta Generare risposte basate su dati.

  • Gemini: Gemini è il modello più avanzato di Google e offre una base di partenza pronta all'uso con la Ricerca Google. Puoi utilizzarla per creare la tua soluzione di generazione basata su dati completamente personalizzata.

    Per ulteriori informazioni, consulta Grounding con la Ricerca Google nella documentazione sull'IA generativa su Vertex AI.

  • Model Garden: se vuoi il pieno controllo e il modello che preferisci, puoi utilizzare uno dei modelli disponibili in Model Garden di Vertex AI per la generazione.

Creare la tua Retrieval Augmented Generation

Lo sviluppo di un sistema RAG personalizzato per la definizione del contesto offre flessibilità e controllo in ogni fase del processo. Vertex AI offre una suite di API per aiutarti a creare le tue soluzioni di ricerca. L'utilizzo di queste API ti offre piena flessibilità per il design della tua applicazione RAG, offrendo al contempo un time to market accelerato e un'alta qualità grazie a queste API Vertex AI di livello inferiore.

Vertex AI offre API per l'elaborazione e l'annotazione, l'incorporamento, l'indicizzazione e il recupero, il ranking, la generazione basata su dati e la convalida.

  • Document AI Layout Parser. Lo strumento di analisi del layout di Document AI trasforma i documenti in vari formati in rappresentazioni strutturate, rendendo accessibili contenuti come paragrafi, tabelle, elenchi ed elementi strutturali come intestazioni, intestazioni di pagina e piè di pagina e creando blocchi sensibili al contesto che facilitano il recupero di informazioni in una serie di app di scoperta e IA generativa.

    Per ulteriori informazioni, consulta Document AI Layout Parser nella documentazione di Document AI.

  • API Embeddings: le API Vertex AI Embeddings ti consentono di creare embedding per input di testo o multimodali. Gli incorporamenti sono vettori di numeri a virgola mobile progettati per cogliere il significato del loro input. Puoi utilizzare gli embedding per potenziare la ricerca semantica utilizzando la ricerca vettoriale.

    Per ulteriori informazioni, consulta Embedding di testo e Embedding multimodali nella documentazione sull'IA generativa su Vertex AI.

  • Ricerca vettoriale. Il motore di recupero è un componente chiave della tua applicazione di ricerca o RAG. Vertex AI Vector Search è un motore di recupero che può eseguire ricerche su miliardi di elementi semanticamente simili o correlati su larga scala, con un elevato numero di query al secondo (QPS), un elevato recupero, bassa latenza ed efficienza in termini di costi. Può eseguire ricerche su embedding densi e supporta la ricerca di parole chiave con embedding sparsi e la ricerca ibrida in Anteprima pubblica.

    Per ulteriori informazioni, consulta la Panoramica di Vertex AI Vector Search nella documentazione di Vertex AI.

  • L'API di ranking. L'API di ranking riceve un elenco di documenti e li riassegna in base alla pertinenza per una determinata query. Rispetto agli embedding che si basano esclusivamente sulla somiglianza semantica di un documento e di una query, l'API di ranking può fornire un punteggio più preciso sul grado di pertinenza di un documento a una determinata query.

    Per ulteriori informazioni, consulta Classificare e riclasificare i documenti.

  • L'API di generazione basata su dati. Utilizza l'API di generazione basata su dati per generare risposte ben fondate al prompt di un utente. Le origini di grounding possono essere i datastore di Vertex AI Search, i dati personalizzati che fornisci o la Ricerca Google.

    Per ulteriori informazioni, consulta Generare risposte basate su dati.

  • L'API di verifica dell'impianto di messa a terra. L'API di verifica dell'approfondimento determina quanto sia fondato un determinato testo in un determinato insieme di testi di riferimento. L'API può generare citazioni a supporto dal testo di riferimento per indicare dove il testo specificato è supportato dai testi di riferimento. L'API può essere utilizzata, tra le altre cose, per valutare la fondatezza delle risposte di un sistema RAG. Inoltre, come funzionalità sperimentale, l'API genera anche citazioni contraddittorie che mostrano dove il testo specificato e i testi di riferimento non sono d'accordo.

    Per ulteriori informazioni, vedi Verificare la messa a terra.

Flusso di lavoro: genera risposte basate su dati non strutturati

Ecco un flusso di lavoro che illustra come integrare le API RAG di Vertex AI per generare risposte basate su dati non strutturati.

  1. Importa i documenti non strutturati, ad esempio file PDF, file HTML o immagini con testo, in una posizione Cloud Storage.
  2. Elabora i documenti importati utilizzando l'analizzatore sintattico del layout. L'analizzatore del layout suddivide i documenti non strutturati in blocchi e trasforma i contenuti non strutturati nella relativa rappresentazione strutturata. Il parser del layout estrae anche le annotazioni dai chunk.
  3. Crea embedding di testo per i chunk utilizzando l'API Vertex AI Embedding di testo.
  4. Indicizza e recupera gli embedding dei chunk utilizzando Ricerca vettoriale.
  5. Classifica i chunk utilizzando l'API di ranking e determina i chunk con il ranking più alto.
  6. Genera risposte fondate in base ai chunk con il ranking più alto utilizzando l'API di generazione fondata.

Se hai generato le risposte utilizzando un modello di generazione delle risposte diverso dai modelli di Google, puoi verificare l'attendibilità di queste risposte utilizzando il metodo di verifica dell'attendibilità.