APIs da Vertex AI para criar experiências de pesquisa e RAG
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
A Vertex AI oferece um pacote de APIs para ajudar você a criar aplicativos de geração aumentada de recuperação (RAG) ou um mecanismo de pesquisa. Esta página apresenta essas APIs.
Recuperação e geração
A RAG é uma metodologia que permite que modelos de linguagem grandes (LLMs) gerem respostas embasadas na fonte de dados escolhida. Há duas etapas no RAG:
Recuperação: encontrar os fatos mais relevantes rapidamente pode ser um problema comum de pesquisa. Com a RAG, você pode recuperar rapidamente os fatos importantes para gerar uma resposta.
Geração:os fatos recuperados são usados pelo LLM para gerar uma resposta fundamentada.
A Vertex AI oferece opções para as duas etapas, atendendo a várias necessidades dos desenvolvedores.
Recuperação
Escolha o melhor método de recuperação para suas necessidades:
Vertex AI para Pesquisa:é um mecanismo de recuperação de informações com a qualidade da Pesquisa Google que pode ser um componente de qualquer aplicativo de IA generativa que usa dados corporativos.
A Vertex AI para Pesquisa funciona como um mecanismo de pesquisa semântica e de palavras-chave pronto para uso para RAG, com capacidade de processar vários tipos de documentos e conectores para diversos sistemas de origem, incluindo BigQuery e muitos sistemas de terceiros.
Crie sua própria recuperação:se quiser criar sua pesquisa semântica, você pode usar as APIs da Vertex AI para componentes do seu sistema RAG personalizado. Esse conjunto de APIs oferece implementações de alta qualidade para análise de documentos, geração de embeddings, pesquisa de vetores e classificação semântica. Usar essas APIs de nível inferior oferece flexibilidade total no design do extrator e, ao mesmo tempo, acelera o tempo de lançamento no mercado e oferece alta qualidade ao depender das APIs de nível inferior da Vertex AI.
Usar uma recuperação atual: você pode usar sua pesquisa atual como um
recuperador para geração embasada.
Você também pode usar as APIs da Vertex para RAG
e melhorar a qualidade da sua pesquisa atual. Para mais informações, consulte Visão geral do embasamento.
Mecanismo de RAG da Vertex AI: o mecanismo de RAG da Vertex AI
fornece um ambiente de execução totalmente gerenciado para orquestração de RAG, permitindo que
desenvolvedores criem RAG para uso em produção e contextos prontos para empresas.
Pesquisa Google: quando você usa a fundamentação com a Pesquisa Google no seu modelo do Gemini, o Gemini usa a Pesquisa Google e gera uma saída fundamentada nos resultados de pesquisa relevantes. Esse método de recuperação não exige gerenciamento e disponibiliza o conhecimento do mundo para o Gemini.
Escolha o melhor método de geração para suas necessidades:
Basear em seus dados:
gerar respostas embasadas para uma consulta do usuário. A API de geração embasada usa modelos especializados e refinados do Gemini e é uma maneira eficaz de reduzir alucinações e fornecer respostas embasadas nas suas fontes ou em fontes de terceiros, incluindo referências a conteúdo de suporte de embasamento.
Também é possível embasar respostas com seus dados da Vertex AI para Pesquisa usando
a IA generativa na Vertex AI. Para mais informações, consulte
Embasamento com seus dados.
Basear com a Pesquisa Google:o Gemini é o modelo mais eficiente do Google e oferece baseamento imediato com a Pesquisa Google. Você pode usar essa ferramenta para criar sua solução de geração fundamentada totalmente personalizada.
Model Garden:se você quiser controle total e o modelo de sua escolha,
use qualquer um dos modelos no
Model Garden da Vertex AI para geração.
Crie sua própria geração aumentada de recuperação
Desenvolver um sistema de RAG personalizado para embasamento oferece flexibilidade e controle em todas as etapas do processo. A Vertex AI oferece um conjunto de APIs para ajudar você a criar suas próprias soluções de pesquisa. O uso dessas APIs oferece total flexibilidade no design do aplicativo RAG, além de acelerar o tempo de lançamento no mercado e oferecer alta qualidade ao usar essas APIs de nível mais baixo da Vertex AI.
O analisador de layout da Document AI.
O analisador de layout da Document AI transforma documentos em vários formatos em representações estruturadas, tornando acessíveis conteúdos como parágrafos, tabelas, listas e elementos estruturais, como cabeçalhos, rodapés e cabeçalhos de página. Ele também cria blocos com reconhecimento de contexto que facilitam a recuperação de informações em uma variedade de apps de IA generativa e descoberta.
API Embeddings:as APIs Embeddings da Vertex AI permitem criar embeddings para entradas de texto ou multimodais. Os embeddings são vetores de números de ponto flutuante projetados para capturar o significado da entrada. É possível usar os embeddings para ativar a pesquisa semântica usando a pesquisa vetorial.
Vector Search. O mecanismo de recuperação é uma parte fundamental do seu aplicativo de RAG ou pesquisa. A Vertex AI Vector Search é um
mecanismo de recuperação que pode pesquisar em bilhões de itens semanticamente parecidos ou
relacionados em grande escala, com altas consultas por segundo (QPS), alto
recall, baixa latência e eficiência de custos. Ela pode pesquisar embeddings densos e oferece suporte à pesquisa de palavras-chave com embeddings esparsos e à pesquisa híbrida em pré-lançamento público.
A API de classificação.
A API Ranking recebe uma lista de documentos e os reclassifica com base na relevância deles para uma determinada consulta. Em comparação com incorporações que analisam apenas a similaridade semântica de um documento e uma consulta, a API Ranking pode fornecer uma pontuação mais precisa de como um documento responde a uma determinada consulta.
A API Grounded Generation. Use a API de geração
ancorada para gerar
respostas bem fundamentadas ao comando de um usuário. As fontes de embasamento podem ser seus repositórios de dados da Vertex AI para Pesquisa, dados personalizados que você fornece ou a Pesquisa Google.
A API de geração de conteúdo. Use a API generate content para gerar respostas
bem fundamentadas para um comando do usuário. As fontes de embasamento podem ser seus repositórios de dados da Vertex AI para Pesquisa ou a Pesquisa Google.
A API de verificação de embasamento.
A API de verificação de embasamento determina o quanto um determinado trecho de texto está embasado em um conjunto de textos de referência. A API pode gerar citações de apoio do texto de referência para indicar onde o texto fornecido é respaldado pelos textos de referência. Entre outras coisas, a API pode ser usada para avaliar o embasamento das respostas de um sistema RAG. Além disso, como um recurso experimental, a API também gera citações contraditórias que mostram onde o texto fornecido e os textos de referência discordam.
Fluxo de trabalho: gerar respostas embasadas em dados não estruturados
Confira um fluxo de trabalho que descreve como integrar as APIs RAG da Vertex AI
para gerar respostas fundamentadas com base em dados não estruturados.
Importe seus documentos não estruturados, como arquivos PDF, HTML ou imagens com texto, para um local do Cloud Storage.
Processe os documentos importados usando o analisador de layout.
O analisador de layout divide os documentos não estruturados em partes e transforma o conteúdo não estruturado em uma representação estruturada. O analisador de layout também extrai anotações dos blocos.
Se você gerou as respostas usando um modelo de geração de respostas diferente dos modelos do Google, é possível verificar o embasamento dessas respostas usando o método de verificação.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-19 UTC."],[[["\u003cp\u003eVertex AI provides APIs for building Retrieval-Augmented Generation (RAG) applications and search engines, supporting both retrieval and generation stages.\u003c/p\u003e\n"],["\u003cp\u003eFor retrieval, options include Vertex AI Search, building your own using Vertex AI APIs, using an existing search engine, Vertex AI RAG Engine, or leveraging Google Search for Gemini models.\u003c/p\u003e\n"],["\u003cp\u003eFor generation, options include the Grounded Generation API, using Gemini with built-in Google Search grounding, or using models from the Vertex AI Model Garden for full customization.\u003c/p\u003e\n"],["\u003cp\u003eVertex AI's suite of APIs includes the Document AI Layout Parser, Embeddings API, Vector Search, and Ranking API, enabling users to create custom RAG systems with flexibility and control.\u003c/p\u003e\n"],["\u003cp\u003eThe Vertex AI workflow for generating grounded responses from unstructured data involves importing documents, processing with the layout parser, creating text embeddings, indexing with Vector Search, ranking chunks, and generating grounded answers.\u003c/p\u003e\n"]]],[],null,["# Vertex AI APIs for building search and RAG experiences\n\nVertex AI offers a suite of APIs to help you build Retrieval-Augmented\nGeneration (RAG) applications or a search engine. This page introduces those\nAPIs.\n\nRetrieval and generation\n------------------------\n\nRAG is a methodology that enables Large Language Models (LLMs) to generate\nresponses that are grounded to your data source of choice. There are two stages\nin RAG:\n\n1. **Retrieval**: Getting the most relevant facts quickly can be a common search problem. With RAG, you can quickly retrieve the facts that are important to generate an answer.\n2. **Generation:** The retrieved facts are used by the LLM to generate a grounded response.\n\nVertex AI offers options for both stages to match a variety of\ndeveloper needs.\n\nRetrieval\n---------\n\nChoose the best retrieval method for your needs:\n\n- **Vertex AI Search:** Vertex AI Search is a\n Google Search-quality information retrieval engine that can be a\n component of any generative AI application that uses your enterprise data.\n Vertex AI Search works as an out-of-the-box semantic \\& keyword\n search engine for RAG with the ability to process a variety of document\n types and with connectors to a variety of source systems including\n BigQuery and many third party systems.\n\n For more information, see\n [Vertex AI Search](/enterprise-search).\n- **Build your own retrieval:** If you want to build your semantic search, you\n can rely on Vertex AI APIs for components of your custom RAG\n system. This suite of APIs provide high-quality implementations for document\n parsing, embedding generation, vector search, and semantic ranking. Using these\n lower-level APIs gives you full flexibility on the design of your retriever\n while at the same time offering accelerated time to market and high quality\n by relying on lower-level Vertex AI APIs.\n\n For more information, see\n [Build your own Retrieval Augmented Generation](#build-rag).\n- **Bring an existing retrieval** : You can use your existing search as a\n retriever for [grounded generation](/generative-ai-app-builder/docs/grounded-gen).\n You can also use the Vertex APIs for RAG\n to upgrade your existing search to higher quality. For more information, see\n [Grounding overview](/vertex-ai/generative-ai/docs/grounding/overview).\n\n- **Vertex AI RAG Engine**: Vertex AI RAG Engine\n provides a fully-managed runtime for RAG orchestration, which lets\n developers build RAG for use in production and enterprise-ready contexts.\n\n For more information, see [Vertex AI RAG Engine\n overview](/vertex-ai/generative-ai/docs/rag-overview) in the Generative AI\n on Vertex AI documentation.\n- **Google Search**: When you use Grounding with\n Google Search for your Gemini model, then Gemini\n uses Google Search and generates output that is grounded to the\n relevant search results. This retrieval method doesn't require management\n and you get the world's knowledge available to Gemini.\n\n For more information, see [Grounding with\n Google Search](/vertex-ai/generative-ai/docs/multimodal/ground-gemini)\n in the Generative AI on Vertex AI documentation.\n\nGeneration\n----------\n\nChoose the best generation method for your needs:\n\n- **Ground with your data**:\n Generate well-grounded answers to a user's query. The grounded generation\n API uses specialized, fine-tuned Gemini models and is an effective\n way to reduce hallucinations and provide responses grounded to your sources\n or third-party sources including references to grounding support content.\n\n For more information, see\n [Generate grounded answers with RAG](/generative-ai-app-builder/docs/grounded-gen).\n\n You can also ground responses to your Vertex AI Search data using\n Generative AI on Vertex AI. For more information, see\n [Ground with your data](/vertex-ai/generative-ai/docs/multimodal/ground-with-your-data).\n- **Ground with Google Search:** Gemini is Google's most capable\n model and offers out-of-the-box grounding with Google Search. You\n can use it to build your fully-customized grounded generation solution.\n\n For more information, see [Grounding with Google Search](/vertex-ai/generative-ai/docs/multimodal/ground-gemini) in\n the Generative AI on Vertex AI documentation.\n- **Model Garden:** If you want full control and the model of your choice,\n you can use any of the models in\n [Vertex AI Model Garden](/model-garden) for generation.\n\nBuild your own Retrieval Augmented Generation\n---------------------------------------------\n\nDeveloping a custom RAG system for grounding offers flexibility and control at\nevery step of the process. Vertex AI offers a suite of APIs to help you\ncreate your own search solutions. Using those APIs gives you full flexibility on\nthe design of your RAG application while at the same time offering accelerated\ntime to market and high quality by relying on these lower-level\nVertex AI APIs.\n\n- **The Document AI Layout Parser.**\n The Document AI Layout Parser transforms documents in various\n formats into structured representations, making content like paragraphs,\n tables, lists, and structural elements like headings, page headers, and\n footers accessible, and creating context-aware chunks that facilitate\n information retrieval in a range of generative AI and discovery apps.\n\n For more information, see [Document AI Layout Parser](/document-ai/docs/layout-parse-chunk) in the\n *Document AI* documentation.\n- **Embeddings API:** The Vertex AI embeddings APIs let you create\n embeddings for text or multimodal inputs. Embeddings are vectors of\n floating point numbers that are designed to capture the meaning of their\n input. You can use the embeddings to power semantic search using Vector\n search.\n\n For more information, see [Text embeddings](/vertex-ai/generative-ai/docs/embeddings/get-text-embeddings) and\n [Multimodal embeddings](/vertex-ai/generative-ai/docs/embeddings/get-multimodal-embeddings) in the Generative AI on\n Vertex AI documentation.\n- **Vector Search.** The retrieval engine is a key part of your RAG\n or search application. Vertex AI Vector Search is a\n retrieval engine that can search from billions of semantically similar or\n semantically related items at scale, with high queries per second (QPS), high\n recall, low latency, and cost efficiency. It can search over dense\n embeddings, and supports sparse embedding keyword search and hybrid search in\n Public preview.\n\n For more information, see: [Overview of Vertex AI\n Vector Search](/vertex-ai/docs/vector-search/overview) in the\n Vertex AI documentation.\n- **The ranking API.**\n The ranking API takes in a list of documents and reranks those documents\n based on how relevant the documents are to a given query. Compared to\n embeddings that look purely at the semantic similarity of a document and a\n query, the ranking API can give you a more precise score for how well a\n document answers a given query.\n\n For more information, see\n [Improve search and RAG quality with ranking API](/generative-ai-app-builder/docs/ranking).\n- **The grounded generation API.** Use the grounded\n generation API to generate\n well-grounded answers to a user's prompt. The grounding sources can be your\n Vertex AI Search data stores, custom data that you provide, or\n Google Search.\n\n For more information, see [Generate grounded answers](/generative-ai-app-builder/docs/grounded-gen).\n- **The generate content API.** Use the generate content API to generate\n well-grounded answers to a user's prompt. The grounding sources can be your\n Vertex AI Search data stores or Google Search.\n\n For more information, see\n [Ground with Google Search](/vertex-ai/generative-ai/docs/multimodal/ground-with-google-search) or\n [Ground with your data](/vertex-ai/generative-ai/docs/multimodal/ground-with-your-data).\n- **The check grounding API.**\n The check grounding API determines how grounded a given piece of text is in a\n given set of reference texts. The API can generate supporting citations from\n the reference text to indicate where the given text is supported by the\n reference texts. Among other things, the API can be used to assess the\n grounded-ness of responses from a RAG systems. Additionally, as an\n experimental feature, the API also generates contradicting citations that\n show where the given text and reference texts disagree.\n\n For more information, see [Check grounding](/generative-ai-app-builder/docs/check-grounding).\n\nWorkflow: Generate grounded responses from unstructured data\n------------------------------------------------------------\n\nHere's a workflow that outlines how to integrate the Vertex AI RAG APIs\nto generate grounded responses from unstructured data.\n\n1. Import your unstructured documents, such as PDF files, HTML files, or images with text, into a Cloud Storage location.\n2. Process the imported documents using the [layout parser](/document-ai/docs/layout-parse-chunk). The layout parser breaks down the unstructured documents into chunks and transforms the unstructured content into its structured representation. The layout parser also extracts annotations from the chunks.\n3. [Create text embeddings](/vertex-ai/generative-ai/docs/embeddings/get-text-embeddings) for chunks using Vertex AI text embeddings API.\n4. [Index and retrieve](/vertex-ai/docs/vector-search/create-manage-index) the chunk embeddings using Vector Search.\n5. [Rank the chunks](/generative-ai-app-builder/docs/ranking) using the ranking API and determine the top-ranked chunks.\n6. Generate grounded answers based on the top-ranked chunks using the [grounded generation API](/generative-ai-app-builder/docs/grounded-gen) or using the [generate content API](/vertex-ai/generative-ai/docs/multimodal/ground-with-your-data).\n\nIf you generated the answers using an answer generation model other than the\nGoogle models, you can [check the grounding](/generative-ai-app-builder/docs/check-grounding) of these answers\nusing the check grounding method."]]