宽泛搜索使用入门

Vertex AI Search 汇集了功能强大的深度信息检索、先进的自然语言处理和最新的大型语言处理技术进步成果,可以理解用户的意图并返回与用户相关度最高的结果。

借助 Vertex AI Search,您可以创建用于搜索和提出建议的应用。Vertex AI Search 还具有适用于某些行业(例如媒体、医疗保健和零售)的特殊功能。

本教程重点介绍了如何为通用数据创建搜索应用;即并非特定于垂直行业的数据。

本教程介绍如何创建用于不同类型数据的搜索应用:

  • 通过抓取 cloud.google.com/generative-ai-app-builder/ 获取的网站数据
  • 从 Cloud Storage 存储桶中注入的 NDJSON 格式的数据集的结构化数据
  • 从 Cloud Storage 存储桶注入的 PDF 格式的非结构化数据

在学习本教程之前,确保您已完成准备工作中的步骤。


如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示

操作演示


准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI Agent Builder (Discovery Engine), BigQuery, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI Agent Builder (Discovery Engine), BigQuery, Cloud Storage APIs.

    Enable the APIs

启用 Vertex AI Agent Builder

  1. 在 Google Cloud 控制台中,前往 Agent Builder 页面。

    Agent Builder

  2. 阅读并同意服务条款,然后点击继续并激活 API

创建数据存储区

首先,您将创建一个数据存储区,其中包含搜索应用将为其编制索引的数据。

点击要放入数据存储区的数据类型的对应标签页:网站数据、结构化数据或非结构化数据。

网站数据

  1. 前往创建数据存储区页面。

    Agent Builder - 创建数据存储区

  2. 选择数据源窗格中,选择网站内容

  3. 指定网站作为数据存储区窗格中,确保已关闭高级网站索引编制

  4. 要包括的网站字段中,输入:

    cloud.google.com/generative-ai-app-builder/*
    
  5. 点击继续

  6. 配置数据存储区窗格中,选择全球作为数据存储区的位置。

  7. 为数据存储区输入名称。记下生成的 ID。以便稍后使用。

  8. 点击创建

结构化数据

  1. 前往创建数据存储区页面。

    Agent Builder - 创建数据存储区

  2. 选择数据源窗格中,选择 Cloud Storage

  3. 从 Cloud Storage 导入数据窗格中,选择结构化数据 (JSONL)

  4. 确保已选择文件

  5. gs:// 字段中,输入以下值:

    cloud-samples-data/gen-app-builder/search/kaggle_movies/movie_metadata.ndjson
    

    此 Cloud Storage 存储桶包含由 Kaggle 提供的 NDJSON 格式的电影文件。

  6. 点击继续

  7. 分配键属性,如下所示:

    字段名称 键属性
    homepage uri
    overview description

    然后点击继续

  8. 配置数据存储区窗格中,选择全球作为数据存储区的位置。

  9. 为数据存储区输入名称。记下生成的 ID。以便稍后使用。

  10. 点击创建

非结构化数据

  1. 前往创建数据存储区页面。

    Agent Builder - 创建数据存储区

  2. 选择数据源窗格中,选择 Cloud Storage

  3. 从 Cloud Storage 导入数据窗格中,选择非结构化文档(PDF、HTML、TXT 等)

  4. 确保已选择文件夹

  5. gs:// 字段中,输入以下值:

    cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
    

    此 Cloud Storage 存储桶包含来自 Alphabet 投资者网站的收入报告 PDF 文件。

  6. 配置数据存储区窗格中,选择全球作为数据存储区的位置。

  7. 为数据存储区输入名称。记下生成的 ID。以便稍后使用。

  8. 点击创建

创建搜索应用

接下来,您将创建一个搜索应用并关联之前创建的数据存储区。

网站数据

  1. 前往创建应用页面。

    Agent Builder - 创建应用

  2. 搜索您的网站下,点击创建

  3. 确保企业版功能已开启。

  4. 您的应用名称字段中,输入应用的名称。应用 ID 显示在应用名称下方。

  5. 贵公司或组织的外部名称字段中,输入公司或组织的名称。 在本教程中,您可以使用 Google Cloud,因为应用将搜索 Google Cloud 网站。

  6. 选择全球作为应用的位置,然后点击继续

  7. 在数据存储区列表中,选择您之前创建的数据存储区,然后点击创建

  8. 前往应用的数据页面,查看已编制索引的网站列表,并根据需要进行更改。

结构化数据

  1. 前往创建应用页面。

    Agent Builder - 创建应用

  2. 搜索您的网站下,点击创建

  3. 确保企业版功能已开启。

  4. 您的应用名称字段中,输入应用的名称。应用 ID 显示在应用名称下方。

  5. 贵公司或组织的外部名称字段中,输入公司或组织的名称。 在本教程中,您可以使用 Cymbal Cinemas,因为应用将搜索电影数据存储区。

  6. 选择全球作为应用的位置,然后点击继续

  7. 在数据存储区列表中,选择您之前创建的数据存储区,然后点击创建

  8. 在应用的数据页面上,点击活动标签页以查看数据注入的状态。导入过程完成后,状态列中会显示导入已完成。对于此数据集,该过程通常需要两到三分钟。您可能需要点击刷新才能看到导入已完成

  9. 点击文档标签页以查看导入的文档数量。

非结构化数据

  1. 前往创建应用页面。

    Agent Builder - 创建应用

  2. 搜索您的网站下,点击创建

  3. 确保企业功能已开启。

  4. 您的应用名称字段中,输入应用的名称。应用 ID 显示在应用名称下方。

  5. 贵公司或组织的外部名称字段中,输入公司或组织的名称。 在本教程中,您可以使用 Alphabet,因为应用将在 Alphabet 文档中进行搜索。

  6. 选择全球作为应用的位置,然后点击继续

  7. 在数据存储区列表中,选择您之前创建的数据存储区,然后点击创建

  8. 在应用的数据页面上,点击活动标签页以查看数据注入的状态。导入过程完成后,状态列会显示导入已完成。对于此数据集,导入过程通常需要两到三分钟。您可能需要点击刷新才能看到导入已完成状态。

  9. 点击文档标签页以查看导入的文档数量。

预览应用

网站数据

  1. 应用页面上,点击新应用的名称。

  2. 在导航菜单中,点击预览以测试搜索应用。

  3. 可选:点击视图图标,在移动版视图和桌面版视图之间切换。

  4. 在搜索栏中,搜索 Vertex AI Search 以查看有关该产品的结果。

结构化数据

  1. 应用页面上,点击新应用的名称。

  2. 在导航菜单中,点击预览以测试搜索应用。

  3. 可选:点击视图图标,在移动版视图和桌面版视图之间切换。

  4. 在搜索栏中,输入 trains,然后按 Enter 键,以获取与火车相关的电影的搜索结果。

非结构化数据

  1. 应用页面上,点击新应用的名称。

  2. 在导航菜单中,点击预览以测试搜索应用。

  3. 可选:点击视图图标,在移动版视图和桌面版视图之间切换。

  4. 在搜索栏中,输入 Google,然后按 Enter 键以查看结果。

配置搜索微件

  1. 在导航菜单中,点击配置

  2. 界面标签页中,为搜索应用配置设置。

    不同数据类型可使用不同的界面配置。如需了解详情,请参阅为搜索微件配置结果

  3. 如果您在界面标签页中更改配置,请点击保存并发布

  4. 前往自动补全标签页,为自动补全配置特定设置。

    如需了解详情,请参阅配置自动补全

  5. 前往高级标签页以配置高级功能。

    如需了解详情,请参阅高级功能简介

部署搜索应用

  1. 应用页面上,点击要部署的应用的名称。

  2. 在导航菜单中,点击集成

  3. 确保微件标签页处于选中状态。

  4. 选择基于 JWT 或 OAuth 作为 widget 授权类型。

  5. 网域字段中,输入将放置该微件的网页的域名。例如,如果您要将该微件复制到网页 example.com/ai.html,请输入 example.com 作为网域。

  6. 点击添加,然后单击保存

  7. 复制将以下代码复制到您的 Web 应用部分中提供的代码段。

  8. 在您的代码库中,生成授权令牌。

  9. 如需将授权令牌传递给微件,请使用将以下代码复制到您的 Web 应用部分中提供的“设置授权令牌”代码段,并将文本 <JWT or OAuth token provided by your backend> 替换为授权令牌。

  10. 测试已部署的应用。您可以按照“配置搜索微件”中的步骤进一步调整配置。请确保点击保存并发布,以便更改在已部署的微件上生效。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

  1. 为避免产生不必要的 Google Cloud 费用,请使用 Google Cloud 控制台删除您不需要的项目。
  2. 如果您为了解 Vertex AI Agent Builder 创建了一个新项目,但现在不再需要该项目,请删除项目
  3. 如果您使用的是现有 Google Cloud 项目,请删除您创建的资源,以避免账号产生费用。 如需了解详情,请参阅删除实例
  4. 按照关闭 Vertex AI Agent Builder 中的步骤操作。

后续步骤