宽泛搜索使用入门
Vertex AI Search 汇集了功能强大的深度信息检索、先进的自然语言处理和最新的大型语言处理技术进步成果,可以理解用户的意图并返回与用户相关度最高的结果。
借助 Vertex AI Search,您可以创建用于搜索和提出建议的应用。Vertex AI Search 还具有适用于某些行业(例如媒体、医疗保健和零售)的特殊功能。
本教程重点介绍了如何为通用数据创建搜索应用;即并非特定于垂直行业的数据。
本教程介绍如何创建用于不同类型数据的搜索应用:
- 通过抓取
cloud.google.com/generative-ai-app-builder/
获取的网站数据 - 从 Cloud Storage 存储桶中注入的 NDJSON 格式的数据集的结构化数据
- 从 Cloud Storage 存储桶注入的 PDF 格式的非结构化数据
在学习本教程之前,确保您已完成准备工作中的步骤。
如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示:
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI Agent Builder (Discovery Engine), BigQuery, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI Agent Builder (Discovery Engine), BigQuery, Cloud Storage APIs.
启用 Vertex AI Agent Builder
在 Google Cloud 控制台中,前往 Agent Builder 页面。
阅读并同意服务条款,然后点击继续并激活 API。
创建数据存储区
首先,您将创建一个数据存储区,其中包含搜索应用将为其编制索引的数据。
点击要放入数据存储区的数据类型的对应标签页:网站数据、结构化数据或非结构化数据。
网站数据
前往
创建数据存储区 页面。在选择数据源窗格中,选择网站内容。
在指定网站作为数据存储区窗格中,确保已关闭高级网站索引编制。
在要包括的网站字段中,输入:
cloud.google.com/generative-ai-app-builder/*
点击继续。
在配置数据存储区窗格中,选择全球作为数据存储区的位置。
为数据存储区输入名称。记下生成的
ID 。以便稍后使用。点击创建。
结构化数据
前往
创建数据存储区 页面。在选择数据源窗格中,选择 Cloud Storage。
在从 Cloud Storage 导入数据窗格中,选择结构化数据 (JSONL)。
确保已选择文件。
在
gs://
字段中,输入以下值:cloud-samples-data/gen-app-builder/search/kaggle_movies/movie_metadata.ndjson
此 Cloud Storage 存储桶包含由 Kaggle 提供的 NDJSON 格式的电影文件。
点击继续。
分配键属性,如下所示:
字段名称 键属性 homepage
uri
overview
description
然后点击继续。
在配置数据存储区窗格中,选择全球作为数据存储区的位置。
为数据存储区输入名称。记下生成的
ID 。以便稍后使用。点击创建。
非结构化数据
前往
创建数据存储区 页面。在选择数据源窗格中,选择 Cloud Storage。
在从 Cloud Storage 导入数据窗格中,选择非结构化文档(PDF、HTML、TXT 等)。
确保已选择文件夹。
在
gs://
字段中,输入以下值:cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
此 Cloud Storage 存储桶包含来自 Alphabet 投资者网站的收入报告 PDF 文件。
在配置数据存储区窗格中,选择全球作为数据存储区的位置。
为数据存储区输入名称。记下生成的
ID 。以便稍后使用。点击创建。
创建搜索应用
接下来,您将创建一个搜索应用并关联之前创建的数据存储区。
网站数据
前往
创建应用 页面。在搜索您的网站下,点击创建。
确保企业版功能已开启。
在
您的应用名称 字段中,输入应用的名称。应用 ID 显示在应用名称下方。在贵公司或组织的外部名称字段中,输入公司或组织的名称。 在本教程中,您可以使用
Google Cloud
,因为应用将搜索 Google Cloud 网站。选择全球作为应用的位置,然后点击继续。
在数据存储区列表中,选择您之前创建的数据存储区,然后点击创建。
前往应用的数据页面,查看已编制索引的网站列表,并根据需要进行更改。
结构化数据
前往
创建应用 页面。在搜索您的网站下,点击创建。
确保企业版功能已开启。
在
您的应用名称 字段中,输入应用的名称。应用 ID 显示在应用名称下方。在贵公司或组织的外部名称字段中,输入公司或组织的名称。 在本教程中,您可以使用
Cymbal Cinemas
,因为应用将搜索电影数据存储区。选择全球作为应用的位置,然后点击继续。
在数据存储区列表中,选择您之前创建的数据存储区,然后点击创建。
在应用的数据页面上,点击活动标签页以查看数据注入的状态。导入过程完成后,状态列中会显示导入已完成。对于此数据集,该过程通常需要两到三分钟。您可能需要点击刷新才能看到导入已完成。
点击文档标签页以查看导入的文档数量。
非结构化数据
前往
创建应用 页面。在搜索您的网站下,点击创建。
确保企业功能已开启。
在
您的应用名称 字段中,输入应用的名称。应用 ID 显示在应用名称下方。在贵公司或组织的外部名称字段中,输入公司或组织的名称。 在本教程中,您可以使用
Alphabet
,因为应用将在 Alphabet 文档中进行搜索。选择全球作为应用的位置,然后点击继续。
在数据存储区列表中,选择您之前创建的数据存储区,然后点击创建。
在应用的数据页面上,点击活动标签页以查看数据注入的状态。导入过程完成后,状态列会显示导入已完成。对于此数据集,导入过程通常需要两到三分钟。您可能需要点击刷新才能看到导入已完成状态。
点击文档标签页以查看导入的文档数量。
预览应用
网站数据
在应用页面上,点击新应用的名称。
在导航菜单中,点击
预览 以测试搜索应用。可选:点击视图图标,在移动版视图和桌面版视图之间切换。
在搜索栏中,搜索
Vertex AI Search
以查看有关该产品的结果。
结构化数据
在应用页面上,点击新应用的名称。
在导航菜单中,点击
预览 以测试搜索应用。可选:点击视图图标,在移动版视图和桌面版视图之间切换。
在搜索栏中,输入
trains
,然后按 Enter 键,以获取与火车相关的电影的搜索结果。
非结构化数据
在应用页面上,点击新应用的名称。
在导航菜单中,点击
预览 以测试搜索应用。可选:点击视图图标,在移动版视图和桌面版视图之间切换。
在搜索栏中,输入
Google
,然后按 Enter 键以查看结果。
配置搜索微件
在导航菜单中,点击配置。
在界面标签页中,为搜索应用配置设置。
不同数据类型可使用不同的界面配置。如需了解详情,请参阅为搜索微件配置结果。
如果您在界面标签页中更改配置,请点击保存并发布。
前往自动补全标签页,为自动补全配置特定设置。
如需了解详情,请参阅配置自动补全。
前往高级标签页以配置高级功能。
如需了解详情,请参阅高级功能简介。
部署搜索应用
在应用页面上,点击要部署的应用的名称。
在导航菜单中,点击集成。
确保微件标签页处于选中状态。
选择基于 JWT 或 OAuth 作为 widget 授权类型。
在网域字段中,输入将放置该微件的网页的域名。例如,如果您要将该微件复制到网页
example.com/ai.html
,请输入example.com
作为网域。点击添加,然后单击保存。
复制将以下代码复制到您的 Web 应用部分中提供的代码段。
在您的代码库中,生成授权令牌。
如需将授权令牌传递给微件,请使用将以下代码复制到您的 Web 应用部分中提供的“设置授权令牌”代码段,并将文本
<JWT or OAuth token provided by your backend>
替换为授权令牌。测试已部署的应用。您可以按照“配置搜索微件”中的步骤进一步调整配置。请确保点击保存并发布,以便更改在已部署的微件上生效。
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
- 为避免产生不必要的 Google Cloud 费用,请使用 Google Cloud 控制台删除您不需要的项目。
- 如果您为了解 Vertex AI Agent Builder 创建了一个新项目,但现在不再需要该项目,请删除项目。
- 如果您使用的是现有 Google Cloud 项目,请删除您创建的资源,以避免账号产生费用。 如需了解详情,请参阅删除实例。
- 按照关闭 Vertex AI Agent Builder 中的步骤操作。