-
注释集
- 注释集包含与数据集中上传的源文件关联的标签。注释集与数据类型和目标(例如视频/分类)相关联。
-
API 端点
- API 端点是一个服务配置层面,用于指定网络地址(也称为服务端点,例如 aiplatform.googleapis.com)。
-
应用默认凭据 (ADC)
- 应用默认凭据 (ADC) 提供了一种简单的方法来获取用于调用 Google API 的授权凭据。如果在调用时,应用需要与用户无关的一致身份和授权级别,则最适合使用应用默认凭据。这是向 Google Cloud API 调用授权的推荐方法,尤其适合在构建部署于 Google App Engine (GAE) 或 Compute Engine 虚拟机的应用时使用。如需了解详情,请参阅应用默认凭据的工作原理。
-
近似最邻近 (ANN)
- 近似最邻近 (ANN) 服务是一项大规模、低延迟的解决方案,可用于针对大型语料库查找类似向量(更具体地说,是“嵌入”)。 如需了解详情,请参阅如何使用向量搜索进行语义匹配。
-
工件
- 工件是机器学习工作流生成和使用的离散实体或数据块。工件的示例包括数据集、模型、输入文件和训练日志。
-
Artifact Registry
- Artifact Registry 是通用的工件管理服务。它是在 Google Cloud 上管理容器和其他工件时推荐使用的服务。如需了解详情,请参阅 Artifact Registry。
-
人工智能 (AI)
- 人工智能(或 AI)是指研究和设计看似智能的机器,也就是模仿机械运动、推理或解决问题等人类或智力功能的机器。AI 最热门的子领域之一是机器学习,它使用统计和数据驱动的方法来创建 AI。不过,有些人会将这两个术语互换使用。
-
身份验证
- 此过程验证客户端(可能是用户或其他进程)的身份,以便获得对受保护系统的访问权限。已证明其身份的客户端即被认定为已通过身份验证。如需了解详情,请参阅 Google 的身份验证方法。
-
AutoML
- 通过黑盒优化“学会学习”的机器学习算法。如需了解详情,请参阅机器学习术语表。
-
基准
- 一种模型,用作比较另一个模型(通常是更复杂的模型)效果时的参考点。例如,逻辑回归模型可以作为深度模型的良好基准。对于特定问题,基准有助于模型开发者量化新模型必须达到的最低预期性能,以便新模型发挥作用。如需了解详情,请参阅基准数据集和目标数据集。
-
批处理
- 在一次训练迭代中使用的一组示例。批次大小决定了批处理中的示例数量。
-
批次大小
- 一个批次中的样本数。例如,Stochastic Gradient Descent(随机梯度下降)的批次大小为 1,而小批次的批次大小通常介于 10 到 1000 之间。批次大小在训练和推理期间通常是固定的;不过,TensorFlow 允许使用动态批次大小。
-
批量预测
- 批量预测会接受一组预测请求,并将结果输出到一个文件中。如需了解详情,请参阅获取批量预测结果。
-
偏差
- 1. 对某些事物、人或群体有刻板印象、偏见或偏袒。这些偏差会影响数据的收集和解读、系统设计以及用户与系统的互动方式。2. 采样或报告过程中引入的系统错误。
-
双向
- 用于描述一种系统,该系统会评估目标文本部分前后文本。与之相反,单向系统仅评估目标文本部分之前的文本。
-
基于 Transformer 的双向编码器表示法 (BERT)
- BERT 是预训练语言表示法的一种方法,这意味着我们会使用大型文本语料库(例如维基百科)训练通用语言理解模型,然后将该模型用于我们关注的下游 NLP 任务(例如问答)。BERT 的表现优于之前的方法,因为它是第一个用于预训练 NLP 的无监督深度双向系统。
-
双语替换评测 (BLEU)
- 一种常用的评估机器翻译算法质量的指标,方法是将其输出与一个或多个人工译文进行比较。
-
边界框
- 视频帧中对象的边界框可通过以下两种方式之一指定:(i) 使用 2 个包含一组 x、y 坐标的顶点(如果这些点与矩形的对角线相对)。例如:x_relative_min、y_relative_min 以及 x_relative_max、y_relative_max (ii) 使用全部 4 个顶点。如需了解详情,请参阅准备视频数据。
-
存储桶
- Cloud Storage 的顶级文件夹。存储分区名称在所有 Cloud Storage 用户中都必须是唯一的。存储分区包含文件。如需了解详情,请参阅 Cloud Storage 产品概览。
-
聊天
- 与机器学习系统(通常是大语言模型)进行的来回对话的内容。对话中的前一次互动(您输入的内容以及大语言模型的回复方式)会成为对话后续部分的上下文。聊天机器人是大语言模型的一种应用。
-
检查点
- 捕获模型参数在训练期间或训练完成后的状态的数据。例如,在训练期间,您可以:停止训练,可能是有意为之,也可能是由于某些错误。2. 捕获检查点。3. 稍后,重新加载检查点(可能在其他硬件上)。4. 重新开始训练。在 Gemini 中,检查点是指基于特定数据集训练的 Gemini 模型的特定版本。
-
分类模型
- 预测结果为类的模型。例如,以下所有模型都是分类模型:用于预测输入句子的语言(法语?西班牙语?意大利语?一个用于预测树种(枫树?Oak?Baobab?)。用于预测特定疾病的正类别或负类别的模型。
-
分类指标
- Python 版 Vertex AI SDK 中支持的分类指标是混淆矩阵和 ROC 曲线。
-
Cloud TPU
- 一种专门的硬件加速器,旨在加速 Google Cloud 上的机器学习工作负载。
-
容器映像
- 容器映像是一个软件包,其中包含组件的可执行代码和代码运行环境的定义。如需了解详情,请参阅自定义训练概览。
-
上下文
- 上下文用于将工件和执行分组到单个可查询的类型化类别下。上下文可用于表示元数据集。例如,上下文可以是机器学习流水线的运行。
-
情境窗口
- 模型在给定问题中可以处理的词元数。上下文时段越长,模型可以使用的信息就越多,从而为问题提供连贯一致的回答。
-
客户管理的加密密钥 (CMEK)
- 客户管理的加密密钥 (CMEK) 是一项集成功能,可让客户使用其在 Cloud KMS 中管理的密钥(也称为 Storky)加密现有 Google 服务中的数据。Cloud KMS 中的密钥是用于保护其数据的密钥加密密钥。 如需了解详情,请参阅客户管理的加密密钥 (CMEK)。
-
CustomJob
- CustomJob 是用户可创建的三种 Vertex AI 资源之一,可用于在 Vertex AI 上训练自定义模型。自定义训练作业是在 Vertex AI 中运行自定义机器学习 (ML) 训练代码的基本方法。如需了解详情,请参阅创建自定义训练作业。
-
Dask
- Dask 是一个分布式计算平台,通常与 TensorFlow、Pytorch 和其他机器学习框架搭配使用,用于管理分布式训练作业。如需了解详情,请参阅 Wikipedia。
-
数据分析
- 根据样本、测量结果和可视化内容理解数据。数据分析在首次收到数据集时且构建第一个模型之前特别有用。此外,数据分析在理解实验和调试系统问题方面也至关重要。
-
数据增强
- 通过转换现有样本创建其他样本,人为地增加训练样本的范围和数量。例如,假设图像是其中一个特征,但数据集包含的图像样本不足以供模型学习有用的关系。理想情况下,您需要向数据集添加足够的有标签图像,才能使模型正常训练。如果不可行,则可以通过数据增强旋转、拉伸和翻转每张图像,以生成原始照片的多个变体,这样可能会生成足够的有标签数据来实现很好的训练效果。
-
DataFrame
- 一种热门的 Pandas 数据类型,用于表示内存中的数据集。DataFrame 类似于表格或电子表格。DataFrame 的每一列都有一个名称(标题),每一行都由一个唯一的数字标识。DataFrame 中的每一列都像二维数组一样进行结构化,但每列可以分配自己的数据类型。
-
dataset(数据集)
- 数据集被广泛定义为结构化或非结构化数据记录的集合。一组原始数据,通常(但不限于)采用以下格式之一进行整理:电子表格、CSV(逗号分隔值)格式的文件。有关详情,请参阅创建数据集
-
embedding
- 嵌入是一种向量类型,用于通过捕获数据的语义含义来表示数据。嵌入通常是使用机器学习技术创建的,通常用于自然语言处理 (NLP) 和其他机器学习应用。
-
事件
- 事件描述了工件和执行之间的关系。每个工件可以由执行生成,并可供其他执行使用。事件将工件和执行链接在一起,以帮助您确定机器学习工作流中工件的来源。
-
执行
- 执行是单个机器学习工作流步骤的记录,通常带有其运行时参数注释。例如,执行可以是数据注入、数据验证、模型训练、模型评估和模型部署。
-
实验
- 实验是一个上下文,其中包含流水线运行作业以及一组 n 个实验运行作业,用户可以在其中集中调查不同的配置,如输入工件或超参数。
-
实验运行作业
- 实验运行作业可以包含用户定义的指标、参数、执行、工件和 Vertex 资源(例如 PipelineJob)。
-
探索性数据分析
- 在统计学中,探索性数据分析 (EDA) 是一种分析数据集的方法,用于汇总其主要特征(通常使用可视化方法)。并非必须使用统计模型,但 EDA 主要用于了解数据在正式建模或假设测试任务之外还可以告诉我们什么。
-
特征
- 在机器学习 (ML) 中,特征是指实例或实体(用作训练机器学习模型或进行预测的输入)的特点或属性。
-
特征工程
- 特征工程是指将原始机器学习 (ML) 数据转换为可用于训练机器学习模型或进行预测的特征的过程。
-
特征值
- 特征值对应于实例或实体的特征(属性)的实际可衡量值。唯一实体的特征值集合表示与该实体对应的特征记录。
-
特征传送
- 特征传送是导出或提取存储特征值以用于训练或推理的过程。在 Vertex AI 中,有两种类型的特征传送:在线传送和离线传送。在线传送检索部分特征数据源的最新特征值来进行在线预测。离线或批量传送则是导出大量特征数据进行离线处理,例如机器学习模型训练。
-
特征时间戳
- 特征时间戳指示实体的特定特征记录中一组特征值的生成时间。
-
特征记录
- 特征记录是所有特征值的聚合,用于描述特定时间点的唯一实体属性。
-
特征注册表
- 特征注册表是一个中央界面,用于记录您要用于在线预测的特征数据源。 如需了解详情,请参阅特征注册表设置。
-
特征组
- 特征组是指与包含特征数据的 BigQuery 源表或视图对应的特征注册表资源。特征视图可能包含特征,可视作数据源中特征列的逻辑分组。
-
特征视图
- 特征视图是从 BigQuery 数据源具体化为在线存储区实例的特征的逻辑集合。特征视图会存储并定期刷新客户的特征数据,这些数据会定期从 BigQuery 源刷新。特征视图通过与特征注册表资源关联来与特征数据存储空间关联或直接与其关联。
-
标准答案
- 该术语是指根据真实世界(例如标准答案数据集)验证机器学习的准确率。
-
损失(费用)
- 在监督式模型训练期间,用于衡量模型预测结果与标签之间的差距。损失函数用于计算损失。
-
机器学习流水线
- 机器学习流水线是基于容器的便携式和可扩缩的机器学习工作流。
-
模型
- 任何模型,无论是否经过预训练。一般来说,任何处理输入数据并返回输出的数学结构。换句话说,模型是系统进行预测所需的一组参数和结构。
-
模型资源名称
model
的资源名称,如下所示:projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>。您可以在 Cloud 控制台中的“Model Registry”页面中找到模型的 ID。
-
网络文件系统 (NFS)
- 一种客户端/服务器系统,可让用户跨网络访问文件,并将其视为位于本地文件目录中。
-
离线存储区
- 离线存储区是存储近期和历史特征数据的存储设施,通常用于训练机器学习模型。离线存储区还包含最新的特征值,可用于在线预测。
-
在线存储区
- 在特征管理中,在线存储区是存储用于在线预测的最新特征值的存储设施。
-
参数
- 参数是键入的输入值,它们可配置运行作业,控制运行作业的行为,并影响运行作业的结果。例如学习速率、漏失率和训练步数。
-
流水线组件
- 一组独立的代码,用于在流水线工作流中执行一个步骤,例如数据预处理、数据转换和模型训练。
-
流水线作业
- 流水线作业或流水线运行对应于 Vertex AI API 中的 PipelineJob 资源。它是机器学习流水线定义的执行实例,该定义为由输入/输出依赖项相互关联的一组机器学习任务。
-
流水线运行作业
- 一个实验可以关联一个或多个 Vertex PipelineJob,其中每个 PipelineJob 均表示为一个单独的运行作业。在此上下文中,运行作业的参数由 PipelineJob 的参数推断。指标从该 PipelineJob 生成的 system.Metric 工件推断。运行作业的工件从该 PipelineJob 生成的工件推断。
-
流水线模板
- 单个或多个用户可以重复使用机器学习工作流定义来创建多个流水线运行。
-
Private Service Connect (PSC)
- Private Service Connect 是一项技术,可让 Compute Engine 客户将其网络中的专用 IP 地址映射到另一个 VPC 网络或 Google API。
-
Private Service Connect 接口 (PSC-I)
- Private Service Connect 接口提供了一种方式,供提供方私下发起与使用方 VPC 中的任何网络资源的连接。
-
Ray on Vertex AI 集群
- 内置的 Ray on Vertex AI 集群可确保关键机器学习工作负载或高峰季的容量可用性。与自定义作业(训练服务在作业完成后会释放资源)不同,Ray 集群在删除之前会一直可用。如需了解详情,请参阅 Ray on Vertex AI 概览。
-
Ray on Vertex AI (RoV)
- Ray on Vertex AI 的设计可让您使用相同的开源 Ray 代码在 Vertex AI 上编写程序和开发应用,并且只需极少的更改。如需了解详情,请参阅 Ray on Vertex AI 概览。
-
Vertex AI SDK for Python 上的 Ray
- Python 版 Ray on Vertex AI SDK 是 Python 版 Vertex AI SDK 的一个版本,其中包含 Ray 客户端、Ray BigQuery 连接器、Vertex AI 上的 Ray 集群管理和 Vertex AI 上的预测功能。如需了解详情,请参阅 Vertex AI SDK for Python 简介。
-
recall
- 索引返回的真正最近邻的百分比。 例如,如果一个对 20 个最近邻的最近邻查询返回 19 个“标准答案”最近项,则召回率为 19/20x100 = 95%。
-
限制
- 使用布尔值规则将搜索“限制”为一部分索引的功能。限制也称为“过滤”。借助 Vector Search,您可以使用数字过滤和文本属性过滤。
-
服务账号
- 在 Google Cloud 中,服务账号是由应用或虚拟机 (VM) 实例(而非真人)使用的特殊账号。应用使用服务账号来执行已获授权的 API 调用。
-
摘要指标
- 摘要指标是实验运行作业中每个指标键的单一值。例如,实验的测试准确率是在训练结束时根据测试数据集计算得出的,可以作为单一值摘要指标捕获。
-
TensorBoard
- TensorBoard 是一套用于直观呈现和解读 TensorFlow 运行作业和模型的 Web 应用。如需了解详情,请参阅 TensorBoard。
-
TensorBoard 资源名称
- TensorBoard 资源名称用于完全标识 Vertex AI TensorBoard 实例。格式如下:projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID。
-
TensorBoard 实例
- TensorBoard 实例是区域化资源,用于存储与项目关联的 Vertex AI TensorBoard 实验。例如,如果您需要多个启用 CMEK 的实例,则可以在项目中创建多个 TensorBoard 实例。这与 API 中的 TensorBoard 资源相同。
-
TensorFlow Extended (TFX)
- TensorFlow Extended (TFX) 是一个基于 TensorFlow 平台部署生产机器学习流水线的端到端平台。
-
时间偏移值
- 时间偏移值是相对于视频开头进行计算的。
-
时间段
- 时间段由开始时间和结束时间偏移值来标识。
-
时序指标
- 时序指标是纵向指标值,其中每个值表示运行作业的训练例程部分中的一步。时序指标存储在 Vertex AI TensorBoard 中。Vertex AI Experiments 存储对 Vertex TensorBoard 资源的引用。
-
token
- 语言模型中的词元是模型训练和进行预测的原子单元,即字词、语素和字符。在语言模型之外的网域中,词元可以表示其他类型的原子单元。例如,在计算机视觉中,词元可能是图片的一部分。
-
非代管式工件
- 位于 Vertex AI 上下文之外的工件。
-
vector
- 向量是包含幅度和方向的浮点值列表。它可用于表示任何类型的数据,例如数字、空间中的点或方向。
-
Vertex AI Experiments
- 借助 Vertex AI Experiments,用户可以跟踪以下内容:1. 实验运行作业的步骤(例如预处理和训练)。2. 输入(例如算法、参数和数据集)。3. 这些步骤的输出(例如模型、检查点和指标)。
-
Vertex AI TensorBoard 实验
- 您可以在 TensorBoard Web 应用中查看与实验相关的数据(标量、直方图、分布等)。可在 Google Cloud 控制台中查看时序标量。如需了解详情,请参阅比较和分析运行作业。
-
Vertex AI SDK for Python
- Vertex AI SDK for Python 提供与 Vertex AI Python 客户端库类似的功能,但 SDK 级别更高且更精细。
-
Vertex 数据类型
- Vertex AI 数据类型有“图片”“文本”“表格”和“视频”。
-
视频片段
- 视频片段由视频的开始时间和结束时间偏移值来标识。
-
Virtual Private Cloud (VPC)
- 虚拟私有云是一种可按需配置的共享计算资源池,在公有云环境中分配,并在使用这些资源的不同组织之间提供一定程度的隔离。