Vertex AI の用語集

  • アノテーション セット
    • アノテーション セットには、データセット内でアップロードされたソースファイルに関連付けられたラベルが含まれます。アノテーション セットは、データ型と目標(動画や分類など)の両方に関連付けられます。
  • API エンドポイント
    • API エンドポイントは、ネットワーク アドレスを指定するサービス構成要素であり、サービス エンドポイントとも呼ばれます(例: aiplatform.googleapis.com)。
  • アプリケーションのデフォルト認証情報(ADC)
    • アプリケーションのデフォルト認証情報(ADC)を使用すると、Google API の呼び出しに使用する認可認証情報を簡単に取得できます。ユーザーに関係なく、アプリケーションで API を呼び出す際に同じ ID と認証のレベルを使用する必要があるケースに最適です。特に Google App Engine(GAE)または Compute Engine の仮想マシンにデプロイされるアプリケーションをビルドしている場合、これは Google Cloud APIs への呼び出しを承認する際の推奨アプローチです。詳細については、アプリケーションのデフォルト認証情報の仕組みをご覧ください。
  • 近似最近傍探索(ANN)
  • artifact
    • アーティファクトは、機械学習ワークフローによって生成、使用される個別のエンティティまたはデータです。アーティファクトの例としては、データセット、モデル、入力ファイル、トレーニング ログなどがあります。
  • Artifact Registry
    • Artifact Registry は、汎用的なアーティファクト管理サービスです。これは、Google Cloud でコンテナやその他のアーティファクトを管理する場合に推奨されるサービスです。詳細については、Artifact Registry をご覧ください。
  • 人工知能(AI)
    • 人工知能(AI)とは、知能があるように見える機械の研究と設計です。つまり、機械的な動き、推論、問題解決など、人間や知的機能を模倣する機械のことです。AI の最も一般的なサブフィールドの一つが機械学習です。機械学習では、統計的かつデータドリブンなアプローチを使用して AI を作成します。ただし、この 2 つの用語を同じ意味で使用する人もいます。
  • 認証
    • 保護されたシステムにアクセスするために、クライアント(ユーザーまたは別のプロセス)の ID を確認するプロセス。身元を証明したクライアントは、認証済みであるとみなされます。詳しくは、Google での認証方法をご覧ください。
  • AutoML
    • ブラック ボックス最適化を通じて「学習する」機械学習アルゴリズム。詳細については、ML 用語集をご覧ください。
  • ベースライン
    • 別のモデル(通常はより複雑なモデル)のパフォーマンスを比較するための参照点として使用されるモデル。たとえば、ロジスティック回帰モデルは、ディープラーニング モデルの優れたベースラインとして機能します。特定の問題の場合、ベースラインは、新しいモデルが有用であるために新しいモデルが達成する必要がある最小の期待パフォーマンスをモデル デベロッパーが定量化するために役立ちます。詳細については、ベースライン データセットとターゲット データセットをご覧ください。
  • バッチ
    • 1 回のトレーニング イテレーションで使用されるサンプルのセット。バッチサイズは、バッチ内のサンプル数を決定します。
  • バッチサイズ
    • バッチ内のサンプル数。たとえば、SGD のバッチサイズは 1 ですが、ミニバッチのバッチサイズは通常 10 ~ 1,000 です。バッチサイズは通常、トレーニングと推論中に固定されますが、TensorFlow ではバッチサイズを動的に設定できます。
  • バッチ予測
    • バッチ予測は、予測リクエストのグループを受け取り、結果を 1 つのファイルに出力します。詳細については、バッチ予測の取得をご覧ください。
  • バイアス
    • 1. 特定のこと、人、グループに対する固定観念、偏見、またはえこひいき。こうしたバイアスは、データの収集と解釈、システムの設計、ユーザーがシステムを操作する方法に影響する可能性があります。2. サンプリングや報告の手順で体系的に生じたエラー。
  • bidrectional
    • ターゲット テキストの前のテキストと後のテキストの両方を評価するシステムを表す用語です。一方、単方向システムは、対象のテキスト セクションの前に続くテキストのみを評価します。
  • Bidirectional Encoder Representations from Transformers(BERT)
    • BERT は言語表現の事前トレーニングの方法です。つまり、大規模なテキスト コーパス(ウィキペディアなど)で汎用言語理解モデルをトレーニングし、そのモデルを重要なダウンストリーム NLP タスク(質問応答など)に使用します。BERT は、NLP の事前トレーニング用の最初の教師なしの深い双方向システムであるため、以前の方法よりも優れています。
  • Bilingual Evaluation Understudy(BLEU)
    • 機械翻訳アルゴリズムの出力を 1 つ以上の人間による翻訳と比較して、その品質を評価するための一般的な指標です。
  • 境界ボックス
    • 動画フレーム内のオブジェクトの境界ボックスは、次の 2 つの方法のいずれかで指定できます。(i)長方形の対角線上の点の場合、x,y 座標のセットで構成される 2 つの頂点を使用します。(x_relative_min、y_relative_min、x_relative_max、y_relative_max など)か(ii)4 つの頂点すべてを使用する形式のいずれかで指定できます。詳細については、動画データを準備するをご覧ください。
  • バケット
    • Cloud Storage の最上位フォルダ。バケット名は、Cloud Storage のすべてのユーザー間で一意である必要があります。バケットにはファイルが格納されます。詳細については、Cloud Storage のプロダクトの概要をご覧ください。
  • チャット
    • ML システム(通常は大規模言語モデル)とのやり取りの内容。チャットでの以前のやり取り(入力内容と大規模言語モデルの回答)が、チャットの後続部分のコンテキストになります。chatbot は大規模言語モデルのアプリケーションです。
  • チェックポイント
    • トレーニング中またはトレーニング完了後にモデルのパラメータの状態をキャプチャするデータ。たとえば、トレーニング中に次のことができます。トレーニングを停止します。これは、意図的に行う場合もあれば、特定のエラーの結果として行う場合もあります。2. チェックポイントをキャプチャします。3. 後で、別のハードウェアでチェックポイントを再読み込みします。4. トレーニングを再開します。Gemini では、チェックポイントは特定のデータセットでトレーニングされた Gemini モデルの特定のバージョンを指します。
  • 分類モデル
    • 予測がクラスであるモデル。たとえば、次のモデルはすべて分類モデルです。入力文の言語(フランス語?スペイン語イタリア語)。木の種類(メープル?オークですか?バオバブ?)。特定の病状の陽性クラスまたは陰性クラスを予測するモデル。
  • 分類指標
    • Vertex AI SDK for Python でサポートされている分類指標は、混同行列と ROC 曲線です。
  • Cloud TPU
    • Google Cloud での ML ワークロードの高速化を目的として設計された特殊なハードウェア アクセラレータ。
  • コンテナ イメージ
    • コンテナ イメージは、コンポーネントの実行可能コードと、コードが実行される環境の定義が含まれるパッケージです。詳細については、カスタム トレーニングの概要をご覧ください。
  • context
    • コンテキストは、アーティファクトと実行を単一のクエリ可能なタイプ付きカテゴリにグループ化するために使用されます。コンテキストを使用してメタデータのセットを表すことができます。コンテキストの例としては、機械学習パイプラインの実行があります。
  • コンテキスト ウィンドウ
    • モデルが特定のプロンプトで処理できるトークンの数。コンテキスト ウィンドウが大きいほど、モデルはより多くの情報を使用できるため、プロンプトに一貫性のある回答を提供できます。
  • 顧客管理の暗号鍵(CMEK)
    • 顧客管理の暗号鍵(CMEK)は、お客様が Cloud KMS(別名 Storky)で管理する鍵を使用して既存の Google サービスのデータを暗号化できるようにする統合です。Cloud KMS の鍵は、データを保護する鍵暗号鍵です。詳細については、顧客管理の暗号鍵(CMEK)をご覧ください。
  • CustomJob
    • CustomJob は、Vertex AI でカスタムモデルをトレーニングするためにユーザーが作成できる 3 つの Vertex AI リソースの 1 つです。カスタム トレーニング ジョブは、Vertex AI でカスタム機械学習(ML)トレーニング コードを実行するための基本的な方法です。詳細については、カスタム トレーニング ジョブを作成するをご覧ください。
  • Dask
    • Dask は分散コンピューティング プラットフォームであり、TensorFlow、Pytorch、その他の ML フレームワークで分散トレーニング ジョブを管理するためによく使用されます。詳細については、Wikipedia をご覧ください。
  • データ分析
    • サンプル、測定、可視化を考慮してデータを理解する。データ分析は、データセットを初めて受信したとき、最初のモデルを構築する前に特に役立ちます。また、テストの理解やシステムの問題のデバッグにも不可欠です。
  • データ拡張
    • 既存のサンプルを変換して追加のサンプルを作成し、トレーニング サンプルの範囲と数を人為的に増やす。たとえば、画像が特徴の 1 つであるが、データセットにモデルが有用な関連性を学習するのに十分な画像サンプルが含まれていないとします。モデルを適切にトレーニングできるように、ラベル付けされた画像をデータセットに十分に追加することをおすすめします。それが不可能な場合は、データ拡張によって各画像を回転、伸縮、反射して、元の画像の多くのバリエーションを生成できます。これにより、優れたトレーニングを可能にする十分なラベル付きデータが得られる可能性があります。
  • DataFrame
    • メモリ内のデータセットを表す一般的な Pandas データ型。DataFrame は、テーブルやスプレッドシートに似ています。DataFrame の各列には名前(ヘッダー)があり、各行は一意の数値で識別されます。DataFrame 内の各列は 2 次元配列のように構成されていますが、各列に独自のデータ型を割り当てることができます。
  • dataset(データセット)
    • データセットは、おおまかに構造化データレコード群または非構造化データレコード群と定義されています。未加工データのコレクション。通常は、スプレッドシートまたは CSV(カンマ区切り値)形式のファイルのいずれかの形式で整理されます(ただし、必ずしもそうとは限りません)。詳細については、データセットの作成をご覧ください。
  • エンベディング
    • エンベディングは、データをセマンティックな意味で表すために使用されるベクトルの一種です。エンベディングは通常、ML 技術を使用して作成され、自然言語処理(NLP)やその他の ML アプリケーションで使用されます。
  • イベント
    • イベントは、アーティファクトと実行の関係を記述します。各アーティファクトは 1 つの実行によって生成され、他の実行で使用される可能性があります。イベントは、アーティファクトと実行を連結することで、ML ワークフローでアーティファクトの出所を特定するのに役立ちます。
  • 実行
    • 実行とは、個々の機械学習ワークフロー ステップのレコードで、通常はランタイムのパラメータでアノテーションが付けられています。実行の例としては、データの取り込み、データの検証、モデルのトレーニング、モデルの評価、モデルのデプロイなどがあります。
  • テスト
    • テストは、ユーザーが入力アーティファクトやハイパーパラメータなどのさまざまな構成をグループとして調査できるパイプライン実行に加えて、一連の n 個のテスト実行を格納できるコンテキストです。
  • テスト実行
    • テスト実行には、ユーザー定義の指標、パラメータ、実行、アーティファクト、Vertex リソース(PipelineJob など)を含めることができます。
  • 探索的データ分析
    • 統計情報の中で、探索的データ分析(EDA)はデータセットを分析して主な特性を要約するためのアプローチで、多くの場合視覚的な方法を使います。統計モデルは使用しても、しなくても構いませんが、EDA は主に、正式なモデリングまたは仮説テストタスク以外にデータで何がわかるかを確認するためのものです。
  • 特徴
    • 機械学習(ML)において、特徴とは、ML モデルのトレーニングや予測の入力として使用されるインスタンスまたはエンティティの特性(属性)のことです。
  • 特徴エンジニアリング
    • 特徴量エンジニアリングとは、機械学習(ML)の元データを ML モデルのトレーニングや予測に使用できる特徴量に変換するプロセスです。
  • 特徴値
    • 特徴値は、インスタンスまたはエンティティの特徴(属性)の実際の測定可能な値に対応します。一意のエンティティの特徴値のコレクションが、エンティティに対応する特徴レコードを表します。
  • 特徴のサービング
    • 特徴のサービングは、トレーニングまたは推論のために保存されている特徴値をエクスポートまたは取得するプロセスです。Vertex AI には、オンライン サービングとオフライン サービングの 2 種類の特徴のサービングがあります。オンライン サービングでは、オンライン予測用に特徴データソースのサブセットの最新の特徴値を取得します。オフラインまたはバッチ サービングでは、ML モデルのトレーニングなどのオフライン処理用に大量の特徴データをエクスポートします。
  • 特徴のタイムスタンプ
    • 特徴のタイムスタンプは、エンティティの特定の特徴レコードから特徴値のセットが生成された時刻を示します。
  • 特徴レコード
    • 特徴レコードは、特定の時点での一意のエンティティの属性を表すすべての特徴値を集約したものです。
  • 特徴レジストリ
    • 特徴レジストリは、オンライン予測に使用する特徴データソースを記録するための中心的なインターフェースです。詳細については、特徴レジストリの設定をご覧ください。
  • 特徴グループ
    • 特徴グループは、BigQuery のソーステーブルまたは特徴データを含むビューに対応する特徴レジストリ リソースです。 特徴ビューには特徴が含まれることがあり、データソース内の特徴列の論理グループと考えることができます。
  • 特徴ビュー
    • 特徴ビューは、BigQuery データソースからオンライン ストア インスタンスに具体化された特徴の論理的なコレクションです。特徴ビューは、顧客の特徴データを保存し、定期的に更新します。この特徴データは、BigQuery ソースから定期的に更新されます。特徴ビューは、直接、または特徴レジストリ リソースとの関連付けを通じて特徴データ ストレージに関連付けられます。
  • グラウンド トゥルース
    • ML の精度を現実世界と比較して検証することを指す用語。「グラウンド トゥルース データセット」のように使用します。
  • 損失(費用)
    • 教師ありモデルのトレーニング中に、モデルの予測がラベルからどのくらい離れているかを測定する指標。損失関数は損失を計算します。
  • ML パイプライン
    • MLパイプラインは移植可能でスケーラブルなコンテナベースのMLワークフローです。
  • model
    • 事前トレーニング済みか否かを問わない、あらゆるモデル。一般に、入力データを処理して出力を返す数学的な構造。別の言い方をすれば、モデルとは、システムが予測を行うために必要な一連のパラメータと構造です。
  • モデルのリソース名
    • model のリソース名は、プロジェクト/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>です。モデルの ID は、Cloud Console の [モデル レジストリ] ページで確認できます。
  • ネットワーク ファイル システム(NFS)
    • ユーザーがネットワーク経由でファイルにアクセスし、ローカル ファイル ディレクトリにあるかのように扱えるクライアント/サーバー システム。
  • オフライン ストア
    • オフライン ストアは、最近と過去の特徴データを保存するストレージ設備で、通常は ML モデルのトレーニングに使用されます。オフライン ストアには最新の特徴値も含まれており、オンライン予測にも使用できます。
  • オンライン ストア
    • 特徴管理において、オンライン ストアはオンライン予測のために提供される最新の特徴値を保存するストレージ設備です。
  • parameters
    • パラメータは、実行を構成し、実行の動作を調整して、実行の結果に影響を与えるキー付きの入力値です。例としては、学習率、ドロップアウト率、トレーニングの手順の数などがあります。
  • パイプライン コンポーネント
    • パイプラインのワークフローの 1 つのステップ(データの前処理、データの変換、モデルのトレーニングなど)を実行する自己完結型の一連のコード。
  • パイプライン ジョブ
    • パイプライン ジョブまたはパイプラインの実行は、Vertex AI API の PipelineJob リソースに対応しています。これは、ML パイプライン定義の実行インスタンスです。ML パイプライン定義は、入出力の依存関係で相互接続された一連の ML タスクとして定義されます。
  • パイプライン実行
    • 1 つ以上の Vertex PipelineJob を 1 つのテストに関連付けることができ、ここで、各 PipelineJob は単一の実行として表されます。このコンテキストで、実行のパラメータは PipelineJob のパラメータによって推定されます。指標は、その PipelineJob によって生成された system.Metric アーティファクトから推定されます。実行のアーティファクトは、その PipelineJob によって生成されたアーティファクトから推定されます。
  • pipeline template
    • 1 人のユーザーまたは複数のユーザーが複数のパイプライン実行を作成するために再利用できる ML ワークフロー定義。
  • Private Service Connect(PSC)
    • Private Service Connect は、Compute Engine のお客様がネットワーク内のプライベート IP を別の VPC ネットワークまたは Google API にマッピングできるテクノロジーです。
  • Private Service Connect インターフェース(PSC-I)
    • Private Service Connect インターフェースを使用すると、プロデューサーはコンシューマー VPC 内の任意のネットワーク リソースへの接続をプライベートに開始できます。
  • Vertex AI 上の Ray クラスタ
    • Vertex AI の Ray クラスタは、重要な ML ワークロードやピークシーズンに十分な容量を確保するために組み込まれています。ジョブの完了後にトレーニング サービスがリソースを解放するカスタムジョブとは異なり、Ray クラスタは削除されるまで使用できます。詳細については、Ray on Vertex AI の概要をご覧ください。
  • Ray on Vertex AI(RoV)
    • Ray on Vertex AI は、同じオープンソースの Ray コードを使用して、最小限の変更でプログラムを作成し、Vertex AI でアプリケーションを開発できるように設計されています。詳細については、Ray on Vertex AI の概要をご覧ください。
  • Ray on Vertex AI SDK for Python
    • Ray on Vertex AI SDK for Python は、Ray Client、Ray BigQuery コネクタ、Vertex AI での Ray クラスタ管理、Vertex AI での予測の機能が含まれているバージョンの Vertex AI SDK for Python です。詳細については、Vertex AI SDK for Python の概要をご覧ください。
  • recall
    • インデックスによって返された正しい最近傍の割合。たとえば、20 個の最近傍に対する最近傍のクエリで、グラウンド トゥルースの最近傍が 19 個返された場合、再現率は 19÷20×100 = 95% となります。
  • 絞り込み
    • ブール値ルールを使用して、インデックスのサブセットに対する検索を「制限」する機能。制限は「フィルタリング」とも呼ばれます。ベクトル検索では、数値フィルタリングとテキスト属性フィルタリングを使用できます。
  • サービス アカウント
    • Google Cloud では、サービス アカウントはユーザーではなく、アプリケーションや仮想マシン(VM)インスタンスによって使用される特別なアカウントです。アプリケーションは、サービス アカウントを使用して、承認された API 呼び出しを行います。
  • サマリー指標
    • サマリー指標はテスト実行の各指標キーの単一の値です。たとえば、テストのテスト精度は、トレーニング終了時にテスト データセットに対して計算された精度であり、単一の値のサマリー指標として捕捉できます。
  • TensorBoard
    • TensorBoard は、TensorFlow の実行とモデルを可視化して理解するための一連のウェブ アプリケーションです。詳細については、TensorBoard をご覧ください。
  • TensorBoard リソース名
    • TensorBoard リソース名は、Vertex AI TensorBoard インスタンスを完全に識別するために使用されます。形式は projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID です。
  • TensorBoard インスタンス
    • TensorBoard インスタンスは、プロジェクトに関連付けられた Vertex AI TensorBoard テストを保存するリージョン リソースです。たとえば、CMEK 対応インスタンスを複数希望する場合は、プロジェクトに複数の TensorBoard インスタンスを作成できます。これは、API の TensorBoard リソースと同じです。
  • TensorFlow Extended(TFX)
    • TensorFlow Extended(TFX)は、TensorFlow プラットフォームに基づいて本番環境 ML パイプラインをデプロイするためのエンドツーエンド プラットフォームです。
  • 時間オフセット
    • 時間オフセットは、動画の先頭を基準とします。
  • 時間セグメント
    • 時間セグメントは、開始時間と終了時間のオフセットで識別されます。
  • 時系列指標
    • 時系列指標は長期的な指標値であり、ここで、各値は実行のトレーニング ルーチンの部分の手順を表します。時系列指標は Vertex AI TensorBoard に保存されます。Vertex AI Experiments には、Vertex TensorBoard リソースへの参照が保存されます。
  • token
    • 言語モデルのトークンは、モデルがトレーニングと予測を行う場合の原子単位、つまり単語、形態素、文字です。言語モデル以外のドメインでは、トークンは他の種類のアトミックな単位を表すことができます。たとえば、コンピュータ ビジョンでは、トークンは画像のサブセットとなる場合があります。
  • 管理対象外のアーティファクト
    • Vertex AI コンテキスト外に存在するアーティファクト。
  • ベクトル
    • ベクトルは、大きさと方向を持つ浮動小数点値のリストです。数値、空間上の点、方向など、あらゆる種類のデータを表すことができます。
  • Vertex AI Experiments
    • Vertex AI Experiments では、次のものを追跡できます。テスト実行の手順(前処理、トレーニングなど)。2. 入力(アルゴリズム、パラメータ、データセットなど)。3. それらの手順の出力(モデル、チェックポイント、指標など)。
  • Vertex AI TensorBoard のテスト
    • テストに関連付けられたデータは、TensorBoard ウェブ アプリケーション(スカラー、ヒストグラム、分布など)で表示できます。時系列スカラーは Google Cloud コンソールで表示できます。詳細については、実行を比較して分析するをご覧ください。
  • Vertex AI SDK for Python
    • Vertex AI SDK for Python は、Vertex AI Python クライアント ライブラリと同様の機能を提供しますが、より高いレベルで粒度が粗くなります。
  • Vertex のデータ型
    • Vertex AI のデータ型は、「画像」、「テキスト」、「表形式」、「動画」です。
  • 動画セグメント
    • 動画セグメントは、動画の開始時間と終了時間のオフセットで識別されます。
  • Virtual Private Cloud(VPC)
    • Virtual Private Cloud は、パブリック クラウド環境に割り当てられた共有コンピューティング リソースのオンデマンドで構成可能なプールであり、リソースを使用してさまざまな組織を分離できます。