このページは Cloud Translation API によって翻訳されました。

動画理解

Gemini リクエストに動画を追加して、含まれる動画の内容を理解するタスクを実行できます。このページでは、 Google Cloud コンソールと Vertex AI API を使用して、Vertex AI で Gemini へのリクエストに動画を追加する方法について説明します。

サポートされているモデル

次の表に、動画理解をサポートするモデルを示します。

モデル	メディアの詳細	MIME タイプ
Gemini 2.5 Flash-Lite	動画の最大長（音声あり）: 約 45 分動画の長さの上限（音声なし）: 約 1 時間プロンプトあたりの動画の最大数: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Live API ネイティブ音声を使用した Gemini 2.5 Flash	画面共有の最大時間: 約 10 分	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Live API を使用した Gemini 2.0 Flash	動画の最大長（音声あり）: 約 45 分動画の長さの上限（音声なし）: 約 1 時間プロンプトあたりの動画の最大数: 10 1 分あたりの最大トークン数（TPM）: メディアの高解像度/中解像度/デフォルトの解像度: 米国/アジア: 3,790 万 EU: 9.5 M 低解像度のメディア: 米国/アジア: 1 G EU: 2.5 M	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
画像生成機能を備えた Gemini 2.0 Flash	動画の最大長（音声あり）: 約 45 分動画の長さの上限（音声なし）: 約 1 時間プロンプトあたりの動画の最大数: 10 1 分あたりの最大トークン数（TPM）: メディアの高解像度/中解像度/デフォルトの解像度: 米国/アジア: 3,790 万 EU: 9.5 M 低解像度のメディア: 米国/アジア: 1 G EU: 2.5 M	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Pro	動画の最大長（音声あり）: 約 45 分動画の長さの上限（音声なし）: 約 1 時間プロンプトあたりの動画の最大数: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash	動画の最大長（音声あり）: 約 45 分動画の長さの上限（音声なし）: 約 1 時間プロンプトあたりの動画の最大数: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash	動画の最大長（音声あり）: 約 45 分動画の長さの上限（音声なし）: 約 1 時間プロンプトあたりの動画の最大数: 10 1 分あたりの最大トークン数（TPM）: メディアの高解像度/中解像度/デフォルトの解像度: 米国/アジア: 3,800 万人 EU: 1,000 万低解像度のメディア: 米国/アジア: 1,000 万 EU: 2.5 M	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash-Lite	動画の最大長（音声あり）: 約 45 分動画の長さの上限（音声なし）: 約 1 時間プロンプトあたりの動画の最大数: 10 1 分あたりの最大トークン数（TPM）: メディアの高解像度/中解像度/デフォルトの解像度: 米国/アジア: 630 万 EU: 320 万低解像度のメディア: 米国/アジア: 320 万人 EU: 320 万	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`

割り当て指標は generate_content_video_input_per_base_model_id_and_resolution です。

Gemini モデルでサポートされている言語の一覧については、モデル情報の Google モデルをご覧ください。マルチモーダルプロンプトの設計方法について詳しくは、マルチモーダルプロンプトを設計するをご覧ください。モバイルアプリやウェブアプリから Gemini を直接使用することをお考えの場合は、Swift、Android、ウェブ、Flutter、Unity アプリの Firebase AI Logic クライアント SDK をご覧ください。

リクエストに動画を追加する

Gemini へのリクエストに 1 つまたは複数の動画を追加できます。動画には音声を含めることができます。

単一の動画

次の各タブのサンプルコードでは、動画に含まれているものを識別するさまざまな方法を示します。このサンプルは、すべての Gemini マルチモーダルモデルで動作します。

コンソール

Google Cloud コンソールでマルチモーダルプロンプトを送信する手順は次のとおりです。

Google Cloud コンソールの [Vertex AI] セクションで、[Vertex AI Studio] ページに移動します。

Vertex AI Studio に移動
[Create prompt] をクリックします。
省略可: モデルとパラメータを構成します。
- Model: モデルを選択します。
省略可: 詳細パラメータを構成するには、[詳細] をクリックして、次のように構成します。
クリックして [高度な構成] を開く
- トップ K: スライダーまたはテキストボックスを使用して、トップ K の値を入力します。
  Top-K は、モデルが出力用にトークンを選択する方法を変更します。Top-K が 1 の場合、次に選択されるトークンは、モデルの語彙内のすべてのトークンで最も確率の高いものであることになります（グリーディデコードとも呼ばれます）。Top-K が 3 の場合は、最も確率が高い上位 3 つのトークンから次のトークン選択されることになります（温度を使用します）。
  トークン選択のそれぞれのステップで、最も高い確率を持つ Top-K のトークンがサンプリングされます。その後、トークンはトップ P に基づいてさらにフィルタリングされ、最終的なトークンは温度サンプリングを用いて選択されます。
  
  ランダムなレスポンスを減らしたい場合は小さい値を、ランダムなレスポンスを増やしたい場合は大きい値を指定します。
- トップ P: スライダーまたはテキストボックスを使用して、トップ P の値を入力します。確率の合計が Top-P の値と等しくなるまで、最も確率が高いものから最も確率が低いものの順に、トークンが選択されます。結果を最小にするには、Top-P を 0 に設定します。
- 最大レスポンス数: スライダーまたはテキストボックスを使用して、生成するレスポンスの数の値を入力します。
- ストリーミングレスポンス: 有効にすると、レスポンスが生成されたときに出力されます。
- 安全フィルタのしきい値: 有害なおそれのあるレスポンスが表示される可能性のしきい値を選択します。
- グラウンディングを有効にする: マルチモーダルプロンプトでは、グラウンティングはサポートされていません。
- リージョン: 使用するリージョンを選択します。
- 温度: スライダーまたはテキストボックスを使用して、温度の値を入力します。
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
[メディアを挿入] をクリックし、ファイルのソースを選択します。
アップロード
アップロードするファイルを選択して [開く] をクリックします。

URL
使用するファイルの URL を入力し、[挿入] をクリックします。

YouTube

プレビュー版

この機能は、サービス固有の規約の「一般サービス規約」セクションの「pre-GA サービス規約」の対象となります。 pre-GA の機能は「現状のまま」で提供されるものであり、サポートが制限されることがあります。詳細については、リリースステージの説明をご覧ください。

使用する YouTube 動画の URL を入力し、[挿入] をクリックします。

公開されている動画や、 Google Cloud コンソールのログインに使用したアカウントが所有する動画を使用できます。

Cloud Storage
バケットを選択してから、バケット内のインポートするファイルを選択し、[選択] をクリックします。
Google ドライブ
1. このオプションを初めて選択するときに、アカウントを選択して Vertex AI Studio がアカウントにアクセスできるように同意します。合計サイズが最大 10 MB の複数のファイルをアップロードできます。1 つのファイルのサイズが 7 MB を超えないようにしてください。
2. 追加するファイルをクリックします。
3. [選択] をクリックします。
  
  ファイルのサムネイルが [プロンプト] ペインに表示されます。トークンの合計数も表示されます。プロンプトデータがトークンの上限を超えると、トークンは切り捨てられ、データの処理には含まれません。
[プロンプト] ペインにテキストプロンプトを入力します。
省略可: [テキストのトークン ID] と [トークン ID] を表示するには、[プロンプト] ペインで [トークン数] をクリックします。
注: メディアトークンはサポートされていません。
[送信] をクリックします。
省略可: プロンプトを [マイプロンプト] に保存するには、[ 保存] をクリックします。
省略可: プロンプトの Python コードまたは curl コマンドを取得するには、[ コードで構築 > コードを取得] をクリックします。

Python

インストール

pip install --upgrade google-genai

詳しくは、 SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

Go

Go をインストールまたは更新する方法をご確認ください。

詳しくは、 SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// generateWithMuteVideo shows how to generate text using a video with no sound as the input.
func generateWithMuteVideo(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.0-flash-001"
	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "What is in the video?"},
			{FileData: &genai.FileData{
				FileURI:  "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
				MIMEType: "video/mp4",
			}},
		},
			Role: "user"},
	}

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// The video shows several surfers riding waves in an ocean setting. The waves are ...

	return nil
}

REST

環境をセットアップしたら、REST を使用してテキストプロンプトをテストできます。次のサンプルは、パブリッシャーモデルのエンドポイントにリクエストを送信します。

リクエストのデータを使用する前に、次のように置き換えます。

PROJECT_ID: 実際のプロジェクト ID。
FILE_URI: プロンプトに含めるファイルの URI または URL。指定できる値は以下のとおりです。
- Cloud Storage バケット URI: オブジェクトは一般公開されているか、リクエストを送信する Google Cloud プロジェクトと同じプロジェクトに存在している必要があります。gemini-2.0-flash と gemini-2.0-flash-lite の場合、サイズの上限は 2 GB です。
- HTTP URL: ファイルの URL は一般公開されている必要があります。リクエストごとに 1 つの動画ファイル、1 つの音声ファイル、最大 10 個の画像ファイルを指定できます。音声ファイル、動画ファイル、ドキュメントのサイズは 15 MB 以下にする必要があります。
- YouTube 動画の URL: YouTube 動画は、 Google Cloud コンソールのログインに使用したアカウントが所有しているか、公開されている必要があります。リクエストごとにサポートされる YouTube 動画の URL は 1 つだけです。
fileURI を指定する場合は、ファイルのメディアタイプ（mimeType）も指定する必要があります。VPC Service Controls が有効になっている場合、fileURI のメディアファイル URL の指定はサポートされていません。

Cloud Storage に動画ファイルがない場合は、次の一般公開ファイル（MIME タイプが video/mp4 の gs://cloud-samples-data/video/animals.mp4）を使用できます。この動画を表示するには、サンプルの MP4 ファイルを開きます。
MIME_TYPE: data フィールドまたは fileUri フィールドで指定されたファイルのメディアタイプ。指定できる値は以下のとおりです。
クリックして MIME タイプを開く
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT: プロンプトに含める指示のテキスト。例: What is in the video?

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ユーザーアカウントで gcloud CLI にログインしているか、Cloud Shell を使用して自動的に gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存します。ターミナルで次のコマンドを実行して、このファイルを現在のディレクトリに作成または上書きします。

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

その後、次のコマンドを実行して REST リクエストを送信します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ご自分のユーザーアカウントで gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

その後、次のコマンドを実行して REST リクエストを送信します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

レスポンス

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "This video is a commercial for Google Photos, featuring animals taking selfies
              with the Google Photos app. The commercial plays on the popularity of media in which
              animals act like humans, especially their use of technology. The commercial also
              highlights the app's ability to automatically back up photos."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

このサンプルの URL にある次の点に注意してください。

generateContent メソッドを使用して、レスポンスが完全に生成された後に返されるようにリクエストします。ユーザーが認識するレイテンシを短縮するには、streamGenerateContent メソッドを使用して、生成時にレスポンスをストリーミングします。
マルチモーダルモデル ID は、URL の末尾のメソッドの前に配置されます（例: gemini-2.0-flash）。このサンプルでは、他のモデルもサポートされている場合があります。

音声付きの動画

以下は、音声を含む動画ファイルを要約し、タイムスタンプ付きのチャプターを返す方法を示しています。このサンプルは Gemini 2.0 で動作します。

Python

インストール

pip install --upgrade google-genai

詳しくは、 SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

REST

リクエストのデータを使用する前に、次のように置き換えます。

PROJECT_ID: 実際のプロジェクト ID。
FILE_URI: プロンプトに含めるファイルの URI または URL。指定できる値は以下のとおりです。
- Cloud Storage バケット URI: オブジェクトは一般公開されているか、リクエストを送信する Google Cloud プロジェクトと同じプロジェクトに存在している必要があります。gemini-2.0-flash と gemini-2.0-flash-lite の場合、サイズの上限は 2 GB です。
- HTTP URL: ファイルの URL は一般公開されている必要があります。リクエストごとに 1 つの動画ファイル、1 つの音声ファイル、最大 10 個の画像ファイルを指定できます。音声ファイル、動画ファイル、ドキュメントのサイズは 15 MB 以下にする必要があります。
- YouTube 動画の URL: YouTube 動画は、 Google Cloud コンソールのログインに使用したアカウントが所有しているか、公開されている必要があります。リクエストごとにサポートされる YouTube 動画の URL は 1 つだけです。
fileURI を指定する場合は、ファイルのメディアタイプ（mimeType）も指定する必要があります。VPC Service Controls が有効になっている場合、fileURI のメディアファイル URL の指定はサポートされていません。

Cloud Storage に動画ファイルがない場合は、次の一般公開ファイル（MIME タイプが video/mp4 の gs://cloud-samples-data/generative-ai/video/pixel8.mp4）を使用できます。この動画を表示するには、サンプルの MP4 ファイルを開きます。
MIME_TYPE: data フィールドまたは fileUri フィールドで指定されたファイルのメディアタイプ。指定できる値は以下のとおりです。
クリックして MIME タイプを開く
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
```
TEXT
```
プロンプトに含める指示のテキスト。例: Provide a description of the video. The description should also contain anything important which people say in the video.。

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

その後、次のコマンドを実行して REST リクエストを送信します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

その後、次のコマンドを実行して REST リクエストを送信します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

レスポンス

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "The video opens with a shot of a train traveling over a bridge in the night. \n
              \nThe scene changes to a woman walking in the streets of Tokyo. She says "My name is
              Saeko. I am a photographer in Tokyo. Tokyo has many faces. The city at night
              is totally different from what you see during the day. The new Pixel has a feature
              called "Video Boost". In low light, it activates "Night Sight" to make the quality
              even better." \n\nShe then uses her phone to take several photos of different parts of
              the city including a street with a lot of shops, a small alleyway, and a small
              restaurant. She says "Sancha is where I used to live when I first moved to Tokyo. I
              have a lot of great memories here. Oh, I like this." \n\nShe smiles and says
              "Beautiful".\n\nThe video ends with the woman standing in a different part of the
              city. She says "Next, I came to Shibuya." The scene shows the famous Shibuya crossing
              in the night. \n\nThe video features a woman showcasing the camera features of the
              Google Pixel phone while walking around the streets of Tokyo. She mentions "Night
              Sight" and "Video Boost" features. \n"
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

このサンプルの URL にある次の点に注意してください。

generateContent メソッドを使用して、レスポンスが完全に生成された後に返されるようにリクエストします。ユーザーが認識するレイテンシを短縮するには、streamGenerateContent メソッドを使用して、生成時にレスポンスをストリーミングします。
マルチモーダルモデル ID は、URL の末尾のメソッドの前に配置されます（例: gemini-2.0-flash）。このサンプルでは、他のモデルもサポートされている場合があります。

コンソール

Google Cloud コンソールでマルチモーダルプロンプトを送信する手順は次のとおりです。

Google Cloud コンソールの [Vertex AI] セクションで、[Vertex AI Studio] ページに移動します。

Vertex AI Studio に移動
[Create prompt] をクリックします。
省略可: モデルとパラメータを構成します。
- Model: モデルを選択します。
省略可: 詳細パラメータを構成するには、[詳細] をクリックして、次のように構成します。
クリックして [高度な構成] を開く
- トップ K: スライダーまたはテキストボックスを使用して、トップ K の値を入力します。
  Top-K は、モデルが出力用にトークンを選択する方法を変更します。Top-K が 1 の場合、次に選択されるトークンは、モデルの語彙内のすべてのトークンで最も確率の高いものであることになります（グリーディデコードとも呼ばれます）。Top-K が 3 の場合は、最も確率が高い上位 3 つのトークンから次のトークン選択されることになります（温度を使用します）。
  トークン選択のそれぞれのステップで、最も高い確率を持つ Top-K のトークンがサンプリングされます。その後、トークンはトップ P に基づいてさらにフィルタリングされ、最終的なトークンは温度サンプリングを用いて選択されます。
  
  ランダムなレスポンスを減らしたい場合は小さい値を、ランダムなレスポンスを増やしたい場合は大きい値を指定します。
- トップ P: スライダーまたはテキストボックスを使用して、トップ P の値を入力します。確率の合計が Top-P の値と等しくなるまで、最も確率が高いものから最も確率が低いものの順に、トークンが選択されます。結果を最小にするには、Top-P を 0 に設定します。
- 最大レスポンス数: スライダーまたはテキストボックスを使用して、生成するレスポンスの数の値を入力します。
- ストリーミングレスポンス: 有効にすると、レスポンスが生成されたときに出力されます。
- 安全フィルタのしきい値: 有害なおそれのあるレスポンスが表示される可能性のしきい値を選択します。
- グラウンディングを有効にする: マルチモーダルプロンプトでは、グラウンティングはサポートされていません。
- リージョン: 使用するリージョンを選択します。
- 温度: スライダーまたはテキストボックスを使用して、温度の値を入力します。
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
[メディアを挿入] をクリックし、ファイルのソースを選択します。
アップロード
アップロードするファイルを選択して [開く] をクリックします。

URL
使用するファイルの URL を入力し、[挿入] をクリックします。

YouTube

プレビュー版

この機能は、サービス固有の規約の「一般サービス規約」セクションの「pre-GA サービス規約」の対象となります。 pre-GA の機能は「現状のまま」で提供されるものであり、サポートが制限されることがあります。詳細については、リリースステージの説明をご覧ください。

使用する YouTube 動画の URL を入力し、[挿入] をクリックします。

公開されている動画や、 Google Cloud コンソールのログインに使用したアカウントが所有する動画を使用できます。

Cloud Storage
バケットを選択してから、バケット内のインポートするファイルを選択し、[選択] をクリックします。
Google ドライブ
1. このオプションを初めて選択するときに、アカウントを選択して Vertex AI Studio がアカウントにアクセスできるように同意します。合計サイズが最大 10 MB の複数のファイルをアップロードできます。1 つのファイルのサイズが 7 MB を超えないようにしてください。
2. 追加するファイルをクリックします。
3. [選択] をクリックします。
  
  ファイルのサムネイルが [プロンプト] ペインに表示されます。トークンの合計数も表示されます。プロンプトデータがトークンの上限を超えると、トークンは切り捨てられ、データの処理には含まれません。
[プロンプト] ペインにテキストプロンプトを入力します。
省略可: [テキストのトークン ID] と [トークン ID] を表示するには、[プロンプト] ペインで [トークン数] をクリックします。
注: メディアトークンはサポートされていません。
[送信] をクリックします。
省略可: プロンプトを [マイプロンプト] に保存するには、[ 保存] をクリックします。
省略可: プロンプトの Python コードまたは curl コマンドを取得するには、[ コードで構築 > コードを取得] をクリックします。

動画処理をカスタマイズする

Gemini for Google Cloud API で、クリッピング間隔を設定するか、カスタムフレームレートサンプリングを指定することで、動画処理をカスタマイズできます。

クリッピング間隔を設定する

開始オフセットと終了オフセットを指定して videoMetadata を指定すると、動画をクリップできます。

カスタムフレームレートを設定する

videoMetadata に fps 引数を渡すことで、カスタムフレームレートサンプリングを設定できます。

デフォルトでは、動画から 1 秒あたり 1 フレーム（FPS）がサンプリングされます。長い動画の場合は、FPS を低く（1 未満）設定することをおすすめします。この機能は、ほとんど静止している動画（講義など）に特に役立ちます。急速に変化する映像の詳細をキャプチャする場合は、FPS の値を高く設定することを検討してください。

メディアの解像度を調整する

MediaResolution を調整して、より少ないトークンで動画を処理できます。

オプションのモデルパラメータを設定する

各モデルには、設定可能な一連のオプションパラメータがあります。詳細については、コンテンツ生成パラメータをご覧ください。

動画のトークン化

動画のトークンの計算方法は次のとおりです。

音声トラックは動画フレームでエンコードされます。また、オーディオトラックは 1 秒のトランクに分割されます。トランクはそれぞれ 32 個のトークンから構成されます。動画フレームと音声トークンは、タイムスタンプとともにインターリーブされます。タイムスタンプは 5 個のトークンで表されます。
動画は 1 秒あたり 1 フレーム（fps）でサンプリングされます。動画フレームごとに 258 個のトークンが使用されます。

ベストプラクティス

動画を使用する場合は、最良の結果を得るために、次のベストプラクティスと情報を使用してください。

プロンプトに 1 つの動画が含まれている場合は、テキストプロンプトの前に動画を配置します。
音声付き動画のタイムスタンプのローカライズが必要な場合は、モデルに MM:SS 形式のタイムスタンプを生成させます。最初の 2 桁が分、最後の 2 桁が秒を表します。タイムスタンプに関する質問にも同じ形式を使用します。

制限事項

Gemini マルチモーダルモデルは多くのマルチモーダルユースケースに対応していますが、モデルの制限事項も理解しておく必要があります。

コンテンツの管理: Google の安全に関するポリシーに違反する動画に対する回答は拒否されます。
非音声の認識: 音声をサポートするモデルでは、音声以外の音を認識する際に誤りが発生する可能性があります。
高速モーション: サンプリングレートが 1 秒あたり 1 フレーム（fps）に固定されているため、動画内の高速モーションを認識する際に誤りが発生する可能性があります。

動画に関する技術的な詳細

サポートされているモデルとコンテキスト: すべての Gemini 2.0 モデルと 2.5 モデルで動画データを処理できます。
- 200 万個のコンテキストウィンドウを持つモデルは、デフォルトのメディア解像度で最大 2 時間、低メディア解像度で最大 6 時間の動画を処理できます。一方、100 万個のコンテキストウィンドウを持つモデルは、デフォルトのメディア解像度で最大 1 時間、低メディア解像度で最大 3 時間の動画を処理できます。
File API の処理: File API を使用する場合、動画は 1 秒あたり 1 フレーム（FPS）でサンプリングされ、音声は 1 Kbps（シングルチャンネル）で処理されます。タイムスタンプは 1 秒ごとに追加されます。
- これらのレートは、推論の改善のために今後変更される可能性があります。
トークンの計算: 動画の各秒は次のようにトークン化されます。
- 個々のフレーム（1 FPS でサンプリング）:
  - mediaResolution が低に設定されている場合、フレームはフレームあたり 66 個のトークンでトークン化されます。
  - それ以外の場合、フレームはフレームあたり 258 個のトークンでトークン化されます。
- 音声: 1 秒あたり 32 個のトークン。
- メタデータも含まれます。
- 合計: デフォルトのメディア解像度では動画 1 秒あたり約 300 トークン、低メディア解像度では動画 1 秒あたり 100 トークン。
タイムスタンプの形式: プロンプト内で動画の特定の瞬間を参照する場合は、MM:SS 形式（例: 01:15（1 分 15 秒）。
ベストプラクティス:
- 最適な結果を得るには、プロンプトリクエストごとに 1 つの動画のみを使用します。
- テキストと 1 つの動画を組み合わせる場合は、contents 配列の動画部分の後にテキストプロンプトを配置します。
- 1 FPS のサンプリングレートでは、高速なアクションシーケンスの詳細が失われる可能性があります。必要に応じて、そのようなクリップの速度を遅くすることを検討してください。

次のステップ

Gemini マルチモーダルモデルで構築を開始する - 新規のお客様は Google Cloud クレジット $300 分を無料で利用して、Gemini の機能をお試しいただけます。
チャットプロンプトリクエストの送信方法を学習する。
責任ある AI のベストプラクティスと Vertex AI の安全フィルタについて学習する。

動画理解 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

サポートされているモデル

リクエストに動画を追加する

単一の動画

コンソール

クリックして [高度な構成] を開く

アップロード

URL

YouTube

Cloud Storage

Google ドライブ

Python

インストール

Go

REST

curl

PowerShell

レスポンス

音声付きの動画

Python

インストール

REST

curl

PowerShell

レスポンス

コンソール

クリックして [高度な構成] を開く

アップロード

URL

YouTube

Cloud Storage

Google ドライブ

動画処理をカスタマイズする

クリッピング間隔を設定する

カスタム フレームレートを設定する

メディアの解像度を調整する

オプションのモデル パラメータを設定する

動画のトークン化

ベスト プラクティス

制限事項

動画に関する技術的な詳細

次のステップ

動画理解

カスタムフレームレートを設定する

オプションのモデルパラメータを設定する

ベストプラクティス