Video Intelligence API 可使用 LABEL_DETECTION 功能識別影片中顯示的實體,並為這些實體加上標籤。這項功能可辨識物件、地點、活動、動物物種、產品等。
標籤偵測與物件追蹤不同。與物件追蹤不同,標籤偵測會為整個影格提供標籤 (不含定界框)。
例如,針對平交道上的火車影片,Video Intelligence API 可能傳回「火車」、「運輸」、「鐵路平交道」等的標籤。每個標籤的時間片段均含有時間偏移 (時間戳記),指出出現的實體距離影片開始的時間距離。每個註解還含有其他資訊,包括您在 Google Knowledge Graph Search API 中用來搜尋實體更多相關資訊的實體 ID。
每個傳回的實體也會在 categoryEntities
欄位中提供相關聯的類別實體。例如,「Terrier」實體標籤的類別為「Dog」。類別實體具有階層結構。例如,「狗」類別是階層中「哺乳動物」類別的子項。如需 Video Intelligence 所使用的一般類別實體清單,請參閱 entry-level-categories.json。
分析可分為以下幾個部分:
- 片段層級:
您可以指定使用者選取的影片片段,並透過註解的開始和結束時間戳記 (請參閱 VideoSegment) 進行分析。系統會在每個區段中識別實體並加以標示。如果沒有指定片段,系統會將整部影片視為一個片段。 - 鏡頭層級:
系統會在每個片段 (或影片) 中自動偵測鏡頭 (也稱為場景)。系統會在每個場景中識別實體並加上標籤。詳情請參閱「鏡頭轉換偵測」一節 - 影格層級:
系統會在每個影格內識別實體並加以標示 (每秒取樣一個影格)。
如要偵測影片中的標籤,請呼叫 annotate
方法,並在 features
欄位中指定 LABEL_DETECTION
。
Video Intelligence API 視覺化工具
請查看 Video Intelligence API 可視化工具,瞭解這項功能的運作方式。