Analizar vídeos para detectar etiquetas

La API Video Intelligence puede identificar las entidades que aparecen en las grabaciones de vídeo mediante la función LABEL_DETECTION y anotar estas entidades con etiquetas. Esta función identifica objetos, ubicaciones, actividades, especies de animales, productos y más.

La detección de etiquetas es diferente del seguimiento de objetos. A diferencia del seguimiento de objetos, la detección de etiquetas proporciona etiquetas para todo el fotograma (sin cuadros delimitadores).

Por ejemplo, en un vídeo de un tren en un cruce, la API Video Intelligence devuelve etiquetas como "tren", "transporte", "cruce ferroviario", etc. Cada etiqueta incluye un segmento de tiempo con el desfase de tiempo (marca de tiempo) de la aparición de la entidad desde el principio del vídeo. Cada anotación también contiene información adicional, incluido un ID de entidad que puede usar para obtener más información sobre la entidad en la API de búsqueda del gráfico de conocimiento de Google.

Cada entidad devuelta también puede incluir entidades de categoría asociadas en el campo categoryEntities. Por ejemplo, la etiqueta de entidad "Terrier" tiene la categoría "Perro". Las entidades de categoría tienen una jerarquía. Por ejemplo, la categoría "Perro" es una subcategoría de "Mamífero" en la jerarquía. Para ver una lista de las entidades de categorías comunes que usa Video Intelligence, consulta entry-level-categories.json.

El análisis se puede compartimentar de la siguiente manera:

  • Nivel de segmento:
    se pueden especificar segmentos de un vídeo seleccionados por el usuario para analizarlos. Para ello, se deben indicar las marcas de tiempo de inicio y de finalización con el fin de añadir anotaciones (consulta VideoSegment). A continuación, se identifican y etiquetan las entidades en cada segmento. Si no se especifica ningún segmento, se considera que todo el vídeo es un segmento.

  • Nivel de toma:
    las tomas (también conocidas como escenas) se detectan automáticamente en cada segmento (o vídeo). A continuación, se identifican y etiquetan las entidades en cada escena. Para obtener más información, consulta Detección de cambios de plano.
  • Nivel de fotograma:
    las entidades se identifican y etiquetan en cada fotograma (con un muestreo de un fotograma por segundo).

Para detectar etiquetas en un vídeo, llama al método annotate y especifica LABEL_DETECTION en el campo features.

Consulta Analizar vídeos para detectar etiquetas y el tutorial de detección de etiquetas.

Visualizador de la API Video Intelligence

Consulta el visualizador de la API Video Intelligence para ver esta función en acción.