Trascrizione del parlato

La trascrizione vocale trascrive l'audio parlato in un video o in un segmento video in testo e restituisce blocchi di testo per ogni porzione dell'audio trascritto.

Modelli supportati

Video Intelligence supporta solo l'inglese (Stati Uniti). Per le altre lingue, utilizza l'API Speech-to-Text, che supporta tutte le lingue disponibili. Per l'elenco delle lingue disponibili, consulta Supporto delle lingue nella documentazione di Speech-to-Text.

Per trascrivere il parlato di un video, chiama il metodo annotate e specifica SPEECH_TRANSCRIPTION nel campo features.

Quando trascrivi un discorso, puoi utilizzare le seguenti funzionalità:

  • Parole alternative: utilizza l'opzione maxAlternatives per specificare il numero massimo di opzioni per le traduzioni di testo riconosciute da includere nella risposta. Questo valore può essere un numero intero compreso tra 1 e 30. Il valore predefinito è 1. L'API restituisce più trascrizioni in ordine decrescente in base al valore di affidabilità della trascrizione. Le trascrizioni alternative non includono voci a livello di parola.

  • Filtro per il linguaggio volgare: utilizza l'opzione filterProfanity per filtrare le volgarità note nelle trascrizioni. Le parole corrispondenti vengono sostituite con il primo carattere della parola seguito da asterischi. Il valore predefinito è false.

  • Suggerimenti per la trascrizione: utilizza l'opzione speechContexts per fornire frasi comuni o insolite nell'audio. Queste frasi vengono poi utilizzate per aiutare il servizio di trascrizione a creare trascrizioni più accurate. Fornisci un suggerimento per la trascrizione come oggetto SpeechContext.

  • Selezione della traccia audio: utilizza l'opzione audioTracks per specificare la traccia da trascrivere dal video multitraccia. Gli utenti possono specificare fino a due tracce. Il valore predefinito è 0. Una volta impostato il codice della lingua su en-US, la richiesta viene indirizzata alla modalità avanzata, che è addestrata sull'audio in inglese (Stati Uniti); non conosce veramente l'inglese (Stati Uniti) o qualsiasi altra lingua. Se inseriamo un audio in spagnolo nel modello avanzato, la trascrizione seguirà il suo corso, ma potrebbero esserci output con punteggi di confidenza bassi o nessun output, il che è ciò che ci si aspetta da un buon modello.

  • Punteggiatura automatica: utilizza l'opzione enableAutomaticPunctuation per includere la punteggiatura nel testo trascritto. Il valore predefinito è false.

  • Più interlocutori: utilizza l'opzione enableSpeakerDiarization per identificare i diversi interlocutori in un video. Nella risposta, ogni parola riconosciuta include un campo speakerTag che identifica a quale speaker è attribuita la parola riconosciuta.

Per risultati ottimali, fornisci audio registrato con una frequenza di campionamento pari o superiore a 16.000 Hz.

Dai un'occhiata al visualizzatore dell'API Video Intelligence per vedere questa funzionalità in azione.

Per esempi di richieste di trascrizione vocale, consulta Trascrizione vocale.