Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Transkripsi Ucapan mentranskripsikan audio lisan dalam video atau segmen video
menjadi teks dan menampilkan blok teks untuk setiap bagian audio yang ditranskripsikan.
Model yang didukung
Video Intelligence hanya mendukung bahasa Inggris (AS). Untuk bahasa lain, gunakan
Speech-to-Text API, yang mendukung semua bahasa yang tersedia. Untuk mengetahui daftar
bahasa yang tersedia, lihat Dukungan
bahasa dalam
dokumentasi Speech-to-Text.
Untuk mentranskripsikan ucapan dari video, panggil metode
annotate
dan tentukan
SPEECH_TRANSCRIPTION
di kolom features.
Anda dapat menggunakan fitur berikut saat mentranskripsikan ucapan:
Kata alternatif: Gunakan opsi maxAlternatives untuk menentukan
jumlah maksimum opsi terjemahan teks yang dikenali untuk disertakan dalam
respons. Nilai ini dapat berupa bilangan bulat dari 1 hingga 30. Nilai defaultnya adalah 1.
API menampilkan beberapa transkripsi dalam urutan menurun berdasarkan
nilai keyakinan untuk transkripsi. Transkripsi alternatif
tidak menyertakan entri tingkat kata.
Filter kata-kata tidak sopan: Gunakan opsi filterProfanity untuk memfilter kata-kata tidak sopan
yang diketahui dalam transkripsi. Kata yang cocok akan diganti dengan karakter awal kata diikuti dengan tanda bintang. Secara default, nilainya adalah false.
Petunjuk transkripsi: Gunakan opsi speechContexts untuk memberikan frasa umum atau
tidak biasa dalam audio Anda. Frasa tersebut kemudian digunakan untuk membantu
layanan transkripsi membuat transkripsi yang lebih akurat. Anda memberikan
petunjuk transkripsi sebagai
objek
SpeechContext.
Pemilihan trek audio: Gunakan opsi audioTracks untuk menentukan trek
yang akan ditranskripsikan dari video multi-trek. Pengguna dapat menentukan hingga dua jalur.
Defaultnya adalah 0.
Setelah kode bahasa ditetapkan ke en-US, permintaan akan dirutekan ke mode
yang ditingkatkan, yang dilatih dengan audio en-US; mode ini tidak benar-benar mengetahui en-US atau
bahasa lain. Jika kita memasukkan audio bahasa Spanyol ke dalam model yang ditingkatkan,
transkripsi akan berjalan, tetapi mungkin ada output dengan skor keyakinan
yang rendah, atau tidak ada output sama sekali – yang merupakan hal yang diharapkan dari model yang baik.
Tanda baca otomatis: Gunakan opsi enableAutomaticPunctuation
untuk menyertakan tanda baca dalam teks yang ditranskripsikan. Secara default, nilainya adalah false.
Beberapa pembicara: Gunakan opsi enableSpeakerDiarization untuk mengidentifikasi
beberapa pembicara dalam video. Dalam respons, setiap kata yang dikenali menyertakan kolom speakerTag yang mengidentifikasi pembicara yang diatribusikan kata yang dikenali.
Untuk hasil terbaik, sediakan audio yang direkam pada frekuensi sampling 16.000 Hz atau lebih.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-08-17 UTC."],[],[],null,["# Speech transcription\n\n*Speech Transcription* transcribes spoken audio in a video or video segment\ninto text and returns blocks of text for each portion of the transcribed audio.\n\nSupported models\n----------------\n\nThe Video Intelligence only supports English (US). For other languages, use\nthe Speech-to-Text API, which supports all available languages. For the list of\navailable languages, see [Language\nsupport](/speech-to-text/docs/speech-to-text-supported-languages) in the\nSpeech-to-Text documentation.\n\nTo transcribe speech from a video, call the\n[`annotate`](/video-intelligence/docs/reference/rest/v1/videos/annotate)\nmethod and specify\n[`SPEECH_TRANSCRIPTION`](/video-intelligence/docs/reference/rest/v1/videos#Feature)\nin the `features` field.\n\nYou can use the following features when transcribing speech:\n\n- **Alternative words** : Use the `maxAlternatives` option to specify\n the maximum number of options for recognized text translations to include in the\n response. This value can be an integer from 1 to 30. The default is 1.\n The API returns multiple transcriptions in descending order based on\n the confidence value for the transcription. Alternative transcriptions\n do not include word-level entries.\n\n- **Profanity filtering** : Use the `filterProfanity` option to filter out known\n profanities in transcriptions. Matched words are replaced with the leading\n character of the word followed by asterisks. The default is false.\n\n- **Transcription hints** : Use the `speechContexts` option to provide common or\n unusual phrases in your audio. Those phrases are then used to assist the\n transcription service to create more accurate transcriptions. You provide\n a transcription hint as a\n [SpeechContext](/video-intelligence/docs/reference/rest/v1/videos#SpeechContext)\n object.\n\n- **Audio track selection** : Use the `audioTracks` option to specify which track\n to transcribe from multi-track video. Users can specify up to two tracks.\n Default is 0.\n Once the language code is set to en-US, the request is routed to the enhanced\n mode, which is trained on en-US audio; it does not really *know* en-US or\n any other languages per se. If we feed a Spanish audio into the enhanced model,\n transcription will run its course but there may be outputs with low confidence\n scores, or no output at all -- which is what is expected of a good model.\n\n- **Automatic punctuation** : Use the `enableAutomaticPunctuation` option\n to include punctuation in the transcribed text. The default is false.\n\n- **Multiple speakers** : Use the `enableSpeakerDiarization` option to identify\n different speakers in a video. In the response, each recognized word includes\n a `speakerTag` field that identifies which speaker the recognized word is\n attributed to.\n\nFor best results, provide audio recorded at 16,000Hz or greater sampling rate.\n\nCheck out the [Video Intelligence API visualizer](https://zackakil.github.io/video-intelligence-api-visualiser/#Speech%20Transcription) to see this feature in action.\n\nFor examples of requesting speech transcription,\nsee [Speech Transcription](/video-intelligence/docs/transcription)."]]