Text-to-Speech Chirp 3: Suara HD mewakili teknologi Text-to-Speech generasi terbaru. Didukung oleh LLM canggih kami, suara ini memberikan tingkat realisme dan resonansi emosional yang tak tertandingi.
![]() |
![]() |
Opsi Suara
Berbagai opsi suara tersedia, masing-masing dengan karakteristik yang berbeda:
Nama | Gender | Demo |
---|---|---|
Aoede | Perempuan | |
Puck | Laki-laki | |
Charon | Laki-laki | |
Kore | Perempuan | |
Fenrir | Laki-laki | |
Leda | Perempuan | |
Orus | Laki-laki | |
Zephyr | Perempuan |
Ketersediaan Bahasa
Chirp 3: Suara HD didukung dalam bahasa berikut:
Bahasa | Kode BCP-47 |
---|---|
Jerman (Jerman) | de-DE |
Inggris (Australia) | en-AU |
Inggris (Inggris Raya) | en-GB |
Inggris (India) | en-IN |
Spanyol (Amerika Serikat) | es-US |
Prancis (Prancis) | fr-FR |
Hindi (India) | hi-IN |
Portugis (Brasil) | pt-BR |
Arab (Umum) | ar-XA |
Spanyol (Spanyol) | es-ES |
Prancis (Kanada) | fr-CA |
Indonesia (Indonesia) | id-ID |
Italia (Italia) | it-IT |
Jepang (Jepang) | ja-JP |
Turki (Turki) | tr-TR |
Vietnam (Vietnam) | vi-VN |
Bengali (India) | bn-IN |
Gujarati (India) | gu-IN |
Kannada (India) | kn-IN |
Malayalam (India) | ml-IN |
Marathi (India) | mr-IN |
Tamil (India) | ta-IN |
Telugu (India) | te-IN |
Belanda (Belanda) | nl-NL |
Korea (Korea Selatan) | ko-KR |
Mandarin (China) | cmn-CN |
Polandia (Polandia) | pl-PL |
Rusia (Rusia) | ru-RU |
Thai (Thailand) | th-TH |
Ketersediaan Regional
Chirp 3: Suara HD tersedia di region Google Cloud berikut:
Google Cloud Zona | Kesiapan Peluncuran |
---|---|
global |
GA |
us |
GA |
eu |
GA |
asia-southeast1 |
GA |
Format output yang didukung
Format respons default adalah LINEAR16, tetapi format lain yang didukung mencakup:
Metode API | Format |
---|---|
streaming |
ALAW, MULAW, OGG_OPUS, dan PCM |
batch |
ALAW, MULAW, MP3, OGG_OPUS, dan PCM |
Menggunakan Chirp 3: Suara HD
Temukan cara menggunakan suara Chirp 3: HD untuk menyintesis ucapan.
Melakukan permintaan sintesis ucapan streaming
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Text-to-Speech, lihat library klien Text-to-Speech. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi Text-to-Speech Python API.
Untuk mengautentikasi ke Text-to-Speech, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Melakukan permintaan sintesis ucapan online
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Text-to-Speech, lihat library klien Text-to-Speech. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi Text-to-Speech Python API.
Untuk mengautentikasi ke Text-to-Speech, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Tips pembuatan skrip dan perintah
Membuat audio yang menarik dan terdengar alami dari teks memerlukan pemahaman nuansa bahasa lisan dan menerjemahkannya ke dalam bentuk skrip. Tips berikut akan membantu Anda membuat skrip yang terdengar autentik dan sesuai dengan nuansa yang dipilih.
Memahami Tujuan: Ucapan Alami
Tujuan utamanya adalah membuat suara yang disintesis terdengar sedekat mungkin dengan pembicara manusia alami. Hal ini mencakup:
- Meniru Kecepatan Alami: Seberapa cepat atau lambat seseorang berbicara.
- Membuat Alur yang Lancar: Memastikan transisi yang lancar antara kalimat dan frasa.
- Menambahkan Jeda yang Realistis: Menyertakan jeda untuk penekanan dan kejelasan.
- Menangkap Nada Percakapan: Membuat audio terdengar seperti percakapan sungguhan.
Teknik Utama untuk Ucapan Alami
Tanda Baca untuk Kecepatan dan Alur
- Titik (.): Menunjukkan titik henti dan jeda yang lebih lama. Gunakan tanda baca untuk memisahkan pemikiran yang lengkap dan membuat batas kalimat yang jelas.
- Koma (,): Memberi sinyal jeda yang lebih singkat dalam kalimat. Gunakan tanda koma untuk memisahkan klausa, mencantumkan item, atau memperkenalkan jeda singkat untuk bernapas.
- Elips (...): Mewakili jeda yang lebih lama dan lebih disengaja. Jeda dapat menunjukkan pikiran yang tertinggal, keraguan, atau jeda dramatis.
- Contoh: "Lalu... hal itu terjadi."
- Tanda hubung (-): Dapat digunakan untuk menunjukkan jeda singkat atau jeda tiba-tiba dalam pikiran.
- Contoh: "Saya ingin mengatakan - tetapi saya tidak bisa."
Menyertakan Jeda dan Ketidaklancaran
- Jeda Strategis: Gunakan elipsis, koma, atau tanda hubung untuk membuat jeda di tempat-tempat yang secara alami akan dijeda oleh pembicara manusia untuk mengambil napas atau menekankan sesuatu.
- Ketidaklancaran (Um dan Uh): Meskipun beberapa model Text-to-Speech menangani ketidaklancaran secara otomatis, memahami perannya sangatlah penting. Hal ini akan menambah keaslian dan membuat ucapan terdengar tidak seperti robot. Meskipun model menambahkannya, mengetahui tempatnya muncul secara alami dalam ucapan manusia akan membantu Anda memahami keseluruhan alur skrip.
Eksperimen dan Iterasi
- Mensintesis ulang: Jangan takut untuk menyintesis ulang pesan yang sama dengan suara yang sama beberapa kali. Penyesuaian kecil pada tanda baca, spasi, atau pilihan kata dapat memengaruhi audio akhir secara signifikan.
- Dengarkan dengan Kritis: Perhatikan dengan cermat kecepatan, alur, dan nada keseluruhan audio yang disintesis. Identifikasi area yang terdengar tidak wajar dan sesuaikan skrip Anda.
- Variasi Suara: Jika sistem mengizinkannya, coba gunakan suara yang berbeda untuk melihat mana yang paling sesuai dengan skrip dan nada yang Anda pilih.
Tips Pembuatan Skrip Praktis
- Bacakan: Sebelum menyintesis, baca skrip Anda dengan lantang. Hal ini akan membantu Anda mengidentifikasi frasa yang canggung, jeda yang tidak wajar, dan area yang perlu disesuaikan.
- Menulis dengan Gaya Percakapan: Gunakan singkatan (mis., "it's," "we're") dan bahasa informal untuk membuat skrip terdengar lebih alami.
- Pertimbangkan Konteks: Nuansa dan kecepatan skrip Anda harus sesuai dengan konteks audio. Presentasi formal memerlukan pendekatan yang berbeda dengan percakapan santai.
- Membagi Kalimat Kompleks: Kalimat panjang dan berbelit-belit dapat sulit ditangani oleh mesin TTS. Pecah menjadi kalimat yang lebih singkat dan lebih mudah dikelola.
Contoh Peningkatan Skrip
Skrip Asli (Robotik): "Produk kini tersedia. Kami memiliki fitur baru. Ini sangat menarik."
Skrip yang Ditingkatkan (Natural): "Produk ini kini tersedia... dan kami telah menambahkan beberapa fitur baru yang menarik. Ini sangat menarik."
Skrip Asli (Robotik): "Ini adalah pesan konfirmasi otomatis. Reservasi Anda telah diproses. Detail berikut berkaitan dengan masa inap Anda yang akan datang. Nomor reservasi adalah 12345. Nama tamu yang terdaftar adalah Anthony Vasquez. Tanggal kedatangan adalah 14 Maret. Tanggal keberangkatan adalah 16 Maret. Jenis kamar adalah Deluxe Suite. Jumlah tamu adalah 1 tamu. Waktu check-in adalah pukul 15.00. Waktu check-out adalah pukul 11.00. Perhatikan bahwa kebijakan pembatalan memerlukan notifikasi 48 jam sebelum kedatangan. Jika Anda tidak memberi tahu dalam jangka waktu ini, Anda akan dikenai biaya menginap satu malam. Fasilitas tambahan yang disertakan dalam reservasi Anda adalah: Wi-Fi gratis, akses ke pusat kebugaran, dan sarapan gratis. Untuk pertanyaan apa pun, hubungi hotel secara langsung di 855-555-6689. Terima kasih telah memilih hotel kami."
Skrip yang Disempurnakan (Natural): "Halo Anthony Vasquez. Dengan senang hati kami mengonfirmasi reservasi Anda bersama kami. Anda siap untuk menginap dari 14 Maret hingga 16 Maret di Suite Deluxe kami yang indah. Harga tersebut untuk 1 tamu. Nomor konfirmasi Anda adalah 12345, jika Anda memerlukannya.
Jadi, sebagai pengingat, check-in pukul 15.00, dan check-out pukul 11.00.
Sekarang, kami ingin memberi tahu Anda tentang kebijakan pembatalan kami… jika Anda perlu membatalkan, cukup beri tahu kami setidaknya 48 jam sebelum kedatangan Anda, ya? Jika tidak, akan ada biaya untuk menginap satu malam.
Dan untuk membuat masa inap Anda semakin menyenangkan, Anda akan mendapatkan Wi-Fi gratis, akses ke pusat kebugaran kami, dan sarapan lezat gratis setiap pagi.
Jika ada pertanyaan, jangan ragu untuk menghubungi kami di 855-555-6689. Kami tidak sabar untuk menyambut Anda di hotel kami."
Penjelasan Perubahan:
- Elipsis (...) membuat jeda untuk penekanan.
- "dan kami telah" menggunakan kontraksi untuk nada percakapan yang lebih santai.
- "It's, well, it's very exciting" menambahkan sedikit ketidaklancaran, dan penekanan.
- Pengingat ramah "Oke?" akan memperhalus nada.
Dengan mengikuti panduan ini, Anda dapat membuat skrip teks ke audio yang terdengar alami, menarik, dan seperti manusia. Ingat bahwa latihan dan eksperimen adalah kunci untuk menguasai keterampilan ini.
Chirp 3: Kontrol suara HD
Fitur kontrol suara khusus untuk sintesis suara HD. Perhatikan bahwa suara HD tidak mendukung SSML, dan kontrol jeda dan kecepatan dapat menghasilkan hasil yang tidak konsisten.
Ketersediaan bahasa untuk kontrol suara
Chirp 3: Kontrol suara HD saat ini hanya tersedia dalam bahasa Inggris AS.
Kontrol kecepatan
Anda dapat menyesuaikan kecepatan audio yang dihasilkan menggunakan parameter kecepatan. Parameter ini memungkinkan Anda memperlambat atau mempercepat ucapan, dengan nilai yang berkisar dari 0,25x (sangat lambat) hingga 2x (sangat cepat), dengan penambahan 0,25x. Untuk menetapkan kecepatan, gunakan parameter 'speaking_rate' dalam permintaan Anda, dengan memilih nilai float antara 0,25 dan 2,0. Nilai di bawah 1,0 akan memperlambat ucapan, sedangkan nilai di atas 1,0 akan mempercepatnya. Nilai 1,0 menunjukkan kecepatan yang tidak disesuaikan.
Contoh SynthesizeSpeechRequest menggunakan kontrol kecepatan:
{
"audio_config": {
"audio_encoding": "LINEAR16",
"speaking_rate": 2.0,
},
"input": {
"text": "Once upon a time, there was a cute cat. He was so cute that he got lots of treats.",
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Contoh StreamingSynthesizeConfig menggunakan kontrol kecepatan:
{
"streaming_audio_config": {
"audio_encoding": "LINEAR16",
"speaking_rate": 2.0,
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Contoh audio kontrol kecepatan:
Kecepatan bicara | Output |
---|---|
0,5 | |
1,0 | |
2.0 |
Kontrol jeda
Anda dapat menyisipkan jeda ke dalam ucapan yang dibuat AI dengan menyematkan tag khusus langsung ke dalam teks menggunakan kolom input markup
. Perhatikan bahwa tag jeda hanya akan berfungsi di kolom markup
, dan bukan di kolom text
.
Tag ini memberi sinyal kepada AI untuk membuat jeda, tetapi durasi jeda yang tepat tidak tetap. AI menyesuaikan durasi berdasarkan konteks, sama seperti ucapan manusia alami yang bervariasi dengan pembicara, lokasi, dan struktur kalimat. Tag jeda yang tersedia adalah [pause short]
, [pause long]
, dan [pause]
. Untuk metode alternatif membuat jeda tanpa menggunakan tag markup, lihat panduan membuat dan menyusun perintah.
Model AI terkadang mungkin mengabaikan tag jeda, terutama jika tag tersebut ditempatkan di posisi yang tidak wajar dalam teks. Anda dapat menggabungkan beberapa tag jeda untuk jeda yang lebih lama, tetapi penggunaan yang berlebihan dapat menyebabkan masalah.
Contoh SynthesizeSpeechRequest menggunakan kontrol jeda:
{
"audio_config": {
"audio_encoding": "LINEAR16",
},
"input": {
"markup": "Let me take a look, [pause long] yes, I see it.",
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Contoh StreamingSynthesisInput menggunakan kontrol jeda:
{
"markup": "Let me take a look, [pause long] yes, I see it.",
}
Contoh audio kontrol jeda:
Input markup | Output |
---|---|
"Biarkan saya melihatnya, ya, saya melihatnya." | |
"Biarkan saya melihatnya, [jeda lama] ya, saya melihatnya." |
FAQ
Pertanyaan umum dan jawabannya:
Bagaimana cara mengontrol kecepatan dan alur untuk meningkatkan output ucapan?
Anda dapat menggunakan panduan pembuatan dan perintah kami serta meningkatkan kualitas perintah teks untuk meningkatkan kualitas output ucapan.
Bagaimana cara mengakses suara dalam bahasa yang didukung?
Nama suara mengikuti format tertentu, yang memungkinkan penggunaan di seluruh bahasa yang didukung dengan menentukan suara secara unik. Formatnya mengikuti \<locale\>-\<model\>-\<voice\>
. Misalnya, untuk menggunakan suara Kore untuk bahasa Inggris (Amerika Serikat) menggunakan model suara Chirp 3: HD, Anda akan menentukannya sebagai en-US-Chirp3-HD-Kore
.
Apakah suara Chirp 3: HD mendukung SSML?
Meskipun suara Chirp 3: HD tidak berfungsi dengan SSML, Anda tetap dapat mengelola kontrol kecepatan dan jeda melalui opsi kontrol suara HD.