Suara Kustom Instan di Text-to-Speech memungkinkan pengguna membuat model suara yang dipersonalisasi dengan melatih model menggunakan rekaman audio berkualitas tinggi milik mereka sendiri. Hal ini memungkinkan pembuatan suara pribadi dengan cepat, yang kemudian dapat digunakan untuk menyintesis audio menggunakan Cloud TTS API, yang mendukung streaming dan teks panjang.
Karena pertimbangan keamanan, akses ke kemampuan cloning suara ini dibatasi untuk pengguna yang diizinkan. Untuk mengakses fitur ini, hubungi anggota tim penjualan agar ditambahkan ke daftar yang diizinkan.
![]() |
![]() |
Ketersediaan bahasa
Pembuatan dan sintesis Suara Kustom Instan didukung dalam bahasa berikut:
Bahasa | Kode BCP-47 | Pernyataan Izin |
---|---|---|
Arab (XA) | ar-XA | .أنا مالك هذا الصوت وأوافق على أن تستخدم Google هذا الصوت لإنشاء نموذج صوتي اصطناعي |
Bengali (India) | bn-IN | আমি এই ভয়েসের মালিক এবং আমি একটি সিন্থেটিক ভয়েস মডেল তৈরি করতে এই ভয়েস ব্যবহার করে Google-এর সাথে সম্মতি দিচ্ছি। |
China (China) | cmn-CN | 我是此声音的拥有者并授权谷歌使用此声音创建语音合成模型 |
Jerman (Jerman) | de-DE | Ich bin der Eigentümer dieser Stimme und bin damit einverstanden, dass Google diese Stimme zur Erstellung eines synthetischen Stimmmodells verwendet. |
Inggris (Australia) | en-AU | Saya adalah pemilik suara ini dan saya mengizinkan Google menggunakan suara ini untuk membuat model suara sintetis. |
Inggris (Inggris Raya) | en-GB | Saya adalah pemilik suara ini dan saya mengizinkan Google menggunakan suara ini untuk membuat model suara sintetis. |
Inggris (India) | en-IN | Saya adalah pemilik suara ini dan saya mengizinkan Google menggunakan suara ini untuk membuat model suara sintetis. |
Inggris (AS) | en-US | Saya adalah pemilik suara ini dan saya mengizinkan Google menggunakan suara ini untuk membuat model suara sintetis. |
Spanyol (Spanyol) | es-ES | Soy el propietario de esta voz y doy mi consentimiento para que Google la utilice para crear un modelo de voz sintética. |
Spanyol (AS) | es-US | Soy el propietario de esta voz y doy mi consentimiento para que Google la utilice para crear un modelo de voz sintética. |
Prancis (Kanada) | fr-CA | Je suis le propriétaire de cette voix et j'autorise Google à utiliser cette voix pour créer un modèle de voix synthétique. |
Prancis (Prancis) | fr-FR | Je suis le propriétaire de cette voix et j'autorise Google à utiliser cette voix pour créer un modèle de voix synthétique. |
Gujarati (India) | gu-IN | હું આ વોઈસનો માલિક છું અને સિન્થેટિક વોઈસ મોડલ બનાવવા માટે આ વોઈસનો ઉપયોગ કરીને google ને હું સંમતિ આપું છું |
Hindi (India) | hi-IN | मैं इस आवाज का मालिक हूं और मैं सिंथेटिक आवाज मॉडल बनाने के लिए Google को इस आवाज का उपयोग करने की सहमति देता हूं |
Indonesia (Indonesia) | id-ID | Saya adalah pemilik suara ini dan saya mengizinkan Google menggunakan suara ini untuk membuat model suara sintetis. |
Italia (Italia) | it-IT | Sono il proprietario di questa voce e acconsento che Google la utilizzi per creare un modello di voce sintetica. |
Kannada (India) | kn-IN | ನಾನು ಈ ಧ್ವನಿಯ ಮಾಲಿಕ ಮತ್ತು ಸಂಶ್ಲೇಷಿತ ಧ್ವನಿ ಮಾದರಿಯನ್ನು ರಚಿಸಲು ಈ ಧ್ವನಿಯನ್ನು ಬಳಿಕೊಂಡುಗೂಗಲ್ ಗೆ ನಾನು ಸಮ್ಮತಿಸುತ್ತೇನೆ. |
Korea (Korea) | ko-KR | 나는 이 음성의 소유자이며 구글이 이 음성을 사용하여 음성 합성 모델을 생성할 것을 허용합니다. |
Malayalam (India) | ml-IN | ഈ ശബ്ദത്തിന്റെ ഉടമ ഞാനാണ്, ഒരു സിന്തറ്റിക് വോയ്സ് മോഡൽ സൃഷ്ടിക്കാൻ ഈ ശബ്ദം ഉപയോഗിക്കുന്നതിന് ഞാൻ Google-ന് സമ്മതം നൽകുന്നു." |
Marathi (India) | mr-IN | मी या आवाजाचा मालक आहे आणि सिंथेटिक व्हॉइस मॉडेल तयार करण्यासाठी हा आवाज वापरण्यासाठी मी Google ला संमती देतो |
Belanda (Belanda) | nl-NL | Ik ben de eigenaar van deze stem en ik geef Google toestemming om deze stem te gebruiken om een synthetisch stemmodel te maken. |
Polandia (Polandia) | pl-PL | Jestem właścicielem tego głosu i wyrażam zgodę na wykorzystanie go przez Google w celu utworzenia syntetycznego modelu głosu. |
Portugis (Brasil) | pt-BR | Eu sou o proprietário desta voz e autorizo o Google a usá-la para criar um modelo de voz sintética. |
Rusia (Rusia) | ru-RU | Saya adalah pemilik suara ini dan mengizinkan Google menggunakan suara ini untuk membuat model suara sintetis. |
Tamil (India) | ta-IN | நான் இந்த குரலின் உரிமையாளர் மற்றும் செயற்கை குரல் மாதிரியை உருவாக்க குகல்க்கு நான் ஒப்புக்கொள்கிறேன். |
Telugu (India) | te-IN | నేను ఈ వాయిస్ యజమానిని మరియు సింతటిక్ వాయిస్ మోడల్ ని రూపొందించడానికి ఈ వాయిస్ ని ఉపయోగించడానికి googleకి నేను సమ్మతిస్తున్నాను. |
Thai (Thailand) | th-TH | ฉันเป็นเจ้าของเสียงนี้ และฉันยินยอมให้ Google ใช้เสียงนี้เพื่อสร้างแบบจำลองเสียงสังเคราะห์ |
Turki (Turki) | tr-TR | Bu sesin sahibi benim ve Google'ın bu sesi kullanarak sentetik bir ses modeli oluşturmasına izin veriyorum. |
Vietnam (Vietnam) | vi-VN | Tôi là chủ sở hữu giọng nói này và tôi đồng ý cho Google sử dụng giọng nói này để tạo mô hình giọng nói tổng hợp. |
Ketersediaan Regional
Pembuatan dan sintesis Suara Kustom Instan tersedia di wilayah Google Cloud berikut:
Google Cloud Zona | Metode yang Didukung | Kesiapan Peluncuran |
---|---|---|
global |
Penciptaan, Sintesis | Pratinjau Pribadi |
us |
Sintesis | Pratinjau Pribadi |
eu |
Sintesis | Pratinjau Pribadi |
asia-southeast1 |
Sintesis | Pratinjau Pribadi |
Format output yang didukung
Format respons default adalah LINEAR16, tetapi format lain yang didukung mencakup:
Metode API | Format |
---|---|
streaming |
ALAW, MULAW, OGG_OPUS, dan PCM |
batch |
ALAW, MULAW, MP3, OGG_OPUS, dan PCM |
Dukungan dan batasan fitur
Fitur | Dukungan | Deskripsi |
---|---|---|
SSML | Tidak | Tag SSML untuk mempersonalisasi audio sintetis |
Perintah Berbasis Teks | Eksperimental | Gunakan tanda baca, jeda, dan ketidaklancaran untuk menambahkan alur dan kecepatan yang alami ke Text-to-Speech. |
Stempel waktu | Tidak | Stempel waktu tingkat kata |
Menjeda Tag | Tidak | Memperkenalkan jeda on demand ke audio yang disintesis |
Kontrol Kecepatan | Tidak | Sesuaikan kecepatan audio yang disintesis, dari kecepatan 0,25x hingga 2x. |
Kontrol Pengucapan | Tidak | Pengucapan kustom kata atau frasa menggunakan encoding fonetik IPA atau X-SAMPA |
Menggunakan Chirp 3: Suara Kustom Instan
Mari kita pelajari cara menggunakan kemampuan Chirp 3: Instant Custom Voice di Text-to-Speech API
Merekam Izin dan Audio Referensi
- Rekam pernyataan izin: Untuk mematuhi pedoman hukum dan etika untuk Suara Kustom Instan, rekam pernyataan izin yang diperlukan sebagai file WAV mono, dengan encoding LINEAR16 dan frekuensi sampel 24 kHz, dalam bahasa yang sesuai. (Saya adalah pemilik suara ini dan saya mengizinkan Google menggunakan suara ini untuk membuat model suara sintetis.)
- Rekam audio referensi: Gunakan mikrofon komputer untuk merekam audio hingga 10 detik sebagai file WAV mono yang dienkode LINEAR16 pada frekuensi sampling 24 kHz. Pastikan tidak ada suara bising di latar belakang selama perekaman. Audio izin dan referensi harus direkam di lingkungan yang sama.
- Menyimpan file audio: Menyimpan file audio yang direkam di lokasi Cloud Storage yang ditetapkan.
Membuat Suara Kustom Instan
import requests, os, json
def create_instant_custom_voice_key(
access_token, project_id, reference_audio_bytes, consent_audio_bytes
):
url = "https://texttospeech.googleapis.com/v1beta1/voices:generateVoiceCloningKey"
request_body = {
"reference_audio": {
"audio_config": {"audio_encoding": "LINEAR16", "sample_rate_hertz": 24000},
"content": reference_audio_bytes,
},
"voice_talent_consent": {
"audio_config": {"audio_encoding": "LINEAR16", "sample_rate_hertz": 24000},
"content": consent_audio_bytes,
},
"consent_script": "I am the owner of this voice and I consent to Google using this voice to create a synthetic voice model.",
"language_code": "en-US",
}
try:
headers = {
"Authorization": f"Bearer {access_token}",
"x-goog-user-project": project_id,
"Content-Type": "application/json; charset=utf-8",
}
response = requests.post(url, headers=headers, json=request_body)
response.raise_for_status()
response_json = response.json()
return response_json.get("voiceCloningKey")
except requests.exceptions.RequestException as e:
print(f"Error making API request: {e}")
except json.JSONDecodeError as e:
print(f"Error decoding JSON response: {e}")
except Exception as e:
print(f"An unexpected error occurred: {e}")
Melakukan sintesis dengan Suara Kustom Instan
import requests, os, json, base64
from IPython.display import Audio, display
def synthesize_text_with_cloned_voice(access_token, project_id, voice_key, text):
url = "https://texttospeech.googleapis.com/v1beta1/text:synthesize"
request_body = {
"input": {
"text": text
},
"voice": {
"language_code": "en-US",
"voice_clone": {
"voice_cloning_key": voice_key,
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sample_rate_hertz": 24000
}
}
try:
headers = {
"Authorization": f"Bearer {access_token}",
"x-goog-user-project": project_id,
"Content-Type": "application/json; charset=utf-8"
}
response = requests.post(url, headers=headers, json=request_body)
response.raise_for_status()
response_json = response.json()
audio_content = response_json.get("audioContent")
if audio_content:
display(Audio(base64.b64decode(audio_content), rate=24000))
else:
print("Error: Audio content not found in the response.")
print(response_json)
except requests.exceptions.RequestException as e:
print(f"Error making API request: {e}")
except json.JSONDecodeError as e:
print(f"Error decoding JSON response: {e}")
except Exception as e:
print(f"An unexpected error occurred: {e}")