Respons multimodal

Gemini 2.0 Flash mendukung pembuatan respons dalam beberapa modalitas, termasuk teks, ucapan, dan gambar.

Pembuatan teks

Flash Gemini 2.0 mendukung pembuatan teks menggunakan konsol Google Cloud, REST API, dan SDK yang didukung. Untuk informasi selengkapnya, lihat panduan pembuatan teks.

Pembuatan ucapan (eksperimental pribadi)

Gemini 2.0 mendukung kemampuan pembuatan multimodal baru: teks ke ucapan. Dengan menggunakan kemampuan text-to-speech, Anda dapat meminta model untuk menghasilkan output audio berkualitas tinggi yang terdengar seperti suara manusia (say "hi everyone"), dan Anda dapat lebih meningkatkan kualitas output dengan mengarahkan suara.

Membuat ucapan

Bagian berikut membahas cara membuat ucapan menggunakan Vertex AI Studio atau menggunakan API.

Untuk panduan dan praktik terbaik dalam memberikan perintah, lihat Mendesain perintah multimodal.

Menggunakan Vertex AI Studio

Untuk menggunakan pembuatan ucapan:

  1. Buka Vertex AI Studio > Freeform.
  2. Pilih gemini-2.0-flash-exp dari menu drop-down Models.
  3. Di panel Response, pilih Audio dari menu drop-down.
  4. Tulis deskripsi ucapan yang ingin Anda buat di area teks panel Prompt.
  5. Klik tombol Prompt ().

Gemini akan membuat ucapan berdasarkan deskripsi Anda. Proses ini akan memerlukan waktu beberapa detik, tetapi mungkin akan lebih lambat dibandingkan dengan kapasitas.*

Menggunakan API

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Say, 'How are you?'" }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "AUDIO""
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Kemudian jalankan perintah berikut untuk mengirim permintaan REST Anda:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini akan membuat audio berdasarkan deskripsi Anda. Proses ini akan memerlukan waktu beberapa detik, tetapi mungkin akan lebih lambat dibandingkan dengan kapasitas.

Pembuatan gambar (eksperimental publik)

Pembuatan Gambar Eksperimental Flash Gemini 2.0 (gemini-2.0-flash-exp) mendukung kemampuan untuk membuat gambar selain teks. Hal ini memperluas kemampuan Gemini untuk mencakup hal berikut:

  • Membuat gambar secara iteratif melalui percakapan dengan bahasa alami, menyesuaikan gambar sekaligus mempertahankan konsistensi dan konteks.
  • Buat gambar dengan rendering teks panjang berkualitas tinggi.
  • Buat output teks-gambar yang diselingi. Misalnya, postingan blog dengan teks dan gambar dalam satu giliran. Sebelumnya, hal ini memerlukan penyambungan beberapa model.
  • Buat gambar menggunakan pengetahuan dunia dan kemampuan penalaran Gemini.

Dengan rilis eksperimental publik ini, Pembuatan Gambar Gemini 2.0 Flash Experimental dapat menghasilkan gambar dalam ukuran 1024 piksel, mendukung pembuatan dan pengeditan gambar orang, serta berisi filter keamanan yang diperbarui yang memberikan pengalaman pengguna yang lebih fleksibel dan tidak terlalu ketat.

API ini mendukung modalitas dan kemampuan berikut:

  • Teks ke gambar

    • Contoh perintah: "Buat gambar menara Eiffel dengan kembang api di latar belakang."
  • Teks ke gambar (rendering teks)

    • Contoh perintah: "buat foto sinematik dari gedung besar dengan proyeksi teks raksasa ini yang dipetakan di bagian depan gedung: "Gemini 2.0 kini dapat membuat teks panjang""
  • Teks ke gambar dan teks (interleaved)

    • Contoh perintah: "Buat resep bergambar untuk paella. Buat gambar bersama teks saat Anda membuat resep."
    • Contoh perintah: "Buat cerita tentang anjing dalam gaya animasi kartun 3D. Untuk setiap adegan, buat gambar"
  • Gambar dan teks ke gambar dan teks (interleaved)

    • Contoh perintah: (Dengan gambar ruangan yang dilengkapi perabotan) "Warna sofa apa saja yang cocok untuk ruangan saya? Dapatkah Anda memperbarui gambar?"
  • Pengeditan gambar (teks dan gambar ke gambar)

    • Contoh perintah: "Edit gambar ini agar terlihat seperti kartun"
    • Contoh perintah: [gambar kucing] + [gambar bantal] + "Buat sulaman silang kucing saya di bantal ini."
  • Pengeditan gambar multi-giliran (chat)

    • Contoh perintah: [upload gambar mobil biru.] "Ubah mobil ini menjadi mobil konversi." "Sekarang ubah warnanya menjadi kuning."

Batasan:

  • Untuk performa terbaik, gunakan bahasa berikut: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • Pembuatan gambar tidak mendukung input audio atau video.
  • Pembuatan gambar mungkin tidak selalu memicu:
    • Model hanya dapat menghasilkan teks. Coba minta output gambar secara eksplisit. Misalnya, "berikan gambar saat Anda melanjutkan".
    • Model ini dapat menghasilkan teks sebagai gambar. Coba minta output teks secara eksplisit. Misalnya, "buat teks narasi beserta ilustrasi".
    • Model mungkin berhenti menghasilkan di tengah jalan. Coba lagi atau coba perintah lain.

Buat gambar

Bagian berikut membahas cara membuat gambar menggunakan Vertex AI Studio atau menggunakan API.

Untuk panduan dan praktik terbaik dalam memberikan perintah, lihat Mendesain perintah multimodal.

Menggunakan Vertex AI Studio

Untuk menggunakan pembuatan gambar:

  1. Buka Vertex AI Studio > Freeform.
  2. Pilih gemini-2.0-flash-exp dari menu drop-down Models.
  3. Di panel Respons, pilih Gambar dan teks dari menu drop-down.
  4. Tulis deskripsi gambar yang ingin Anda buat di area teks panel Prompt.
  5. Klik tombol Prompt ().

Gemini akan membuat gambar berdasarkan deskripsi Anda. Proses ini akan memerlukan waktu beberapa detik, tetapi mungkin akan lebih lambat dibandingkan dengan kapasitas.

Menggunakan API

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Generate an image of a cat." }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "IMAGE", "TEXT"
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Kemudian jalankan perintah berikut untuk mengirim permintaan REST Anda:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini akan membuat gambar berdasarkan deskripsi Anda. Proses ini akan memerlukan waktu beberapa detik, tetapi mungkin akan lebih lambat dibandingkan dengan kapasitas.