Esta página foi traduzida pela API Cloud Translation.

API Live

A API Live permite interações bidirecionais de voz e vídeo de baixa latência com o Gemini. Use a API Live para oferecer aos usuários finais conversas por voz naturais e semelhantes às humanas, incluindo a capacidade de interromper as respostas do modelo com comandos de voz.

Este documento aborda os conceitos básicos do uso da API Live, incluindo recursos, exemplos iniciais e exemplos de código de caso de uso básico. Se você estiver procurando informações sobre como iniciar uma conversa interativa usando a API Live, consulte Conversas interativas com a API Live. Se você procura informações sobre quais ferramentas a API Live pode usar, consulte Ferramentas integradas.

Testar na Vertex AI

Modelos compatíveis

A API Live é compatível com o SDK de IA generativa do Google e com o Vertex AI Studio. Alguns recursos (como entrada e saída de texto) só estão disponíveis usando o SDK da IA generativa.

É possível usar a API Live com os seguintes modelos:

Versão do modelo	Nível de disponibilidade
`gemini-live-2.5-flash`	Disponibilidade geral particular^*
`gemini-live-2.5-flash-preview-native-audio-09-2025`	Pré-lançamento público
`gemini-live-2.5-flash-preview-native-audio`	Pré-lançamento público; data de descontinuação: 18 de outubro de 2025

^* Entre em contato com o representante da equipe da sua Conta do Google para solicitar acesso.

Para mais informações, incluindo especificações técnicas e limitações, consulte o guia de referência da API Live.

Recursos da API Live

Entendimento multimodal em tempo real:converse com o Gemini sobre o que ele vê em um feed de vídeo ou por compartilhamento de tela, usando o suporte integrado para streaming de áudio e vídeo.
Uso de ferramentas integradas:integre sem problemas ferramentas como chamada de função e Fundamentação com a Pesquisa Google às suas conversas para interações mais práticas e dinâmicas.
Interações de baixa latência:tenha interações de baixa latência e semelhantes às humanas com o Gemini.
Suporte multilíngue:converse em 24 idiomas disponíveis.
(Somente versões GA) Suporte para capacidade de processamento provisionada:use uma assinatura de custo fixo e prazo fixo disponível em vários períodos que reserva capacidade de processamento para modelos de IA generativa compatíveis na Vertex AI, incluindo a API Live.
Transcrição de alta qualidade:a API Live é compatível com a transcrição de texto para áudio de entrada e saída.

O Gemini 2.5 Flash com a API Live também inclui áudio nativo como uma oferta de pré-lançamento público. O áudio nativo apresenta:

Diálogo afetivo:a API Live entende e responde ao tom de voz do usuário. As mesmas palavras ditas de maneiras diferentes podem levar a conversas muito diferentes e mais sutis.
Áudio proativo e reconhecimento de contexto:a API Live ignora de maneira inteligente conversas no ambiente e outros áudios irrelevantes, entendendo quando ouvir e quando ficar em silêncio.

Para mais informações sobre áudio nativo, consulte Ferramentas integradas.

Formatos de áudio compatíveis

A API Live é compatível com os seguintes formatos de áudio:

Áudio de entrada:áudio PCM bruto de 16 bits a 16 kHz, little endian
Áudio de saída:áudio PCM bruto de 16 bits a 24 kHz, little endian

Formatos de vídeo compatíveis:

A API Live é compatível com entrada de frames de vídeo a 1 QPS. Para ter os melhores resultados, use a resolução nativa de 768 x 768 a 1 FPS.

Exemplos de ativações

Para começar a usar a API Live, confira um dos seguintes tutoriais de notebook, aplicativos de demonstração ou guias.

Tutoriais de notebook

Faça o download desses tutoriais de notebook do GitHub ou abra-os no ambiente de sua escolha.

Usar WebSockets com a API Live

Streaming de áudio e vídeo

Aplicativos e guias de demonstração

Outros exemplos

Para aproveitar ainda mais a API Live, confira estes exemplos que usam os recursos de processamento de áudio, transcrição e resposta de voz da API.

Receber respostas de texto com base na entrada de áudio

É possível enviar áudio e receber respostas de texto convertendo o áudio para um formato PCM de 16 bits, 16 kHz e mono. O exemplo a seguir lê um arquivo WAV e o envia no formato correto:

Python

# Test file: https://storage.googleapis.com/generativeai-downloads/data/16000.wav
# Install helpers for converting files: pip install librosa soundfile

import asyncio
import io
from pathlib import Path
from google import genai
from google.genai import types
import soundfile as sf
import librosa

client = genai.Client(
    vertexai=True,
    project=GOOGLE_CLOUD_PROJECT,
    location=GOOGLE_CLOUD_LOCATION,
)
model = "gemini-live-2.5-flash"
config = {"response_modalities": ["TEXT"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:

        buffer = io.BytesIO()
        y, sr = librosa.load("sample.wav", sr=16000)
        sf.write(buffer, y, sr, format="RAW", subtype="PCM_16")
        buffer.seek(0)
        audio_bytes = buffer.read()

        # If already in correct format, you can use this:
        # audio_bytes = Path("sample.pcm").read_bytes()

        await session.send_realtime_input(
            audio=types.Blob(data=audio_bytes, mime_type="audio/pcm;rate=16000")
        )

        async for response in session.receive():
            if response.text is not None:
                print(response.text)

if __name__ == "__main__":
    asyncio.run(main())

Receber respostas de voz com base em entradas de texto

Use este exemplo para enviar entrada de texto e receber respostas de fala sintetizada:

Python

import asyncio
import numpy as np
from IPython.display import Audio, Markdown, display
from google import genai
from google.genai.types import (
  Content,
  LiveConnectConfig,
  HttpOptions,
  Modality,
  Part,
  SpeechConfig,
  VoiceConfig,
  PrebuiltVoiceConfig,
)

client = genai.Client(
  vertexai=True,
  project=GOOGLE_CLOUD_PROJECT,
  location=GOOGLE_CLOUD_LOCATION,
)

voice_name = "Aoede"

config = LiveConnectConfig(
  response_modalities=["AUDIO"],
  speech_config=SpeechConfig(
      voice_config=VoiceConfig(
          prebuilt_voice_config=PrebuiltVoiceConfig(
              voice_name=voice_name,
          )
      ),
  ),
)

async with client.aio.live.connect(
  model="gemini-live-2.5-flash",
  config=config,
) as session:
  text_input = "Hello? Gemini are you there?"
  display(Markdown(f"**Input:** {text_input}"))

  await session.send_client_content(
      turns=Content(role="user", parts=[Part(text=text_input)]))

  audio_data = []
  async for message in session.receive():
      if (
          message.server_content.model_turn
          and message.server_content.model_turn.parts
      ):
          for part in message.server_content.model_turn.parts:
              if part.inline_data:
                  audio_data.append(
                      np.frombuffer(part.inline_data.data, dtype=np.int16)
                  )

  if audio_data:
      display(Audio(np.concatenate(audio_data), rate=24000, autoplay=True))

Para mais exemplos de envio de texto, consulte nosso guia de início.

Transcrever áudio

A API Live pode transcrever áudio de entrada e saída. Use o exemplo a seguir para ativar a transcrição:

Python

import asyncio
from google import genai
from google.genai import types

client = genai.Client(
    vertexai=True,
    project=GOOGLE_CLOUD_PROJECT,
    location=GOOGLE_CLOUD_LOCATION,
)
model = "gemini-live-2.5-flash"

config = {
    "response_modalities": ["AUDIO"],
    "input_audio_transcription": {},
    "output_audio_transcription": {}
}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        message = "Hello? Gemini are you there?"

        await session.send_client_content(
            turns={"role": "user", "parts": [{"text": message}]}, turn_complete=True
        )

        async for response in session.receive():
            if response.server_content.model_turn:
                print("Model turn:", response.server_content.model_turn)
            if response.server_content.input_transcription:
                print("Input transcript:", response.server_content.input_transcription.text)
            if response.server_content.output_transcription:
                print("Output transcript:", response.server_content.output_transcription.text)

if __name__ == "__main__":
    asyncio.run(main())

WebSockets

# Set model generation_config
CONFIG = {
    'response_modalities': ['AUDIO'],
}

headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {bearer_token[0]}",
}

# Connect to the server
async with connect(SERVICE_URL, additional_headers=headers) as ws:
    # Setup the session
    await ws.send(
        json.dumps(
            {
                "setup": {
                    "model": "gemini-2.0-flash-live-preview-04-09",
                    "generation_config": CONFIG,
                    'input_audio_transcription': {},
                    'output_audio_transcription': {}
                }
            }
        )
    )

    # Receive setup response
    raw_response = await ws.recv(decode=False)
    setup_response = json.loads(raw_response.decode("ascii"))

    # Send text message
    text_input = "Hello? Gemini are you there?"
    display(Markdown(f"**Input:** {text_input}"))

    msg = {
        "client_content": {
            "turns": [{"role": "user", "parts": [{"text": text_input}]}],
            "turn_complete": True,
        }
    }

    await ws.send(json.dumps(msg))

    responses = []
    input_transcriptions = []
    output_transcriptions = []

    # Receive chucks of server response
    async for raw_response in ws:
        response = json.loads(raw_response.decode())
        server_content = response.pop("serverContent", None)
        if server_content is None:
            break

        if (input_transcription := server_content.get("inputTranscription")) is not None:
            if (text := input_transcription.get("text")) is not None:
                input_transcriptions.append(text)
        if (output_transcription := server_content.get("outputTranscription")) is not None:
            if (text := output_transcription.get("text")) is not None:
                output_transcriptions.append(text)

        model_turn = server_content.pop("modelTurn", None)
        if model_turn is not None:
            parts = model_turn.pop("parts", None)
            if parts is not None:
                for part in parts:
                    pcm_data = base64.b64decode(part["inlineData"]["data"])
                    responses.append(np.frombuffer(pcm_data, dtype=np.int16))

        # End of turn
        turn_complete = server_content.pop("turnComplete", None)
        if turn_complete:
            break

    if input_transcriptions:
        display(Markdown(f"**Input transcription >** {''.join(input_transcriptions)}"))

    if responses:
        # Play the returned audio message
        display(Audio(np.concatenate(responses), rate=24000, autoplay=True))

    if output_transcriptions:
        display(Markdown(f"**Output transcription >** {''.join(output_transcriptions)}"))

O preço da transcrição da API Live é determinado pelo número de tokens de saída de texto. Para saber mais, consulte a página de preços da Vertex AI.

Mais informações

Para mais informações sobre como usar a API Live, consulte:

API Live Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos compatíveis

Recursos da API Live

Formatos de áudio compatíveis

Formatos de vídeo compatíveis:

Exemplos de ativações

Tutoriais de notebook

Usar WebSockets com a API Live

Streaming de áudio e vídeo

Aplicativos e guias de demonstração

Outros exemplos

Receber respostas de texto com base na entrada de áudio

Python

Receber respostas de voz com base em entradas de texto

Python

Transcrever áudio

Python

WebSockets

Mais informações

API Live