Multimodal Live API를 사용하면 Gemini와의 양방향 음성 및 동영상 상호작용으로 지연 시간이 짧습니다. Multimodal Live API를 사용하면 최종 사용자에게 자연스럽고 인간과 같은 음성 대화 환경을 제공하고 음성 명령을 사용하여 모델의 응답을 중단할 수 있는 기능을 제공할 수 있습니다. 이 모델은 텍스트, 오디오, 동영상 입력을 처리하고 텍스트 및 오디오 출력을 제공할 수 있습니다.
Multimodal Live API는 Gemini API에서 BidiGenerateContent 메서드로 사용할 수 있으며 WebSockets를 기반으로 합니다.
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values# with appropriate values for your project.exportGOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECTexportGOOGLE_CLOUD_LOCATION=us-central1
exportGOOGLE_GENAI_USE_VERTEXAI=True
fromgoogleimportgenaifromgoogle.genai.typesimportLiveConnectConfig,HttpOptions,Modalityclient=genai.Client(http_options=HttpOptions(api_version="v1beta1"))model_id="gemini-2.0-flash-exp"asyncwithclient.aio.live.connect(model=model_id,config=LiveConnectConfig(response_modalities=[Modality.TEXT]),)assession:text_input="Hello? Gemini, are you there?"print("> ",text_input,"\n")awaitsession.send(input=text_input,end_of_turn=True)response=[]asyncformessageinsession.receive():ifmessage.text:response.append(message.text)print("".join(response))# Example output:# > Hello? Gemini, are you there?# Yes, I'm here. What would you like to talk about?