이 페이지에서는 Google Cloud 콘솔, REST API, 지원되는 SDK를 사용하여 Gemini 모델에 채팅 프롬프트를 보내는 방법을 보여줍니다.
요청에 이미지 및 기타 미디어를 추가하는 방법을 알아보려면 이미지 이해를 참고하세요.
Gemini에서 지원되는 언어 목록은 언어 지원을 참고하세요.
Vertex AI에서 사용할 수 있는 생성형 AI 모델 및 API를 살펴보려면 Google Cloud 콘솔의 Model Garden으로 이동합니다.
모바일 및 웹 앱에서 Gemini를 직접 사용할 수 있는 방법을 찾는 경우 Android, Swift, 웹, Flutter 앱의 Vertex AI in Firebase SDK를 참고하세요.
채팅 프롬프트에서 테스트하고 반복하려면 Google Cloud 콘솔을 사용하는 것이 좋습니다. 모델에 프로그래매틱 방식으로 메시지를 보내려면 REST API, Python용 Vertex AI SDK 또는 기타 지원되는 라이브러리 및 SDK 중 하나를 사용하면 되며 아래 표에 자세히 나열되어 있습니다.
Python
Python용 Vertex AI SDK를 설치하거나 업데이트하는 방법은 Python용 Vertex AI SDK 설치를 참조하세요. 자세한 내용은 Vertex AI SDK for Python API 참고 문서를 참조하세요.
스트리밍 및 비스트리밍 응답
모델이 스트리밍 응답 또는 비스트리밍 응답을 생성하는지 여부를 선택할 수 있습니다. 스트리밍 응답의 경우 출력 토큰이 생성되는 즉시 각 응답이 수신됩니다. 비스트리밍 응답의 경우 모든 출력 토큰이 생성된 후에 모든 응답이 수신됩니다.
스트리밍 응답의 경우 generate_content
의 stream
매개변수를 사용합니다.
response = model.generate_content(contents=[...], stream = True)
비스트리밍 응답의 경우 매개변수를 삭제하거나 매개변수를 False
로 설정합니다.
샘플 코드
C#
이 샘플을 사용해 보기 전에 Vertex AI 빠른 시작의 C# 설정 안내를 따르세요. 자세한 내용은 Vertex AI C# 참고 문서를 참조하세요.
Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
스트리밍 및 비스트리밍 응답
모델이 스트리밍 응답 또는 비스트리밍 응답을 생성하는지 여부를 선택할 수 있습니다. 스트리밍 응답의 경우 출력 토큰이 생성되는 즉시 각 응답이 수신됩니다. 비스트리밍 응답의 경우 모든 출력 토큰이 생성된 후에 모든 응답이 수신됩니다.
스트리밍 응답의 경우 StreamGenerateContent
메서드를 사용합니다.
public virtual PredictionServiceClient.StreamGenerateContentStream StreamGenerateContent(GenerateContentRequest request)
비스트리밍 응답의 경우 GenerateContentAsync
메서드를 사용합니다.
public virtual Task<GenerateContentResponse> GenerateContentAsync(GenerateContentRequest request)
서버에서 응답을 스트리밍하는 방법에 대한 자세한 내용은 RPC 스트리밍을 참조하세요.
샘플 코드
Node.js
이 샘플을 사용해 보기 전에 생성형 AI 빠른 시작: Node.js SDK 사용의 Node.js 설정 안내를 따르세요. 자세한 내용은 Gemini용 Node.js SDK 참고 문서를 참조하세요.
Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
스트리밍 및 비스트리밍 응답
모델이 스트리밍 응답 또는 비스트리밍 응답을 생성하는지 여부를 선택할 수 있습니다. 스트리밍 응답의 경우 출력 토큰이 생성되는 즉시 각 응답이 수신됩니다. 비스트리밍 응답의 경우 모든 출력 토큰이 생성된 후에 모든 응답이 수신됩니다.
스트리밍 응답의 경우 generateContentStream
메서드를 사용합니다.
const streamingResp = await generativeModel.generateContentStream(request);
비스트리밍 응답의 경우 generateContent
메서드를 사용합니다.
const streamingResp = await generativeModel.generateContent(request);
샘플 코드
Java
이 샘플을 사용해 보기 전에 Vertex AI 빠른 시작의 Java 설정 안내를 따르세요. 자세한 내용은 Gemini용 Vertex AI Java SDK 참고 문서를 참조하세요.
Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
스트리밍 및 비스트리밍 응답
모델이 스트리밍 응답 또는 비스트리밍 응답을 생성하는지 여부를 선택할 수 있습니다. 스트리밍 응답의 경우 출력 토큰이 생성되는 즉시 각 응답이 수신됩니다. 비스트리밍 응답의 경우 모든 출력 토큰이 생성된 후에 모든 응답이 수신됩니다.
스트리밍 응답의 경우 generateContentStream
메서드를 사용합니다.
public ResponseStream<GenerateContentResponse> generateContentStream(Content content)
비스트리밍 응답의 경우 generateContent
메서드를 사용합니다.
public GenerateContentResponse generateContent(Content content)
샘플 코드
Go
이 샘플을 사용해 보기 전에 Vertex AI 빠른 시작의 Go 설정 안내를 따르세요. 자세한 내용은 Gemini용 Vertex AI Go SDK 참고 문서를 참조하세요.
Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
스트리밍 및 비스트리밍 응답
모델이 스트리밍 응답 또는 비스트리밍 응답을 생성하는지 여부를 선택할 수 있습니다. 스트리밍 응답의 경우 출력 토큰이 생성되는 즉시 각 응답이 수신됩니다. 비스트리밍 응답의 경우 모든 출력 토큰이 생성된 후에 모든 응답이 수신됩니다.
스트리밍 응답의 경우 GenerateContentStream
메서드를 사용합니다.
iter := model.GenerateContentStream(ctx, genai.Text("Tell me a story about a lumberjack and his giant ox. Keep it very short."))
비스트리밍 응답의 경우 GenerateContent
메서드를 사용합니다.
resp, err := model.GenerateContent(ctx, genai.Text("What is the average size of a swallow?"))
샘플 코드
REST
환경을 설정하면 REST를 사용하여 텍스트 프롬프트를 테스트할 수 있습니다. 다음 샘플은 요청을 게시자 모델 엔드포인트에 전송합니다.
요청 데이터를 사용하기 전에 다음을 바꿉니다.
GENERATE_RESPONSE_METHOD
: 모델에서 생성하려는 응답 유형입니다. 모델의 응답을 반환할 방법을 생성하는 메서드를 선택합니다.streamGenerateContent
: 지연 시간에 대한 인식을 줄이기 위해 응답이 생성되는 동안 스트리밍됩니다.generateContent
: 응답은 완전히 생성된 후에 반환됩니다.
LOCATION
: 요청을 처리하는 리전입니다. 사용 가능한 옵션은 다음과 같습니다.클릭하여 사용 가능한 리전의 일부 목록 펼치기
us-central1
us-west4
northamerica-northeast1
us-east4
us-west1
asia-northeast3
asia-southeast1
asia-northeast1
PROJECT_ID
: 프로젝트 IDMODEL_ID
: 사용할 멀티모달 모델의 모델 ID입니다. 몇 가지 옵션을 살펴보겠습니다.gemini-1.0-pro-002
gemini-1.0-pro-vision-001
gemini-1.5-pro-002
gemini-1.5-flash
멀티턴 대화의 첫 번째 프롬프트에 포함할 텍스트 안내입니다. 예를 들면TEXT1
What are all the colors in a rainbow?
입니다. 두 번째 프롬프트에 포함할 텍스트 안내입니다. 예를 들면TEXT2
Why does it appear when it rains?
입니다.TEMPERATURE
: 강도는 응답 생성 중 샘플링에 사용되며topP
및topK
가 적용될 때 발생합니다. 온도는 토큰 선택의 무작위성 수준을 제어합니다. 온도가 낮을수록 자유롭거나 창의적인 답변과 거리가 먼 응답이 필요한 프롬프트에 적합하고, 온도가 높을수록 보다 다양하거나 창의적인 결과로 이어질 수 있습니다. 온도가0
이면 확률이 가장 높은 토큰이 항상 선택됩니다. 이 경우 특정 프롬프트에 대한 응답은 대부분 확정적이지만 여전히 약간의 변형이 가능합니다.모델이 너무 일반적이거나, 너무 짧은 응답을 반환하거나 모델이 대체 응답을 제공할 경우에는 온도(temperature)를 높여보세요.
요청을 보내려면 다음 옵션 중 하나를 선택합니다.
curl
요청 본문을 request.json
파일에 저장합니다.
터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.
cat > request.json << 'EOF' { "contents": [ { "role": "user", "parts": { "text": "TEXT1" } }, { "role": "model", "parts": { "text": "What a great question!" } }, { "role": "user", "parts": { "text": "TEXT2" } } ], "generation_config": { "temperature": TEMPERATURE } } EOF
그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_ID:GENERATE_RESPONSE_METHOD"
PowerShell
요청 본문을 request.json
파일에 저장합니다.
터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.
@' { "contents": [ { "role": "user", "parts": { "text": "TEXT1" } }, { "role": "model", "parts": { "text": "What a great question!" } }, { "role": "user", "parts": { "text": "TEXT2" } } ], "generation_config": { "temperature": TEMPERATURE } } '@ | Out-File -FilePath request.json -Encoding utf8
그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_ID:GENERATE_RESPONSE_METHOD" | Select-Object -Expand Content
다음과 비슷한 JSON 응답이 수신됩니다.
이 샘플의 URL에서 다음 사항을 참고하세요.- 응답이 완전히 생성된 후 반환되도록 요청하려면
generateContent
메서드를 사용합니다. 시청자가 지연 시간에 대해 갖는 느낌을 줄이려면streamGenerateContent
메서드를 사용하여 생성되는 응답을 스트리밍합니다. - 멀티모달 모델 ID는 메서드 앞의 URL 끝 부분에 있습니다(예:
gemini-1.5-flash
또는gemini-1.0-pro-vision
). 이 샘플은 다른 모델도 지원할 수 있습니다.
콘솔
Vertex AI Studio를 사용하여 Google Cloud 콘솔에서 채팅 프롬프트를 보내려면 다음을 수행합니다.
- Google Cloud 콘솔의 Vertex AI 섹션에서 Vertex AI 스튜디오 페이지로 이동합니다.
- 대화 시작에서 문자 채팅을 클릭합니다.
선택사항: 모델 및 파라미터를 구성합니다.
- 모델: Gemini Pro를 선택합니다.
- 리전: 사용할 리전을 선택합니다.
온도: 슬라이더 또는 텍스트 상자를 사용해서 온도 값을 입력합니다.
온도(temperature)는 응답 생성 중 샘플링에 사용되며topP
및topK
가 적용될 때 발생합니다. 온도는 토큰 선택의 무작위성 수준을 제어합니다. 온도가 낮을수록 자유롭거나 창의적인 답변과 거리가 먼 응답이 필요한 프롬프트에 적합하고, 온도가 높을수록 보다 다양하거나 창의적인 결과로 이어질 수 있습니다. 온도가0
이면 확률이 가장 높은 토큰이 항상 선택됩니다. 이 경우 특정 프롬프트에 대한 응답은 대부분 확정적이지만 여전히 약간의 변형이 가능합니다.모델이 너무 일반적이거나, 너무 짧은 응답을 반환하거나 모델이 대체 응답을 제공할 경우에는 온도(temperature)를 높여보세요.
출력 토큰 한도: 슬라이더 또는 텍스트 상자를 사용하여 최대 출력 한도의 값을 입력합니다.
응답에서 생성될 수 있는 토큰의 최대 개수입니다. 토큰은 약 4자(영문 기준)입니다. 토큰 100개는 단어 약 60~80개에 해당합니다.응답이 짧을수록 낮은 값을 지정하고 잠재적으로 응답이 길면 높은 값을 지정합니다.
- 중지 시퀀스 추가: 선택사항. 공백이 포함된 일련의 문자인 중지 시퀀스를 입력합니다. 모델에 중지 시퀀스가 발생하면 응답 생성이 중지됩니다. 중지 시퀀스는 응답에 포함되지 않으며 중지 시퀀스를 최대 5개까지 추가할 수 있습니다.
- 선택사항: 고급 매개변수를 구성하려면 고급을 클릭하고 다음과 같이 구성합니다.
클릭하여 고급 구성 펼치기
Top-K: 슬라이더 또는 텍스트 상자를 사용하여 Top-K의 값을 입력합니다.
Top-K는 모델이 출력용 토큰을 선택하는 방식을 변경합니다. Top-K가1
이면 선택된 토큰이 모델의 어휘에 포함된 모든 토큰 중에서 가장 확률이 높다는 의미입니다(그리디 디코딩이라고도 함). 반면에 Top-K가3
이면 온도를 사용하여 가장 확률이 높은 3개 토큰 중에서 다음 토큰이 선택된다는 의미입니다.각 토큰 선택 단계에서 확률이 가장 높은 Top-K 토큰이 샘플링됩니다. 그런 다음 Top-P를 기준으로 토큰을 추가로 필터링하고 온도 샘플링을 사용하여 최종 토큰을 선택합니다.
임의성이 낮은 응답에 낮은 값을 지정하고 임의성이 높은 응답에 높은 값을 지정합니다.
- Top-P: 슬라이더 또는 텍스트 상자를 사용하여 Top-P의 값을 입력합니다.
토큰의 확률 합계가 Top-P 값과 같아질 때까지 확률이 가장 높은 순에서 낮은 순으로 토큰이 선택됩니다. 최소 변수 결과의 경우 Top-P를
0
으로 설정합니다. - 그라운딩 사용 설정: 그라운딩 소스 및 경로를 추가하여 이 기능을 맞춤설정합니다.
- 프롬프트 창에 텍스트 프롬프트를 입력합니다. 모델은 이전 메시지를 새 응답의 컨텍스트로 사용합니다.
- 선택사항: 텍스트 토큰 수를 표시하려면 토큰 보기를 클릭합니다. 텍스트 프롬프트의 토큰이나 토큰 ID를 볼 수 있습니다.
- 텍스트 프롬프트에서 각 토큰 ID의 경계를 표시하는 다양한 색상으로 강조표시된 토큰을 보려면 토큰 ID 텍스트로 변환을 클릭합니다. 미디어 토큰은 지원되지 않습니다.
- 토큰 ID를 보려면 토큰 ID를 클릭합니다.
토크나이저 도구 창을 닫으려면 X를 클릭하거나 창 바깥쪽을 클릭합니다.
- 제출을 클릭합니다.
- (선택사항) 프롬프트를 내 프롬프트에 저장하려면 저장을 클릭합니다.
- (선택사항) 프롬프트에 대해 Python 코드 또는 curl 명령어를 가져오려면 코드 가져오기를 클릭합니다.
- (선택사항) 이전 메시지를 모두 지우려면 대화 지우기를 클릭합니다.
시스템 안내를 사용하여 특정 요구사항 또는 사용 사례에 따라 모델의 동작을 조정할 수 있습니다. 예를 들어 고객 서비스 요청에 응답하는 챗봇의 캐릭터 또는 역할을 정의할 수 있습니다. 자세한 내용은 시스템 안내 코드 샘플을 참고하세요.
다음 단계
멀티모달 프롬프트 요청을 보내는 방법을 알아보세요.