이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Llama 예측 요청

다음 모델 이름을 사용하여 curl 명령어로 Vertex AI 엔드포인트에 요청을 보낼 수 있습니다.

Llama 4 Maverick 17B-128E의 경우 llama-4-maverick-17b-128e-instruct-maas를 사용합니다.
Llama 4 Scout 17B-16E의 경우 llama-4-scout-17b-16e-instruct-maas를 사용합니다.
Llama 3.3 70B의 경우 llama-3.3-70b-instruct-maas를 사용합니다.
Llama 3.2 90B의 경우 llama-3.2-90b-vision-instruct-maas를 사용합니다.
Llama 3.1 405B의 경우 llama-3.1-405b-instruct-maas를 사용합니다.
Llama 3.1 70B의 경우 llama-3.1-70b-instruct-maas를 사용합니다.
Llama 3.1 8B의 경우 llama-3.1-8b-instruct-maas를 사용합니다.

Llama 모델에 스트리밍 및 비스트리밍 호출을 하는 방법을 알아보려면 개방형 모델용 MaaS API 호출을 참고하세요.

시작하기 전에

Vertex AI에서 Llama 모델을 사용하려면 다음 단계를 실행해야 합니다. Vertex AI를 사용하려면 Vertex AI API(aiplatform.googleapis.com)를 사용 설정해야 합니다. Vertex AI API가 사용 설정된 기존 프로젝트가 이미 있는 경우 새 프로젝트를 만드는 대신 해당 프로젝트를 사용할 수 있습니다.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

다음 Model Garden 모델 카드 중 하나로 이동한 다음 사용 설정을 클릭합니다.

Llama 모델에 스트리밍 호출 수행

다음 샘플은 Llama 모델을 스트리밍 호출합니다.

REST

환경을 설정하면 REST를 사용하여 텍스트 프롬프트를 테스트할 수 있습니다. 다음 샘플은 요청을 게시자 모델 엔드포인트에 전송합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION: Llama 모델을 지원하는 리전.
MODEL: 사용할 모델 이름.
ROLE: 메시지와 연결된 역할. user 또는 assistant를 지정할 수 있습니다. 첫 번째 메시지는 user 역할을 사용해야 합니다. 모델이 user와 assistant의 턴을 번갈아가며 작동합니다. 최종 메시지에서 assistant 역할을 사용하는 경우 이 메시지의 콘텐츠에서 곧바로 대답 콘텐츠가 계속됩니다. 이를 사용하여 모델 대답의 일부를 제한할 수 있습니다.
CONTENT: user 또는 assistant 메시지의 콘텐츠(예: 텍스트).
MAX_OUTPUT_TOKENS: 대답에서 생성될 수 있는 토큰의 최대 개수. 토큰은 약 4자(영문 기준)입니다. 토큰 100개는 단어 약 60~80개에 해당합니다.
응답이 짧을수록 낮은 값을 지정하고 잠재적으로 응답이 길면 높은 값을 지정합니다.
STREAM: 대답 스트리밍 여부를 지정하는 불리언. 응답을 스트리밍하여 최종 사용자 지연 시간 인식을 줄입니다. 응답을 스트리밍하려면 true로 설정하고 응답을 한 번에 반환하려면 false로 설정합니다.
ENABLE_LLAMA_GUARD: 입력 및 출력에서 Llama Guard를 사용 설정할지 여부를 지정하는 불리언입니다. Llama Guard는 기본적으로 사용 설정되어 있으며, 응답이 안전하지 않다고 판단되면 플래그로 표시합니다.

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

JSON 요청 본문:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 수신됩니다.

응답

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      },
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk"
}

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant"
      },
      "finish_reason": "stop",
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk",
  "usage": {
    "completion_tokens": 131,
    "prompt_tokens": 14,
    "total_tokens": 145
  }
}

Llama 모델에 단항 호출 수행

다음 샘플은 Llama 모델을 단항 호출합니다.

REST

환경을 설정하면 REST를 사용하여 텍스트 프롬프트를 테스트할 수 있습니다. 다음 샘플은 요청을 게시자 모델 엔드포인트에 전송합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION: Llama 모델을 지원하는 리전.
MODEL: 사용할 모델 이름.
ROLE: 메시지와 연결된 역할. user 또는 assistant를 지정할 수 있습니다. 첫 번째 메시지는 user 역할을 사용해야 합니다. 모델이 user와 assistant의 턴을 번갈아가며 작동합니다. 최종 메시지에서 assistant 역할을 사용하는 경우 이 메시지의 콘텐츠에서 곧바로 대답 콘텐츠가 계속됩니다. 이를 사용하여 모델 대답의 일부를 제한할 수 있습니다.
CONTENT: user 또는 assistant 메시지의 콘텐츠(예: 텍스트).
MAX_OUTPUT_TOKENS: 대답에서 생성될 수 있는 토큰의 최대 개수. 토큰은 약 4자(영문 기준)입니다. 토큰 100개는 단어 약 60~80개에 해당합니다.
응답이 짧을수록 낮은 값을 지정하고 잠재적으로 응답이 길면 높은 값을 지정합니다.
STREAM: 대답 스트리밍 여부를 지정하는 불리언. 응답을 스트리밍하여 최종 사용자 지연 시간 인식을 줄입니다. 응답을 스트리밍하려면 true로 설정하고 응답을 한 번에 반환하려면 false로 설정합니다.
ENABLE_LLAMA_GUARD: 입력 및 출력에서 Llama Guard를 사용 설정할지 여부를 지정하는 불리언입니다. Llama Guard는 기본적으로 사용 설정되어 있으며, 응답이 안전하지 않다고 판단되면 플래그로 표시합니다.

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

JSON 요청 본문:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 수신됩니다.

응답

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      }
    }
  ],
  "model": "meta/llama3-405b-instruct-maas",
  "object": "chat.completion",
  "usage": {
    "completion_tokens": 367,
    "prompt_tokens": 14,
    "total_tokens": 381
  }
}

플래그 표시된 응답

기본적으로 Llama Guard 3 8B는 Llama 3.3 및 Llama 3.1 모델로 수행하는 모든 예측에서 사용 설정됩니다. 기본적으로 Llama Guard 3 11B 비전은 Llama 3.2 모델로 수행하는 모든 예측에서 사용 설정됩니다. Llama Guard는 입력 및 출력을 확인하여 응답을 보호하는 데 도움이 됩니다. Llama Guard에서 응답이 안전하지 않다고 판단되면 응답을 플래그로 표시합니다.

Llama Guard를 사용 중지하려면 모델 안전 설정을 수정합니다. 자세한 내용은 스트리밍 또는 단항 예시에서 model_safety_settings 필드를 참조하세요.

Vertex AI Studio 사용

Llama 모델의 경우 Vertex AI Studio를 사용하여 Google Cloud 콘솔에서 생성형 AI 모델을 빠르게 프로토타입하고 테스트할 수 있습니다. 예를 들어 Vertex AI Studio를 사용해서 Llama 모델 응답을 Google Gemini와 같은 다른 지원되는 모델과 비교할 수 있습니다.

자세한 내용은 빠른 시작: Vertex AI Studio를 사용하여 Gemini에 텍스트 프롬프트 보내기를 참조하세요.

Llama 모델 리전 가용성 및 할당량

Llama 모델의 경우 모델을 사용할 수 있는 각 리전에 할당량이 적용됩니다. 할당량은 분당 쿼리 수(QPM)로 지정됩니다.

모델	지역	할당량	컨텍스트 길이
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E	`us-east5`		524,288
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E	`us-east5`		1,310,720
Llama 3.3 70B
Llama 3.3 70B	`us-central1`	QPM: 100개	128,000
Llama 3.2 90B
Llama 3.2 90B	`us-central1`	QPM: 30개	128,000
Llama 3.1 405B
Llama 3.1 405B	`us-central1`	QPM: 60개	128,000
Llama 3.1 70B
Llama 3.1 70B	`us-central1`	QPM: 60개	128,000
Llama 3.1 8B
Llama 3.1 8B	`us-central1`	QPM: 60개	128,000

Vertex AI 기반 생성형 AI 할당량을 상향 조정하려면 Google Cloud 콘솔을 사용하여 할당량 상향을 요청하면 됩니다. 할당량에 대해 자세히 알아보려면 Cloud 할당량 개요를 참고하세요.