Questa pagina è stata tradotta dall'API Cloud Translation.

Richiedere previsioni Llama

Puoi utilizzare i comandi curl per inviare richieste all'endpoint Vertex AI utilizzando i seguenti nomi di modelli:

Per Llama 4 Maverick 17B-128E, utilizza llama-4-maverick-17b-128e-instruct-maas
Per Llama 4 Scout 17B-16E, utilizza llama-4-scout-17b-16e-instruct-maas
Per Llama 3.3 70B, utilizza llama-3.3-70b-instruct-maas
Per Llama 3.2 90B, utilizza llama-3.2-90b-vision-instruct-maas
Per Llama 3.1 405B, utilizza llama-3.1-405b-instruct-maas
Per Llama 3.1 70B, utilizza llama-3.1-70b-instruct-maas
Per Llama 3.1 8B, utilizza llama-3.1-8b-instruct-maas

Per scoprire come effettuare chiamate di streaming e non di streaming ai modelli Llama, consulta Chiamare le API MaaS per i modelli aperti.

Prima di iniziare

Per utilizzare i modelli Llama con Vertex AI, devi eseguire i seguenti passaggi. L'API Vertex AI (aiplatform.googleapis.com) deve essere abilitata per utilizzare Vertex AI. Se hai già un progetto esistente con l'API Vertex AI abilitata, puoi utilizzare questo progetto anziché crearne uno nuovo.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Vai a una delle seguenti schede del modello Model Garden, poi fai clic su Attiva:

Fai una chiamata di streaming a un modello Llama

L'esempio seguente esegue una chiamata di streaming a un modello Llama.

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

LOCATION: una regione che supporta Modelli di Llama.
MODEL: il nome del modello che vuoi utilizzare.
ROLE: Il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con turni alternati user e assistant. Se il messaggio finale utilizza il ruolo assistant, il contenuto della risposta continua immediatamente dal contenuto di quel messaggio. Puoi utilizzare questo parametro per vincolare una parte della risposta del modello.
CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti in streaming la risposta per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere in streaming la risposta e su false per restituire la risposta tutta in una volta.
ENABLE_LLAMA_GUARD: Un valore booleano che specifica se attivare Llama Guard per gli input e gli output. Per impostazione predefinita, Llama Guard è attivato e segnala le risposte se le ritiene non sicure.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON della richiesta:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login . Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Risposta

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      },
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk"
}

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant"
      },
      "finish_reason": "stop",
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk",
  "usage": {
    "completion_tokens": 131,
    "prompt_tokens": 14,
    "total_tokens": 145
  }
}

Fai una chiamata unaria a un modello Llama

Il seguente esempio esegue una chiamata unaria a un modello Llama.

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

LOCATION: una regione che supporta Modelli di Llama.
MODEL: il nome del modello che vuoi utilizzare.
ROLE: Il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con turni alternati user e assistant. Se il messaggio finale utilizza il ruolo assistant, il contenuto della risposta continua immediatamente dal contenuto di quel messaggio. Puoi utilizzare questo parametro per vincolare una parte della risposta del modello.
CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti in streaming la risposta per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere in streaming la risposta e su false per restituire la risposta tutta in una volta.
ENABLE_LLAMA_GUARD: Un valore booleano che specifica se attivare Llama Guard per gli input e gli output. Per impostazione predefinita, Llama Guard è attivato e segnala le risposte se le ritiene non sicure.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON della richiesta:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Risposta

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      }
    }
  ],
  "model": "meta/llama3-405b-instruct-maas",
  "object": "chat.completion",
  "usage": {
    "completion_tokens": 367,
    "prompt_tokens": 14,
    "total_tokens": 381
  }
}

Risposte segnalate

Per impostazione predefinita, Llama Guard 3 8B è abilitato per tutte le previsioni che fai con i modelli Llama 3.3 e Llama 3.1. Per impostazione predefinita, la visione di Llama Guard 3 11B è attivata su tutte le previsioni che effettui con i modelli Llama 3.2. Llama Guard aiuta a proteggere le risposte controllando input e output. Se Llama Guard determina che non sono sicure, contrassegna la risposta.

Se vuoi disattivare Llama Guard, modifica l'impostazione di sicurezza del modello. Per ulteriori informazioni, consulta il campo model_safety_settings nell'esempio di streaming o unario.

Utilizzare Vertex AI Studio

Per i modelli Llama, puoi utilizzare Vertex AI Studio per creare rapidamente prototipi e testare modelli di AI generativa nella console Google Cloud . Ad esempio, puoi utilizzare Vertex AI Studio per confrontare le risposte del modello Llama con altri modelli supportati, come Gemini di Google.

Per ulteriori informazioni, consulta Guida rapida: invia prompt di testo a Gemini utilizzando Vertex AI Studio.

Disponibilità e quote per la regione del modello Llama

Per i modelli Llama, viene applicata una quota per ogni regione in cui il modello è disponibile. La quota è specificata in query al minuto (QPM).

Modello	Regione	Quote	Lunghezza del contesto
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E	`us-east5`		524.288
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E	`us-east5`		1.310.720
Llama 3.3 70B
Llama 3.3 70B	`us-central1`	QPM: 100	128.000
Llama 3.2 90B
Llama 3.2 90B	`us-central1`	QPM: 30	128.000
Llama 3.1 405B
Llama 3.1 405B	`us-central1`	QPM: 60	128.000
Llama 3.1 70B
Llama 3.1 70B	`us-central1`	QPM: 60	128.000
Llama 3.1 8B
Llama 3.1 8B	`us-central1`	QPM: 60	128.000

Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la Google Cloud console per richiedere un aumento di quota. Per saperne di più sulle quote, consulta la panoramica di Cloud Quotas.