Modelli Llama completamente gestiti


I modelli Llama su Vertex AI offrono modelli serverless e completamente gestiti come API. Per utilizzare un modello Llama su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli Llama utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.

Puoi trasmettere in streaming le risposte per ridurre la percezione della latenza dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per trasmettere in streaming in modo incrementale la risposta.

Modelli Llama disponibili

I seguenti modelli Llama sono disponibili da Meta per l'utilizzo in Vertex AI. Per accedere a un modello Llama, vai alla relativa scheda del modello Model Garden.

I modelli in anteprima hanno anche l'opzione di autodeploy. Se hai bisogno di un servizio pronto per la produzione, utilizza i modelli Llama con deployment automatico.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E è il modello Llama 4 più grande e potente che offre funzionalità di programmazione, ragionamento e immagini. È caratterizzato da un'architettura Mixture-of-Experts (MoE) con 17 miliardi di parametri attivi su 400 miliardi di parametri totali e 128 esperti. Llama 4 Maverick 17B-128E utilizza livelli densi e MoE alternati, in cui ogni token attiva un esperto condiviso più uno dei 128 esperti instradati. Il modello è preaddestrato su 200 lingue e ottimizzato per interazioni di chat di alta qualità tramite una pipeline di post-training ottimizzata.

Llama 4 Maverick 17B-128E è multimodale ed è adatto per la didascalia, l'analisi e la comprensione precisa delle immagini, domande e risposte visive, la generazione di testi creativi, gli assistenti AI generici e i chatbot sofisticati che richiedono intelligenza e comprensione delle immagini di primo livello.

Considerazioni

  • Puoi includere un massimo di tre immagini per richiesta.
  • L'endpoint MaaS non utilizza Llama Guard, a differenza delle versioni precedenti. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a questo endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo richieste con una singola immagine all'inizio del prompt.
  • Le previsioni batch non sono supportate.

Vai alla scheda del modello Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E offre risultati all'avanguardia per la sua classe di dimensioni che superano le generazioni precedenti di Llama e altri modelli aperti e proprietari in diversi benchmark. È caratterizzato da un'architettura MoE con 17 miliardi di parametri attivi su un totale di 109 miliardi e 16 esperti.

Llama 4 Scout 17B-16E è adatto per attività di recupero all'interno di contesti lunghi e per attività che richiedono il ragionamento su grandi quantità di informazioni, come il riepilogo di più documenti di grandi dimensioni, l'analisi di log di interazione degli utenti estesi per la personalizzazione e il ragionamento su codebase di grandi dimensioni.

Vai alla scheda del modello Llama 4

Considerazioni

  • Puoi includere un massimo di tre immagini per richiesta.
  • L'endpoint MaaS non utilizza Llama Guard, a differenza delle versioni precedenti. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a questo endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo richieste con una singola immagine all'inizio del prompt.
  • Le previsioni batch non sono supportate.

Vai alla scheda del modello Llama 4

Llama 3.3

Llama 3.3 è un modello di 70 miliardi di parametri ottimizzato per le istruzioni solo testuali che offre prestazioni migliorate rispetto a Llama 3.1 70B e Llama 3.2 90B se utilizzato per applicazioni solo testuali.

Vai alla scheda del modello Llama 3.3 70B

Durante il periodo di anteprima, ti viene addebitato un costo in base all'utilizzo del modello (pagamento a consumo). Per i prezzi con pagamento a consumo, consulta i prezzi del modello Llama nella pagina dei prezzi di Vertex AI.

Llama 3.2

Llama 3.2 consente agli sviluppatori di creare ed eseguire il deployment dei più recenti modelli e applicazioni di AI generativa che utilizzano le funzionalità più recenti di Llama, come il ragionamento sulle immagini. Llama 3.2 è progettato anche per essere più accessibile per le applicazioni sul dispositivo.

Vai alla scheda del modello Llama 3.2 90B

Non sono previsti costi durante il periodo di anteprima. Se hai bisogno di un servizio pronto per la produzione, utilizza i modelli Llama self-hosted.

Considerazioni

Quando utilizzi llama-3.2-90b-vision-instruct-maas, non ci sono limitazioni quando invii prompt solo di testo. Tuttavia, se includi un'immagine nel prompt, questa deve trovarsi all'inizio del prompt e puoi includere una sola immagine. Ad esempio, non puoi includere del testo e poi un'immagine.

Llama 3.1

Llama 3.1 è un modello linguistico autoregressivo che utilizza un'architettura Transformer ottimizzata. Le versioni ottimizzate utilizzano l'ottimizzazione supervisionata (SFT) e l'apprendimento per rinforzo con feedback umano (RLHF) per allinearsi alle preferenze umane in termini di utilità e sicurezza.

Llama 3.1 405B è in disponibilità generale. L'addebito avviene man mano che utilizzi il modello (pagamento a consumo). Per i prezzi con pagamento a consumo, consulta la pagina Prezzi del modello Llama su Vertex AI.

Gli altri modelli Llama 3.1 sono in anteprima. Non sono previsti costi per i modelli di anteprima. Se hai bisogno di un servizio pronto per la produzione, utilizza i modelli Llama self-hosted.

Vai alla scheda del modello Llama 3.1

Passaggi successivi

Scopri come utilizzare i modelli Llama.