Neste tutorial, mostramos como disponibilizar um modelo de linguagem grande (LLM, na sigla em inglês) Gemma usando unidades de processamento gráfico (GPUs) no Google Kubernetes Engine (GKE) com o vLLM. Neste tutorial, você fará o download dos modelos Gemma ajustados e pré-treinados com instruções de parâmetros 2B e 7B da Hugging Face e os implantará em um cluster do GKE Autopilot ou Standard usando um contêiner que executa o vLLM.
Este guia é um bom ponto de partida se você precisar do controle granular, da escalonabilidade, da resiliência, da portabilidade e da economia do Kubernetes gerenciado ao implantar e disponibilizar suas cargas de trabalho de IA/ML. Se você precisa de uma plataforma de IA gerenciada unificada para criar e disponibilizar modelos de ML rapidamente e de maneira econômica, recomendamos testar nossa solução de implantação da Vertex AI.
Experiência
Ao disponibilizar o Gemma usando GPUs no GKE com o vLLM, é possível implementar uma solução de veiculação de inferência robusta e pronta para produção com todos os benefícios do Kubernetes gerenciado, incluindo escalonabilidade eficiente e maior disponibilidade. Esta seção descreve as principais tecnologias usadas neste guia.
Gemma
O Gemma é um conjunto de modelos de inteligência artificial (IA) generativa, leve e abertamente lançados sob licença aberta. Esses modelos de IA estão disponíveis para execução em aplicativos, hardware, dispositivos móveis ou serviços hospedados. É possível usar os modelos Gemma para geração de texto, mas também é possível ajustá-los para tarefas especializadas.
Para saber mais, consulte a documentação do Gemma.
GPUs
As GPUs permitem acelerar cargas de trabalho específicas em execução nos nós, como machine learning e processamento de dados. O GKE oferece uma gama de opções de tipos de máquina para configuração de nós, incluindo tipos de máquinas com GPUs NVIDIA H100, L4 e A100.
Antes de usar GPUs no GKE, recomendamos que você conclua o seguinte programa de aprendizado:
- Saiba mais sobre a disponibilidade atual da versão da GPU.
- Saiba mais sobre GPUs no GKE.
vLLM
O vLLM é um framework de exibição de LLM de código aberto altamente otimizado que pode aumentar a capacidade de exibição em GPUs, com recursos como:
- Otimização da implementação do transformador com PagedAttention
- Lotes contínuos para melhorar a capacidade geral de exibição
- Paralelismo de tensor e exibição distribuída em várias GPUs
Para saber mais, consulte a documentação do vLLM.
Objetivos
Este guia é destinado a clientes de IA generativa que usam PyTorch, usuários novos ou antigos do GKE, engenheiros de ML, engenheiros de MLOps (DevOps) ou administradores de plataformas interessados no uso dos recursos de orquestração de contêineres do Kubernetes para disponibilizar LLMs em hardwares de GPU H100, A100 e L4.
Ao final deste guia, você será capaz de realizar as seguintes etapas:
- Prepare seu ambiente com um cluster do GKE no modo Autopilot ou Standard.
- Implante um contêiner vLLM no seu cluster.
- Use o vLLM para exibir o modelo Gemma 2B ou 7B por meio de curl e de uma interface de chat na Web.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the required API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the required API.
-
Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Acessar o IAM - Selecionar um projeto.
- Clique em CONCEDER ACESSO.
-
No campo Novos principais, insira seu identificador de usuário. Normalmente, é o endereço de e-mail de uma Conta do Google.
- Na lista Selecionar um papel, escolha um.
- Para conceder outros papéis, clique em Adicionar outro papel e adicione cada papel adicional.
- Clique em Salvar.
-
- Crie uma conta do Hugging Face caso ainda não tenha uma.
- Verifique se o projeto tem cota suficiente para GPUs. Para saber mais, consulte Sobre GPUs e Cotas de alocação.
Receber acesso ao modelo
Para ter acesso aos modelos Gemma para implantação no GKE, primeiro assine o contrato de consentimento de licença e gere um token de acesso do Hugging Face.
Assinar o contrato de consentimento de licença
É necessário assinar o contrato de consentimento para usar o Gemma. Siga estas instruções:
- Acesse a página de consentimento do modelo em Kaggle.com.
- Confirme seu consentimento usando sua conta do Hugging Face.
- Aceite os termos do modelo.
Gerar um token de acesso
Para acessar o modelo pelo "Rosto abraçado", você vai precisar de um token de rosto abraçado.
Siga as etapas abaixo para gerar um novo token, caso ainda não tenha um:
- Clique em Seu perfil > Configurações > Tokens de acesso.
- Selecione Novo token.
- Especifique um Nome de sua escolha e um Papel de pelo menos `Read.
- Selecione Gerar um token.
- Copie o token gerado para a área de transferência.
Prepare o ambiente
Neste tutorial, você usará o Cloud Shell para gerenciar recursos hospedados no
Google Cloud. O Cloud Shell vem pré-instalado com o software necessário
para este tutorial, incluindo
kubectl
e
gcloud CLI.
Para configurar o ambiente com o Cloud Shell, siga estas etapas:
No console do Google Cloud, inicie uma sessão do Cloud Shell clicando em Ativar o Cloud Shell no console do Google Cloud. Isso inicia uma sessão no painel inferior do console do Google Cloud.
Defina as variáveis de ambiente padrão:
gcloud config set project PROJECT_ID export PROJECT_ID=$(gcloud config get project) export REGION=REGION export CLUSTER_NAME=vllm export HF_TOKEN=HF_TOKEN
Substitua os seguintes valores:
- PROJECT_ID: seu ID do projeto no Google Cloud.
- REGION: uma região compatível com o tipo de acelerador que você quer usar, por exemplo,
us-central1
para GPU L4. - HF_TOKEN: o token do Hugging Face gerado anteriormente.
Criar e configurar recursos do Google Cloud
Siga estas instruções para criar os recursos necessários.
Criar um cluster do GKE e um pool de nós
É possível disponibilizar o Gemma em GPUs em um cluster do GKE Autopilot ou Standard. Recomendamos que você use um cluster do Autopilot para ter uma experiência totalmente gerenciada do Kubernetes. Para escolher o modo de operação do GKE mais adequado para suas cargas de trabalho, consulte Escolher um modo de operação do GKE.
Autopilot
No Cloud Shell, execute este comando:
gcloud container clusters create-auto ${CLUSTER_NAME} \
--project=${PROJECT_ID} \
--region=${REGION} \
--release-channel=rapid \
--cluster-version=1.28
O GKE cria um cluster do Autopilot com nós de CPU e GPU conforme solicitado pelas cargas de trabalho implantadas.
Standard
No Cloud Shell, execute o seguinte comando para criar um cluster Standard:
gcloud container clusters create ${CLUSTER_NAME} \ --project=${PROJECT_ID} \ --region=${REGION} \ --workload-pool=${PROJECT_ID}.svc.id.goog \ --release-channel=rapid \ --num-nodes=1
A criação do cluster pode levar vários minutos.
Execute o seguinte comando para criar um pool de nós para o cluster:
gcloud container node-pools create gpupool \ --accelerator type=nvidia-l4,count=2,gpu-driver-version=latest \ --project=${PROJECT_ID} \ --location=${REGION} \ --node-locations=${REGION}-a \ --cluster=${CLUSTER_NAME} \ --machine-type=g2-standard-24 \ --num-nodes=1
O GKE cria um único pool de nós contendo duas GPUs L4 para cada nó.
Criar um secret do Kubernetes para as credenciais do Hugging Face
No Cloud Shell, faça o seguinte:
Configure
kubectl
para se comunicar com o cluster:gcloud container clusters get-credentials ${CLUSTER_NAME} --location=${REGION}
Crie um secret do Kubernetes que contenha o token do Hugging Face:
kubectl create secret generic hf-secret \ --from-literal=hf_api_token=$HF_TOKEN \ --dry-run=client -o yaml | kubectl apply -f -
Implantar vLLM
Nesta seção, você implantará o contêiner vLLM para exibir o modelo Gemma que você quer usar. Para saber mais sobre os modelos ajustados e pré-treinados por instrução e qual deles selecionar para seu caso de uso, consulte Modelos ajustados.
Gemma 2B-it
Siga estas instruções para implantar o modelo ajustado por instruções do Gemma 2B.
Crie o seguinte manifesto
vllm-2b-it.yaml
:Aplique o manifesto:
kubectl apply -f vllm-2b-it.yaml
Gemma 7B-it
Siga estas instruções para implantar o modelo ajustado por instruções do Gemma 7B.
Crie o seguinte manifesto
vllm-7b-it.yaml
:Aplique o manifesto:
kubectl apply -f vllm-7b-it.yaml
Gemma 2B
Siga estas instruções para implantar o modelo pré-treinado do Gemma 2B.
Crie o seguinte manifesto
vllm-2b.yaml
:Aplique o manifesto:
kubectl apply -f vllm-2b.yaml
Gemma 7B
Siga estas instruções para implantar o modelo pré-treinado do Gemma 7B.
Crie o seguinte manifesto
vllm-7b.yaml
:Aplique o manifesto:
kubectl apply -f vllm-7b.yaml
Um pod no cluster faz o download dos pesos do modelo do Hugging Face e inicia o mecanismo de exibição.
Aguarde até que a implantação esteja disponível:
kubectl wait --for=condition=Available --timeout=700s deployment/vllm-gemma-deployment
Confira os registros da implantação em execução:
kubectl logs -f -l app=gemma-server
O recurso de implantação faz o download dos dados do modelo. O processo pode levar alguns minutos. O resultado será assim:
INFO 01-26 19:02:54 model_runner.py:689] Graph capturing finished in 4 secs.
INFO: Started server process [1]
INFO: Waiting for application startup.
INFO: Application startup complete.
INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
Verifique se o download do modelo foi concluído antes de prosseguir para a próxima seção.
Disponibilizar o modelo
Nesta seção, você vai interagir com o modelo.
Configurar o encaminhamento de portas
Execute o seguinte comando para configurar o encaminhamento de portas para o modelo:
kubectl port-forward service/llm-service 8000:8000
O resultado será assim:
Forwarding from 127.0.0.1:8000 -> 8000
Interagir com o modelo usando curl
Nesta seção, mostramos como realizar um teste preliminar básico para verificar os modelos pré-treinados ou ajustados que foram implantados. Para simplificar, esta seção descreve a abordagem de teste usando apenas os modelos 2B pré-treinados e ajustados por instrução.
Pré-treinado (2B)
Em uma nova sessão do terminal, use curl
para conversar com seu modelo:
USER_PROMPT="Java is a"
curl -X POST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d @- <<EOF
{
"prompt": "${USER_PROMPT}",
"temperature": 0.90,
"top_p": 1.0,
"max_tokens": 128
}
EOF
A saída a seguir mostra um exemplo da resposta do modelo:
{"predictions":["Prompt:\nJava is a\nOutput:\n<strong>programming language</strong> that is primarily aimed at developers. It was originally created by creators of the Java Virtual Machine (JVM). Java is multi-paradigm, which means it supports object-oriented, procedural, and functional programming paradigms. Java is object-oriented, which means that it is designed to support classes and objects. Java is a dynamically typed language, which means that the type of variables are not determined at compile time. Java is also a multi-paradigm language, which means it supports more than one programming paradigm. Java is also a very lightweight language, which means that it is a very low level language compared to other popular"]}
Instruções ajustadas (2B-it)
Em uma nova sessão do terminal, use curl
para conversar com seu modelo:
USER_PROMPT="I'm new to coding. If you could only recommend one programming language to start with, what would it be and why?"
curl -X POST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d @- <<EOF
{
"prompt": "<start_of_turn>user\n${USER_PROMPT}<end_of_turn>\n",
"temperature": 0.90,
"top_p": 1.0,
"max_tokens": 128
}
EOF
A saída a seguir mostra um exemplo da resposta do modelo:
{"predictions":["Prompt:\n<start_of_turn>user\nI'm new to coding. If you could only recommend one programming language to start with, what would it be and why?<end_of_turn>\nOutput:\n**Python** is an excellent choice for beginners due to the following reasons:\n\n* **Clear and simple syntax:** Python boasts a simple and straightforward syntax that makes it easy to learn the fundamentals of programming.\n* **Extensive libraries and modules:** Python comes with a vast collection of libraries and modules that address various programming tasks, including data manipulation, machine learning, and web development.\n* **Large and supportive community:** Python has a vibrant and active community that offers resources, tutorials, and support to help you along your journey.\n* **Cross-platform compatibility:** Python can be run on various platforms, including Windows, macOS, and"]}
(Opcional) Interagir com o modelo usando uma interface de chat do GRadio
Nesta seção, você criará um aplicativo de chat na Web que permite interagir com seu modelo ajustado por instruções. Para simplificar, esta seção descreve apenas a abordagem de teste usando o modelo 2B-it.
O Gradio é uma biblioteca Python que tem um
wrapper ChatInterface
que cria interfaces de usuário para chatbots.
Implantar a interface de chat
No Cloud Shell, salve o seguinte manifesto como
gradio.yaml
:Aplique o manifesto:
kubectl apply -f gradio.yaml
Aguarde até que a implantação esteja disponível:
kubectl wait --for=condition=Available --timeout=300s deployment/gradio
Usar a interface de chat
No Cloud Shell, execute este comando:
kubectl port-forward service/gradio 8080:8080
Isso cria um encaminhamento de porta do Cloud Shell para o serviço GRadio.
Clique no botão Visualização da Web no canto superior direito da barra de tarefas do Cloud Shell. Clique em Visualizar na porta 8080. Uma nova guia será aberta no navegador.
Interaja com Gemma usando a interface de chat do GRadio. Adicione uma solicitação e clique em Enviar.
Resolver problemas
- Se você receber a mensagem
Empty reply from server
, é possível que o contêiner não tenha concluído o download dos dados do modelo. Verifique os registros do pod novamente para ver a mensagemConnected
, que indica que o modelo está pronto para ser disponibilizado. - Se você vir
Connection refused
, verifique se o encaminhamento de portas está ativo.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
Excluir os recursos implantados
Para evitar cobranças na sua conta do Google Cloud pelos recursos criados neste guia, execute o seguinte comando:
gcloud container clusters delete ${CLUSTER_NAME} \
--region=${REGION}
A seguir
- Saiba mais sobre GPUs no GKE.
- Aprenda a usar o Gemma com o vLLM em outros aceleradores, incluindo GPUs A100 e H100, visualizando o exemplo de código no GitHub.
- Saiba mais como implantar cargas de trabalho de GPU no Autopilot.
- Aprenda a implantar cargas de trabalho de GPU no Standard.
- Conheça o repositório do GitHub e a documentação do vLLM.
- Conheça o Model Garden da Vertex AI.
- Descubra como executar cargas de trabalho de IA/ML otimizadas com os recursos de orquestração da plataforma GKE.