No console do Google Cloud, é possível criar um endpoint público e implantar um modelo nele.
Os modelos podem ser implantados na página de previsões on-line ou no Model Registry.
Implantar um modelo na página "Previsão on-line"
Na página "Previsão on-line", é possível criar um endpoint e implantar um ou mais modelos da seguinte maneira:
No console do Google Cloud, na seção Vertex AI, acesse a página Previsão on-line.
Clique em
Criar.No painel Novo endpoint:
Insira o Nome do endpoint.
Selecione Padrão como o tipo de acesso.
Para criar um endpoint público dedicado (não compartilhado), marque a caixa de seleção Ativar DNS dedicado.
Clique em Continuar.
No painel Configurações do modelo:
Selecione o modelo na lista suspensa.
Escolha a versão do modelo na lista suspensa.
Insira a porcentagem da Divisão de tráfego do modelo.
Clique em Concluído.
Repita essas etapas para outros modelos a serem implantados.
Implantar um modelo na página "Model Registry"
Na página do registro de modelos, é possível implantar um modelo em um ou mais endpoints novos ou atuais da seguinte maneira:
No Console do Google Cloud, na seção da Vertex AI, acesse a página de Modelos.
Clique no nome e no código da versão do modelo que você quer implantar para abrir a página de detalhes.
Selecione a guia Implantar e testar.
Caso seu modelo já esteja implantado em um endpoint, o endpoint estará listado na seção Implantar seu modelo.
Clique em Implantar no endpoint.
Para implantar o modelo em um novo endpoint:
- Selecione Criar novo endpoint.
- Dê um nome ao novo endpoint.
- Para criar um endpoint público dedicado (não compartilhado), marque a caixa de seleção Ativar DNS dedicado.
- Clique em Continuar.
Para implantar o modelo em um endpoint atual, faça o seguinte:
- Selecione Adicionar a um endpoint atual.
- Selecione o endpoint na lista suspensa.
- Clique em Continuar.
É possível implantar vários modelos em um endpoint ou implantar o mesmo modelo em vários endpoints.
Se você implantar o modelo em um endpoint atual que tem um ou mais modelos implantados, é necessário atualizar a porcentagem de divisão de tráfego do modelo que você está implantando, bem como a dos modelos já implantados para que todas as porcentagens totalizem 100%.
Se você estiver implantando seu modelo em um novo endpoint, aceite 100 para a divisão de tráfego. Caso contrário, ajuste os valores de divisão de tráfego para todos os modelos no endpoint para que totalizem 100.
Insira o número mínimo de nós de computação que você quer fornecer ao modelo.
Esse é o número de nós que precisam estar disponíveis para o modelo o tempo todo.
Você é cobrado pelos nós usados, seja para processar a carga de previsão ou por nós de espera (mínimo), mesmo sem tráfego de previsão. Consulte a página de preços.
O número de nós de computação pode aumentar se for necessário para processar o tráfego de previsão, mas nunca ultrapassa o número máximo de nós.
Para usar o escalonamento automático, insira o número máximo de nós de computação que você quer que a Vertex AI escalone verticalmente.
Selecione o Tipo de máquina.
Recursos maiores de máquina aumentarão o desempenho da previsão e os custos. Compare os tipos de máquina disponíveis.
Selecione um Tipo de acelerador e uma Contagem de aceleradores.
Se você ativou o uso do acelerador ao importar ou criar o modelo, essa opção será exibida.
Para ver a contagem de aceleradores, consulte a tabela de GPUs para verificar se há números válidos de GPUs que você pode usar com cada tipo de máquina de CPU. A contagem de aceleradores se refere ao número de aceleradores por nó, e não ao número total de aceleradores na sua implantação.
Se você quiser usar uma conta de serviço personalizada na implantação, selecione uma conta de serviço no menu suspenso Conta de serviço.
Saiba como alterar as configurações padrão para a geração de registros de previsão.
Clique em Concluído no modelo. Quando todas as porcentagens de Divisão de tráfego estiverem corretas, clique em Continuar.
A região onde seu modelo é implantado é exibida. Precisa ser a região em que você criou o modelo.
Clique em Implantar para implantar o modelo no endpoint.
A seguir
- Saiba como receber uma previsão on-line.
- Saiba como alterar as configurações padrão para a geração de registros de previsão.