Monitorar seu cluster do Ray na Vertex AI

Nesta página, mostramos como visualizar os registros de rastreamento associados aos clusters do Ray e monitorar as métricas do Ray na Vertex AI. Também são fornecidas orientações para depurar clusters do Ray.

Ver registros

Ao executar tarefas com o cluster do Ray na Vertex AI, os registros de rastreamento são gerados e armazenados automaticamente no Cloud Logging e no painel do Ray de código aberto. Nesta seção, descrevemos como acessar os registros gerados pelo console do Google Cloud.

Antes de começar, leia a Visão geral do Ray na Vertex AI e configure todas as ferramentas necessárias como pré-requisito.

Painel do Ray OSS

É possível visualizar os arquivos de registro do Ray de código aberto por meio do painel do Ray OSS:

  1. No console do Google Cloud, acesse a página do Ray na Vertex AI.

    Acessar a página do Ray na Vertex AI

  2. Na linha do cluster que você criou, selecione no menu mais ações.

  3. Selecione o link do dashboard do Ray OSS. O painel é aberto em outra guia.

  4. Acesse a visualização Registros no canto superior direito do menu:

    selecionar registros do dashboard do Ray

  5. Clique em cada nó para ver os arquivos de registro associados a ele.

Console do Cloud Logging

  1. No console do Google Cloud, acesse a página Análise de registros:

    Acessar a Análise de registros

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Geração de registros.

  2. Selecione um projeto do Google Cloud, uma pasta ou uma organização.

  3. Para exibir todos os registros do Ray, insira a consulta a seguir no campo query-editor e clique em Executar consulta:

    resource.labels.task_name="ray-cluster-logs"
  4. Para reduzir os registros a um cluster do Ray específico, adicione a seguinte linha à consulta e clique em Executar consulta:

    labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME

    Substitua CLUSTER_NAME pelo nome do cluster do Ray. No console do Google Cloud, acesse Vertex AI > Ray na Vertex AI, onde você verá uma lista de nomes de clusters em cada região.

  5. Para reduzir ainda mais os registros a um arquivo de registro específico, como raylet.out, clique no nome do registro em Campos de registro -> Nome do registro.

  6. É possível agrupar entradas de registro semelhantes:

    1. Em Resultados da consulta, clique em uma entrada de registro para expandi-la.

    2. Em jsonPayload, clique no valor tailed_path. Será exibido um menu suspenso.

    3. Clique em Mostrar entradas correspondentes.

Desativar registros

Por padrão, o Ray no Cloud Logging da Vertex AI está ativado.

  • Para desativar a exportação de registros do Ray para o Cloud Logging, use o seguinte comando do SDK da Vertex AI para Python:

    vertex_ray.create_ray_cluster(..., enable_logging=False, ...)
    

Você pode ver os arquivos de log do Ray no painel do Ray mesmo se o recurso Ray on Vertex AI Cloud Logging estiver desativado.

Monitorar as métricas

É possível visualizar as métricas do Ray na Vertex AI de diferentes maneiras usando o Google Cloud Monitoring (GCM). Como alternativa, é possível exportar as métricas do GCM para seu próprio servidor Grafana.

Monitorar métricas no GCM

Há duas maneiras de visualizar as métricas do Ray na Vertex AI no GCM.

  • Use a visualização direta no Metrics Explorer.
  • Importe o painel do Grafana.

Metrics Explorer

Para usar a visualização direta no Metrics Explorer, siga estas etapas:

  1. Acesse o Console do Google Cloud Monitoring.
  2. Em Explorar, selecione Metrics Explorer.
  3. Em Recursos ativos, selecione Destino do Prometheus. A opção Categorias de métricas ativas será exibida.
  4. Selecione Ray.

    Uma lista de métricas será exibida:

    Selecionar a métrica
  5. Selecione as métricas que você quer monitorar. Exemplo:
    1. Escolha a porcentagem de utilização da CPU como uma métrica monitorada:
      Meta de utilização
    2. Selecionar um filtro. Por exemplo, selecione o cluster:
      adicionar filtro necessário Use o ID do cluster para monitorar apenas as métricas acima de um cluster específico. Para localizar o ID do cluster, siga estas etapas:
      1. No console do Google Cloud, acesse a página do Ray.

        Acessar o Ray

      2. Verifique se você está no projeto em que quer criar o experimento.
        Projeto selecionado do Vertex AI
      3. Em Nome, aparece uma lista de IDs de cluster.
      Selecionar a métrica
    3. Selecione o método Agregação para conferir as métricas. Ou seja, é possível visualizar métricas não agregadas, que mostram a utilização da CPU de cada processo do Ray:
      métricas não agregadas

Painel do GCM

Para importar um painel do Grafana para o Ray na Vertex AI, siga as diretrizes do painel do Cloud Monitoring, Importar seu próprio painel do Grafana.

Painel de monitoramento

Você só precisa de um arquivo JSON do painel do Grafana. O OSS Ray é compatível com essa configuração manual. Para isso, basta fornecer o arquivo JSON do Grafana do painel padrão.

Monitorar as métricas do Grafana do usuário

Se você já tiver um servidor do Grafana em execução, também poderá exportar todos os clusters do Ray nas métricas do Prometheus da Vertex AI para o servidor do Grafana. Para fazer isso, siga a orientação Consulta usando Grafana do GMP. Isso permite adicionar uma nova fonte de dados do Grafana ao servidor do Grafana e usar o sincronizador para sincronizar a nova fonte do Grafana Prometheus com as métricas do Ray nas métricas da Vertex AI.

É importante configurar e autenticar a fonte de dados do Grafana recém-adicionada usando o sincronizador. Siga as etapas em Configurar e autenticar a fonte de dados do Grafana.

Depois da sincronização, é possível criar e adicionar qualquer painel necessário com base nas métricas do Ray na Vertex AI.

Por padrão, as coleções de métricas do Ray na Vertex AI estão ativadas. Confira como desativá-los usando o SDK da Vertex AI para Python:

vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...) 

Depurar clusters do Ray

Para depurar clusters do Ray, use o shell interativo do nó principal:

Console do Google Cloud

Para acessar o shell interativo do nó principal, faça o seguinte:

  1. No console do Google Cloud, acesse a página do Ray na Vertex AI.
    Acessar o Ray na Vertex AI
  2. Verifique se você está no projeto correto.
    Projeto selecionado do Vertex AI
  3. Selecione o cluster que você quer examinar. A seção Informações básicas é exibida.
  4. Na seção Links de acesso, clique no link Shell interativo do nó principal. O shell interativo do nó principal é exibido.
  5. Siga as instruções descritas em Monitorar e depurar o treinamento com um shell interativo.

A seguir