本頁說明如何查看與 Ray 叢集相關聯的追蹤記錄,以及監控 Ray 在 Vertex AI 上的指標。並提供 Ray 叢集偵錯指南。
查看記錄
在 Vertex AI 上使用 Ray 叢集執行工作時,系統會自動產生追蹤記錄,並儲存在 Cloud Logging 和 開放原始碼 Ray 資訊主頁中。本節說明如何透過 Google Cloud 主控台存取產生的記錄。
開始前,請務必參閱 Ray on Vertex AI 總覽,並設定所有必要工具。Ray OSS 資訊主頁
您可以透過 Ray OSS 資訊主頁查看開放原始碼 Ray 記錄檔:
前往 Google Cloud 控制台的「Vertex AI 中的 Ray」頁面。
在所建立叢集的資料列中,選取
「更多動作」選單。選取 Ray OSS 資訊主頁連結。資訊主頁會在新分頁中開啟。
前往選單右上角的「Logs」檢視畫面:
按一下每個節點,查看與該節點相關聯的記錄檔。
Cloud Logging 主控台
-
前往 Google Cloud 控制台的「Logs Explorer」頁面:
如果您是使用搜尋列尋找這個頁面,請選取子標題為「Logging」的結果。
選取現有的 Google Cloud 專案、資料夾或機構。
如要顯示所有 Ray 記錄,請在查詢編輯器欄位中輸入以下查詢,然後按一下「Run query」:
resource.labels.task_name="ray-cluster-logs"
如要將記錄檔縮小到特定 Ray 叢集,請在查詢中加入下列行,然後按一下「Run query」:
labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME
將 CLUSTER_NAME 替換為 Ray 叢集的名稱。在 Google Cloud 控制台中依序前往「Vertex AI」>「Vertex AI 中的 Ray」,即可查看各區域的叢集名稱清單。
如要進一步縮小記錄檔範圍,只顯示特定記錄檔 (例如
raylet.out
),請依序點選「記錄欄位」->「記錄名稱」下方的記錄檔名稱。您可以將相似的記錄項目分組:
在「查詢結果」中,按一下記錄項目展開記錄。
在
jsonPayload
中,按一下tailed_path
值。系統會顯示下拉式選單。按一下「顯示相符的項目」。
停用記錄功能
根據預設,系統會啟用 Ray on Vertex AI Cloud Logging。
如要停用將 Ray 記錄匯出至 Cloud Logging 的功能,請使用下列 Vertex AI SDK for Python 指令:
vertex_ray.create_ray_cluster(..., enable_logging=False, ...)
即使停用 Ray on Vertex AI Cloud Logging 功能,您還是可以在 Ray 資訊主頁上查看 Ray 記錄檔案。
監控指標
您可以使用 Google Cloud Monitoring (GCM) 以不同方式查看 Ray on Vertex AI 指標。或者,您也可以將指標從 GCM 匯出至自己的 Grafana 伺服器。
在 GCM 中監控指標
您可以透過兩種方式在 GCM 中查看 Ray on Vertex AI 指標。
- 使用「Metrics Explorer」下的直接檢視畫面。
匯入 Grafana 資訊主頁。
Metrics Explorer
如要使用 Metrics Explorer 中的直接檢視畫面,請按照下列步驟操作:
- 前往 Google Cloud Monitoring 主控台。
- 在「探索」下方,選取「Metrics Explorer」。
- 在「Active Resources」下方,選取「Prometheus Target」。畫面上會顯示「Active Metric Categories」。
選取「Ray」。
系統會顯示指標清單:
- 選取要監控的指標。舉例來說,您可以:
- 選擇 CPU 使用率百分比做為監控指標:
- 選取篩選器。例如選取叢集:
使用叢集 ID 時,系統只會監控特定叢集的上述指標。如要找出叢集 ID,請按照下列步驟操作:
前往 Google Cloud 控制台的「Ray」頁面。
- 請確認您已進入要建立實驗的專案。
- 「Name」下方會顯示叢集 ID 清單。
- 選取「匯總」方法即可查看指標。也就是說,您可以選擇查看未匯總的指標,這些指標會顯示每個 Ray 程序的 CPU 使用率:
- 選擇 CPU 使用率百分比做為監控指標:
GCM 資訊主頁
如要匯入 Vertex AI Ray 的 Grafana 資訊主頁,請按照「匯入自己的 Grafana 資訊主頁」一文中說明的步驟操作。

您只需要 Grafana 資訊主頁 JSON 檔案即可。OSS Ray 支援手動設定,可提供預設的資訊主頁 Grafana JSON 檔案。
監控使用者自有 Grafana 的指標
如果您已執行 Grafana 伺服器,則還有一種方法可以將 Vertex AI Prometheus 指標中的所有 Ray 叢集匯出至現有的 Grafana 伺服器。如要這樣做,請按照 GMP 的使用 Grafana 進行查詢指南操作。這樣一來,您就能將新的 Grafana 資料來源新增至現有的 Grafana 伺服器,並使用資料來源同步器,將新的 Grafana Prometheus 資料來源同步至 Ray on Vertex AI 指標。
請務必使用資料來源同步器設定及驗證新加入的 Grafana 資料來源。請按照「設定及驗證 Grafana 資料來源」一文中的步驟操作。
完成同步後,您就可以根據 Ray on Vertex AI 指標建立及新增所需的任何資訊主頁。
根據預設,系統會啟用 Ray 在 Vertex AI 的指標收集功能。以下說明如何使用 Python 適用的 Vertex AI SDK 停用這些功能:
vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...)
偵錯 Ray 叢集
如要對 Ray 叢集進行偵錯,請使用主要節點互動式殼層:
Google Cloud 控制台
如要存取主要節點互動式殼層,請執行下列操作:
- 前往 Google Cloud 控制台的「Ray on Vertex AI」頁面。
前往 Ray on Vertex AI - 請確認您位於正確的專案中。
- 選取要查看的叢集。「基本資訊」部分隨即顯示。
- 在「存取連結」部分中,按一下「首節點互動式殼層」的連結。 畫面上會顯示首節點互動式殼層。
- 請按照「使用互動式殼層監控訓練及偵錯」一節中的說明操作。