建立 TensorFlow 深度學習 VM 執行個體

本頁面說明如何建立已預先安裝 TensorFlow 和其他工具的 TensorFlow 深度學習 VM 映像檔執行個體。您可以透過 Google Cloud 主控台或指令列,從 Cloud Marketplace 建立 TensorFlow 執行個體。

事前準備

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. 如果您要搭配 GPU 使用深度學習 VM,請查看配額頁面,確保您的專案有足夠的 GPU。如果配額頁面未列出 GPU,或您需要額外的 GPU 配額,請要求增加配額
  7. 透過 Cloud Marketplace 建立 TensorFlow 深度學習 VM 執行個體

    如要透過 Cloud Marketplace 建立 TensorFlow 深度學習 VM 執行個體,請完成下列步驟:

    1. 前往 Google Cloud 主控台的「Deep Learning VM Cloud Marketplace」(深度學習 VM Cloud Marketplace) 頁面。

      前往「Deep Learning VM Cloud Marketplace」(深度學習 VM Cloud Marketplace) 頁面

    2. 按一下「開始使用」

    3. 輸入「Deployment name」(部署作業名稱),這會是您 VM 名稱的根。Compute Engine 在為執行個體命名時,會在這個名稱後方加上 -vm

    4. 選取「區域」

    5. 在「Machine type」(機器類型) 下方,選取 VM 所需的規格。進一步瞭解機器類型

    6. 在「GPUs」下方,選取「GPU 類型」和「GPU 數量」。如果您不想使用 GPU,請按一下「Delete GPU」按鈕,然後跳至步驟 7。進一步瞭解 GPU

      1. 選取「GPU type」(GPU 類型)。某些區域僅支援部分 GPU 類型。找出支援的組合。
      2. 選取「GPU 數量」。每種 GPU 所支援的 GPU 數量都不相同。找出支援的組合。
    7. 在「Framework」下方,選取其中一個 TensorFlow 架構版本。

    8. 如果您使用的是 GPU,則需要 NVIDIA 驅動程式。您可以自行安裝驅動程式,也可以選取「在第一次啟動時自動安裝 NVIDIA GPU 驅動程式」

    9. 您可以選取「Enable access to JupyterLab via URL instead of SSH (Beta)」。啟用這項 Beta 版功能後,您就能使用網址存取 JupyterLab 執行個體。Google Cloud 專案中具有編輯者或擁有者角色的使用者都可存取這個網址。這項功能目前僅適用於美國、歐盟和亞洲。

    10. 選取開機磁碟類型和開機磁碟大小。

    11. 選取所需的網路設定。

    12. 按一下 [Deploy] (部署)

    如果您選擇安裝 NVIDIA 驅動程式,安裝作業需要 3 到 5 分鐘才能完成。

    VM 部署完成後,這個頁面會更新,並提供存取該執行個體的操作說明。

    透過指令列建立 TensorFlow 深度學習 VM 執行個體

    如要使用 Google Cloud CLI 建立新的深度學習 VM 執行個體,您必須先安裝並初始化 Google Cloud CLI

    1. 按照「安裝 Google Cloud CLI」一文中的指示下載並安裝 Google Cloud CLI。
    2. 按照初始化 Cloud SDK 一文中的指示初始化 SDK。

    如要在 Cloud Shell 中使用 gcloud,請先按照啟動 Cloud Shell 一文中的指示啟用 Cloud Shell。

    您可以建立包含或不包含 GPU 的 TensorFlow 執行個體。

    不加入任何 GPU

    如要佈建深度學習 VM 執行個體而不加入任何 GPU,請按照下列步驟操作:

    export IMAGE_FAMILY="tf-ent-latest-cpu"
    export ZONE="us-west1-b"
    export INSTANCE_NAME="my-instance"
    
    gcloud compute instances create $INSTANCE_NAME \
      --zone=$ZONE \
      --image-family=$IMAGE_FAMILY \
      --image-project=deeplearning-platform-release
    

    選項:

    • --image-family 必須是下列其中一項:
    • --image-project 必須為 deeplearning-platform-release

    加入一或多個 GPU

    Compute Engine 提供在虛擬機器執行個體中加入一或多個 GPU 的選項。GPU 可加快許多複雜資料和機器學習工作的處理速度。如要進一步瞭解 GPU,請參閱 Compute Engine 上的 GPU 一文。

    如要佈建包含一或多個 GPU 的深度學習 VM 執行個體,請使用下列指令:

    export IMAGE_FAMILY="tf-ent-latest-gpu"
    export ZONE="us-west1-b"
    export INSTANCE_NAME="my-instance"
    
    gcloud compute instances create $INSTANCE_NAME \
      --zone=$ZONE \
      --image-family=$IMAGE_FAMILY \
      --image-project=deeplearning-platform-release \
      --maintenance-policy=TERMINATE \
      --accelerator="type=nvidia-tesla-v100,count=1" \
      --metadata="install-nvidia-driver=True"
    

    選項:

    • --image-family 必須是下列其中一項:

    • --image-project 必須為 deeplearning-platform-release

    • --maintenance-policy 必須為 TERMINATE。詳情請參閱 GPU 限制一節。

    • --accelerator 是用來指定要使用的 GPU 類型,格式必須為 --accelerator="type=TYPE,count=COUNT"。例如:--accelerator="type=nvidia-tesla-p100,count=2"。 如需可用 GPU 類型和數量的清單,請參閱 GPU 型號表

      某些地區僅支援部分 GPU 類型。詳情請參閱GPU 地區和區域的可用性

    • --metadata 是用來指定系統應代表您安裝 NVIDIA 驅動程式,值為 install-nvidia-driver=True。如有指定,Compute Engine 會在第一次啟動時載入最新的穩定版驅動程式,並執行必要的步驟 (包括最後一次重新啟動以啟用驅動程式)。

    如果您選擇安裝 NVIDIA 驅動程式,安裝作業需要 3 到 5 分鐘才能完成。

    VM 最多可能需要 5 分鐘的時間才能佈建完成。在這段期間,您無法透過 SSH 連線到您的機器。安裝作業完成後,為了確保驅動程式安裝成功,您可以透過 SSH 連線並執行 nvidia-smi

    如果您已設定映像檔,可以儲存映像檔快照,這樣就能啟動衍生性執行個體,而不必等候安裝驅動程式。

    關於 TensorFlow 企業版

    TensorFlow 企業版TensorFlow 的發行版本,經過最佳化處理,可在 Google Cloud 上執行,並包含長期版本支援

    建立先占執行個體

    您可以建立先占深度學習 VM 執行個體。先占執行個體的建立和執行價格都遠低於一般執行個體。不過,如果 Compute Engine 需要存取其他工作所需的相關資源,可能會終止 (先占) 這類執行個體。先占執行個體一律會在 24 小時後終止。如要進一步瞭解先占執行個體,請參閱先占 VM 執行個體一文。

    如何建立先占深度學習 VM 執行個體:

    • 按照上述操作說明,使用指令列建立新的執行個體,並在 gcloud compute instances create 指令後方加上以下內容:

        --preemptible

    後續步驟

    如要瞭解如何透過 Google Cloud 主控台或指令列連線至新的深度學習 VM 執行個體,請參閱「連線至執行個體」一文。執行個體名稱是您指定的「部署作業名稱」,後面加上 -vm