RHEL 上 SAP NetWeaver 的 HA 叢集手動設定指南

本指南說明如何為 SAP NetWeaver 系統部署及設定效能最佳化的 Red Hat Enterprise Linux (RHEL) 高可用性 (HA) 叢集。

本指南包含下列步驟:

  • 設定內部直通式網路負載平衡器,以便在發生故障時重新導向流量。
  • 在 RHEL 上設定 Pacemaker 叢集,以便在容錯移轉期間管理 SAP 系統和其他資源。

本指南也包含設定 SAP NetWeaver 系統以便使用 HA 的步驟,但請參閱 SAP 說明文件,取得確切的操作說明。

如要瞭解如何為 SAP NetWeaver 部署非高可用性的 Compute Engine VM,請參閱您作業系統適用的 SAP NetWeaver 部署指南

如要在 SUSE Linux Enterprise Server (SLES) 上為 SAP NetWeaver 設定 HA 叢集,請參閱 SLES 上 SAP NetWeaver 的 HA 叢集手動設定指南

本指南適用對象為熟悉如何針對 SAP NetWeaver 進行 Linux 高可用性設定的進階 SAP NetWeaver 使用者。

本指南部署的系統

您將按照本指南的說明,部署兩個 SAP NetWeaver 執行個體,並在 RHEL 上設定 HA 叢集。您可以在相同地區內的不同區域中,將每個 SAP NetWeaver 執行個體部署至 Compute Engine VM。本指南未涵蓋基礎資料庫的高可用性安裝作業。

適用單一節點 SAP NetWeaver 系統的高可用性 Linux 叢集總覽

已部署叢集包含下列功能和特色:

  • 兩個主機 VM,一個用於有效的 ASCS 例項,另一個用於 ENSA2 Enqueue Replicator 或 ENSA1 Enqueue Replication Server (ENSA1) 的有效例項。ENSA2 和 ENSA1 執行個體都稱為「有效收益分成」ERS
  • Pacemaker 高可用性叢集資源管理員。
  • STONITH 防護機制。
  • 自動將故障的執行個體重新啟動為新的次要執行個體。
本指南會讓您使用 Google Cloud 提供的 Cloud Deployment Manager 範本來部署 Compute Engine 虛擬機器 (VM),確保 VM 符合 SAP 支援性需求,並遵循目前的最佳做法。

如要使用 Terraform 自動部署 SAP NetWeaver HA 系統,請參閱「Terraform:在 RHEL 上為 SAP NetWeaver 設定高可用性叢集」一文。

事前準備

建立 SAP NetWeaver 高可用性叢集前,請確保符合下列必備條件:

除了 Google Cloud 環境所需的部分外,本指南中的資訊與 Red Hat 和 SAP 的以下相關指南一致:

建立網路

基於安全性考量,請建立新的網路。您可以新增防火牆規則或使用另一個存取權控管方法,藉此控管具有存取權的對象。

如果您的專案具有預設的虛擬私有雲網路,請勿使用。請建立您自己專屬的虛擬私有雲網路,確保系統只套用您明確建立的防火牆規則。

在部署期間,Compute Engine 執行個體通常需要網際網路的存取權,才能下載 Google Cloud的 SAP 代理程式。如果您使用 Google Cloud提供的其中一種 SAP 認證 Linux 映像檔,則計算機執行個體也需要存取網際網路,才能註冊憑證並且存取 OS 供應商存放區。具有 NAT 閘道和 VM 網路標記的設定即可支援上述存取需求,即便目標運算執行個體沒有外部 IP 也沒關係。

如要設定網路:

控制台

  1. 在 Google Cloud 控制台中,前往「VPC networks」(虛擬私有雲網路) 頁面。

    前往「VPC networks」(虛擬私有雲網路)

  2. 按一下「建立虛擬私有雲網路」
  3. 輸入網路的名稱

    名稱必須遵守命名慣例。虛擬私有雲網路會使用 Compute Engine 命名慣例。

  4. 在 [Subnet creation mode] (子網路建立模式) 中,選擇 [Custom]。
  5. 在「New subnet」(新子網路) 部分,指定子網路的以下設定參數:
    1. 輸入子網路的「名稱」
    2. 在「區域」中,選取要建立子網路的 Compute Engine 區域
    3. 針對「IP 堆疊類型」,請選取「IPv4 (單一堆疊)」,然後以 CIDR 格式輸入 IP 位址範圍,例如 10.1.0.0/24

      這是子網路的主要 IPv4 範圍。如果您打算新增多個子網路,請為網路中的每個子網路指派不重疊的 CIDR IP 範圍。請注意,每個子網路及其內部 IP 範圍都會對應至單一地區。

    4. 按一下「完成」
  6. 如要新增其他子網路,請按一下「Add subnet」(新增子網路),然後重複上述步驟。建立網路後,您可以新增更多子網路。
  7. 按一下 [建立]。

gcloud

  1. 前往 Cloud Shell。

    前往 Cloud Shell

  2. 如要在自訂子網路模式中建立新的網路,請執行:
    gcloud compute networks create NETWORK_NAME --subnet-mode custom

    請將 NETWORK_NAME 替換為新網路的名稱。名稱必須遵循命名慣例。虛擬私有雲網路會使用 Compute Engine 命名慣例。

    指定 --subnet-mode custom 以避免使用預設的自動模式,不然系統會自動在每個 Compute Engine 地區建立子網路。詳情請參閱「子網路建立模式」。

  3. 建立子網路,並指定地區和 IP 範圍。
    gcloud compute networks subnets create SUBNETWORK_NAME \
        --network NETWORK_NAME --region REGION --range RANGE

    更改下列內容:

    • SUBNETWORK_NAME:新子網路的名稱
    • NETWORK_NAME:您在上一個步驟中建立的網路名稱
    • REGION:您希望子網路所在的區域
    • RANGE以 CIDR 格式指定的 IP 位址範圍,例如 10.1.0.0/24

      如果您打算新增多個子網路,請為網路中的每個子網路指派不重疊的 CIDR IP 範圍。請注意,每個子網路及其內部 IP 範圍都會對應至單一地區。

  4. (選用) 重複上述步驟以新增其他子網路。

設定 NAT 閘道

如果您需要建立一或多個沒有公開 IP 位址的 VM,就必須使用網路位址轉譯 (NAT),讓 VM 能夠存取網際網路。使用 Cloud NAT,這是一項 Google Cloud 分散式軟體定義的受控服務,可讓 VM 將傳出封包傳送至網際網路,並接收任何相應的已建立傳入回應封包。或者,您也可以設定個別的 VM 做為 NAT 閘道。

如要為專案建立 Cloud NAT 執行個體,請參閱「使用 Cloud NAT」。

為專案設定 Cloud NAT 後,VM 執行個體就能在不使用公開 IP 位址的情況下,安全地存取網際網路。

新增防火牆規則

根據預設,系統會封鎖來自您 Google Cloud 網路以外的連入連線。如要允許連入的連線,請為 VM 設定防火牆規則。防火牆規則只管制新進入 VM 的連入流量。與 VM 建立連線後,系統將允許透過該連線的雙向流量。

您可以建立防火牆規則來允許存取特定連接埠,或允許同一個子網路中不同 VM 之間的存取作業。

建立防火牆規則允許下列存取作業:

  • SAP NetWeaver 使用的預設連接埠,如適用於所有 SAP 產品的 TCP/IP 連接埠網頁所述。
  • 從電腦或公司網路環境到 Compute Engine VM 執行個體的連線。如果不確定要使用哪一個 IP 位址,請詢問貴公司的網路管理員。
  • 3 層、擴充或高可用性設定中不同 VM 之間的通訊。舉例來說,如果您部署的是 3 層系統,則子網路中至少要有 2 個 VM:一個 VM 用於 SAP NetWeaver,另一個 VM 用於資料庫伺服器。如要讓兩個 VM 之間進行通訊,您必須建立防火牆規則,允許來自子網路的流量。
  • Cloud Load Balancing 健康狀態檢查。詳情請參閱「為健康狀態檢查建立防火牆規則」。

建立防火牆規則的步驟如下:

  1. 在 Google Cloud 控制台中,前往「VPC network」(虛擬私有雲網路) 「Firewall」(防火牆) 頁面。

    前往「Firewall」(防火牆)

  2. 按一下頁面頂端的 [Create firewall rule] (建立防火牆規則)

    • 在「Network」(網路) 欄位中,選取您 VM 所在的網路。
    • 在「Targets」(目標) 欄位中,選取 [All instances in the network] (網路中的所有執行個體)
    • 在「Source filter」(來源篩選器) 欄位中選取下列其中一項:
      • 「IP ranges」(IP 範圍) - 允許來自特定 IP 位址連入的流量。請在「Source IP ranges」(來源 IP 範圍) 欄位中指定 IP 位址的範圍。
      • 「Subnets」(子網路) - 允許來自特定子網路的連入流量。請在隨後的「Subnets」(子網路) 欄位中指定子網路名稱。您可以使用這個選項允許 3 層或向外擴充設定中 VM 之間的存取作業。
    • 在「Protocols and ports」部分選取「Specified protocols and ports」,然後指定 tcp:PORT_NUMBER;
  3. 按一下 [Create] (建立) 以建立您的防火牆規則。

部署 SAP NetWeaver 的 VM

開始設定 HA 叢集之前,請定義並部署 VM 執行個體,這些執行個體會做為 HA 叢集中的主要和次要節點。

如要定義及部署 VM,請使用在 Linux 上為 SAP NetWeaver 自動化部署 VM 一文中,用於為 SAP NetWeaver 系統部署 VM 的 Cloud Deployment Manager 範本。

不過,如果要部署兩個 VM 而非一個,您必須複製並貼上第一個 VM 的定義,將第二個 VM 的定義新增至設定檔。建立第二個定義後,您需要變更第二個定義中的資源和執行個體名稱。如要防範可用區故障,請指定同區域中的其他可用區。這兩個定義中的所有其他屬性值都保持不變。

成功部署 VM 後,請安裝 SAP NetWeaver,並定義及設定 HA 叢集。

以下操作說明使用的是 Cloud Shell,不過這些步驟通常也適用於 Google Cloud CLI。

  1. 開啟 Cloud Shell。

    前往 Cloud Shell

  2. 將 YAML 設定檔範本 template.yaml 下載到工作目錄:

    wget https://storage.googleapis.com/cloudsapdeploy/deploymentmanager/latest/dm-templates/sap_nw/template.yaml

  3. 或者,您也可以重新命名 template.yaml 檔案,藉此識別該檔案定義的設定。例如:nw-ha-rhel-8-4.yaml

  4. 在 Cloud Shell 終端機視窗右上角點選鉛筆 () 圖示,即可啟動編輯器,在 Cloud Shell 程式碼編輯器中開啟 YAML 設定檔。

  5. 在 YAML 設定檔範本中定義第一個 VM 執行個體。您會在下一個步驟中,在下表後方定義第二個 VM 執行個體。

    請使用安裝作業的值取代括號及其內容,即可指定屬性值。下表說明這些屬性。如需完整設定檔的範例,請參閱「完整 YAML 設定檔範例」。

    屬性 資料類型 說明
    name 字串 任意名稱,用於識別下列一組屬性定義的部署資源。
    type 字串

    指定在部署期間要使用的 Deployment Manager 範本位置、類型和版本。

    YAML 檔案包含兩個 type 規格,其中一個已註解掉。預設啟用的 type 規格會將範本版本指定為 latest。註解掉的 type 規格會指定具有時間戳記的特定範本版本。

    如果您需要所有部署都使用相同的範本版本,請使用包含時間戳記的 type 規格。

    instanceName 字串 您要定義的 VM 執行個體名稱。在主要和次要 VM 定義中指定不同的名稱。建議您使用可識別哪些執行個體屬於同一高可用性叢集的名稱。

    執行個體名稱的長度不得超過 13 個半形字元,且應使用小寫英文字母、數字或連字號。請使用專案中不重複的名稱。

    instanceType 字串 您需要的 Compute Engine VM 類型。為主要和次要 VM 指定相同的執行個體類型。

    如果您需要自訂的 VM 類型,請指定小型預先定義的 VM 類型,然後在部署完成後視需要自訂 VM

    zone 字串 要部署您定義的 VM 執行個體的 Google Cloud 區域。為主要和次要 VM 定義指定同一個區域中的不同可用區。這些區域必須位於您為子網路選取的地區內。
    subnetwork 字串 您在先前步驟中建立的子網路名稱。如果您要部署共用虛擬私人雲端,請將這個值指定為 SHAREDVPC_PROJECT/SUBNETWORK。例如:myproject/network1
    linuxImage 字串 要用於 SAP NetWeaver 的 Linux 作業系統映像檔或映像檔系列的名稱。如要指定映像檔系列,請在系列名稱加上 family/ 前置詞,例如:family/rhel-8-4-sap-ha。如需可用的映像檔系列清單,請參閱 Google Cloud 主控台中的「映像檔」頁面。
    linuxImageProject 字串 您要使用的映像檔所屬的 Google Cloud 專案。這個專案可能是您自己的專案或 Google Cloud 映像檔專案 rhel-sap-cloud。如需 Google Cloud 映像檔專案清單,請參閱 Compute Engine 說明文件中的「映像檔」頁面。
    usrsapSize 整數 /usr/sap 磁碟的大小。最小大小為 8 GB。
    sapmntSize 整數 /sapmnt 磁碟的大小。最小大小為 8 GB。
    swapSize 整數 交換磁碟區的大小。檔案大小下限為 1 GB。
    networkTag 字串

    (非必要) 代表您 VM 執行個體的一或多個以半形逗號分隔的網路標記,供防火牆或轉送使用。

    針對高可用性設定,請指定要用於防火牆規則的網路標記,以便允許叢集節點之間的通訊,以及要用於防火牆規則的網路標記,以便允許 Cloud Load Balancing 健康狀態檢查存取叢集節點。

    如果您指定 publicIP: No 但未指定網路標記,請務必提供其他能存取網際網路的方式。

    serviceAccount 字串

    (非必要) 指定要用於部署 VM 的自訂服務帳戶。服務帳戶必須具備部署期間為 SAP 設定 VM 所需的權限。

    如未指定 serviceAccount,系統會使用預設的 Compute Engine 服務帳戶。

    指定完整的服務帳戶地址。例如: sap-ha-example@example-project-123456.iam.gserviceaccount.com

    publicIP 布林值 (非必要) 指定是否要將公開 IP 位址加到您的 VM 執行個體。預設為 Yes
    sap_deployment_debug 布林值 (非必要) 如果此值設為 Yes,部署會產生詳細部署記錄。除非 Google 支援工程師要求您啟用偵錯功能,否則請勿開啟此設定。
  6. 在 YAML 設定檔中,複製第一個 VM 的定義,然後將複本貼到第一個定義之後,即可建立第二個 VM 的定義。如需範例,請參閱「完整 YAML 設定檔範例」。

  7. 在第二個 VM 的定義中,為下列屬性指定與第一個定義中不同的值:

    • name
    • instanceName
    • zone
  8. 建立 VM 執行個體:

    gcloud deployment-manager deployments create DEPLOYMENT_NAME --config TEMPLATE_NAME.yaml

    其中:

    • DEPLOYMENT_NAME 代表部署作業名稱。
    • TEMPLATE_NAME 代表 YAML 設定檔的名稱。

    上述指令會叫用 Deployment Manager,依據 YAML 設定檔中的規格部署 VM。

    部署處理程序分為兩個階段。在第一階段,Deployment Manager 會將其狀態寫入主控台。在第二階段,部署指令碼會將狀態寫入 Cloud Logging。

完整 YAML 設定檔範例

以下範例顯示完成的 YAML 設定檔,這個檔案會使用最新版本的 Deployment Manager 範本,為 SAP NetWeaver 的 HA 設定部署兩個 VM 執行個體。這個範例會略過您首次下載範本時,範本所含的註解。

這個檔案包含兩個要部署的資源定義:sap_nw_node_1sap_nw_node_2。每個資源定義都包含 VM 的定義。

sap_nw_node_2 資源定義是透過複製及貼上第一個定義,然後修改 nameinstanceNamezone 屬性的值而建立。這兩個資源定義中的所有其他屬性值都相同。

屬性 networkTagserviceAccount 來自設定檔範本的「Advanced Options」部分。

resources:
- name: sap_nw_node_1
  type: https://storage.googleapis.com/cloudsapdeploy/deploymentmanager/latest/dm-templates/sap_nw/sap_nw.py
  properties:
    instanceName: nw-ha-vm-1
    instanceType: n2-standard-4
    zone: us-central1-b
    subnetwork: example-sub-network-sap
    linuxImage: family/rhel-8-4-sap-ha
    linuxImageProject: rhel-sap-cloud
    usrsapSize: 15
sapmntSize: 15 swapSize: 24 networkTag: cluster-ntwk-tag,allow-health-check serviceAccount: limited-roles@example-project-123456.iam.gserviceaccount.com - name: sap_nw_node_2 type: https://storage.googleapis.com/cloudsapdeploy/deploymentmanager/latest/dm-templates/sap_nw/sap_nw.py properties: instanceName: nw-ha-vm-2 instanceType: n2-standard-4 zone: us-central1-c subnetwork: example-sub-network-sap linuxImage: family/rhel-8-4-sap-ha linuxImageProject: rhel-sap-cloud usrsapSize: 15
sapmntSize: 15 swapSize: 24 networkTag: cluster-ntwk-tag,allow-health-check serviceAccount: limited-roles@example-project-123456.iam.gserviceaccount.com

建立防火牆規則,允許存取主機 VM

如果您尚未建立防火牆規則,請建立防火牆規則,允許從下列來源存取每個主機 VM:

  • 設定本機工作站、防禦主機或跳板伺服器
  • 叢集節點之間的存取權,以及 HA 叢集中的其他主機 VM
  • Cloud Load Balancing 使用的健康狀態檢查,請參閱後續步驟「為健康狀態檢查建立防火牆規則」的說明。

建立 VPC 防火牆規則時,您必須指定在 template.yaml 設定檔中定義的網路標記,將主機 VM 指定為規則的目標。

如要驗證部署作業,請定義規則,允許防禦主機或本機工作站透過通訊埠 22 建立 SSH 連線。

如要允許叢集節點之間的存取權,請新增防火牆規則,允許同一個子網路中其他 VM 的所有連接埠上的所有連線類型。

請務必先建立用於驗證部署作業和叢集內通訊的防火牆規則,再繼續閱讀下一節。如需操作說明,請參閱「新增防火牆規則」。

驗證 VM 部署作業

在安裝 SAP NetWeaver 或開始設定 HA 叢集之前,請檢查記錄和 OS 儲存空間對應,確認 VM 已正確部署。

檢查記錄

  1. 在 Google Cloud 控制台中開啟 Cloud Logging,監控安裝進度及檢查錯誤。

    前往 Cloud Logging

  2. 篩選記錄:

    記錄檔探索工具

    1. 在「Logs Explorer」頁面中,前往「查詢」窗格。

    2. 在「Resource」下拉式選單中,選取「Global」,然後點選「Add」

      如果找不到「Global」選項,請在查詢編輯器中輸入以下查詢:

      resource.type="global"
      "Deployment"
      
    3. 點選「執行查詢」

    舊版記錄檢視器

    • 在「Legacy Logs Viewer」頁面中,從基本選取器選單中選取「Global」做為記錄資源。
  3. 分析篩選過的記錄:

    • 如果顯示 "--- Finished",表示部署程序已完成,您可以繼續進行下一個步驟。
    • 如果畫面顯示配額錯誤:

      1. 在 IAM 和管理員「Quotas」(配額) 頁面上,增加 SAP NetWeaver 規劃指南中所列出不符 SAP NetWeaver 規定的任何配額。

      2. 在 Deployment Manager「Deployments」(部署) 頁面上,刪除部署以清除安裝失敗的 VM 與永久磁碟。

      3. 重新執行部署。

檢查 VM 的設定

  1. 部署 VM 執行個體之後,請使用 ssh 連線至 VM。

    1. 如果您尚未建立防火牆規則,請建立防火牆規則以允許通訊埠 22 上的 SSH 連線。
    2. 前往「VM Instances」(VM 執行個體) 頁面。

      前往「VM Instances」(VM 執行個體)

    3. 按一下每個 VM 執行個體項目的「SSH」SSH按鈕,即可連線至各個 VM 執行個體,或者可以使用您偏好的 SSH 方法。

      Compute Engine VM 執行個體頁面中的 [SSH] 按鈕。

  2. 顯示檔案系統:

    ~> df -h

    並確保您看到類似以下的輸出內容:

    Filesystem                 Size  Used Avail Use% Mounted on
    devtmpfs                    32G  8.0K   32G   1% /dev
    tmpfs                       48G     0   48G   0% /dev/shm
    tmpfs                       32G  402M   32G   2% /run
    tmpfs                       32G     0   32G   0% /sys/fs/cgroup
    /dev/sda3                   30G  3.4G   27G  12% /
    /dev/sda2                   20M  3.7M   17M  19% /boot/efi
    /dev/mapper/vg_usrsap-vol   15G   48M   15G   1% /usr/sap
    /dev/mapper/vg_sapmnt-vol 15G 48M 15G 1% /sapmnt tmpfs 6.3G 0 6.3G 0% /run/user/1002 tmpfs 6.3G 0 6.3G 0% /run/user/0
  3. 確認已建立交換空間:

    ~> cat /proc/meminfo | grep Swap

    您會看到像是下面範例的結果:

    SwapCached:            0 kB
    SwapTotal:      25161724 kB
    SwapFree:       25161724 kB

如有任何驗證步驟指出安裝失敗,請採取以下步驟:

  1. 修正錯誤。
  2. 在「Deployments」頁面上,刪除部署以清除安裝失敗的 VM 與永久磁碟。
  3. 重新執行部署。

啟用 VM 之間的負載平衡器後端通訊

確認 VM 已成功部署後,請啟用 HA 叢集中 VM 之間的後端通訊,這些 VM 將做為節點使用。

如要啟用 VM 之間的後端通訊,請修改 google-guest-agent 的設定。google-guest-agent 是 Google Cloud提供的所有 Linux 公開映像檔的Linux 訪客環境中所包含的項目。

如要啟用負載平衡器後端通訊,請在叢集內的每個 VM 上執行下列步驟:

  1. 停止代理程式:

    sudo service google-guest-agent stop
  2. 開啟或建立 /etc/default/instance_configs.cfg 檔案進行編輯。例如:

    sudo vi /etc/default/instance_configs.cfg
  3. /etc/default/instance_configs.cfg 檔案中,指定下列設定屬性,如圖所示。如果這些區段不存在,請建立這些區段。特別注意,請確認 target_instance_ipsip_forwarding 屬性都設為 false

    [IpForwarding]
    ethernet_proto_id = 66
    ip_aliases = true
    target_instance_ips = false
    
    [NetworkInterfaces]
    dhclient_script = /sbin/google-dhclient-script
    dhcp_command =
    ip_forwarding = false
    setup = true
    
  4. 啟動訪客代理程式服務:

    sudo service google-guest-agent start

負載平衡器健康狀態檢查設定需要同時具備健康狀態檢查的監聽目標通訊埠,以及將虛擬 IP 指派給介面。詳情請參閱「測試負載平衡器設定」。

在主要和次要 VM 上設定 SSH 金鑰

為了讓檔案可在 HA 叢集中的兩部主機之間複製,本節的步驟會在兩部主機之間建立根 SSH 連線。

Google Cloud提供的 Deployment Manager 範本會為您產生金鑰,但您可以視需要用自己產生的金鑰取代。

貴機構可能會制定內部網路通訊規範。如有需要,您可以在部署完成後,從 VM 中移除中繼資料,並從 authorized_keys 目錄中移除金鑰。

如果設定直接 SSH 連線不符合貴組織的規範,您可以使用其他方法轉移檔案,例如:

  • 使用 Cloud Shell 的「上傳檔案」和「下載檔案」選單選項,透過本機工作站傳輸較小的檔案。請參閱「使用 Cloud Shell 管理檔案」。
  • 使用 Cloud Storage 值區交換檔案。請參閱上傳和下載
  • 使用 Filestore 或 Google Cloud NetApp Volumes 等檔案儲存空間解決方案建立共用資料夾。請參閱檔案共用解決方案

如要啟用主要和次要執行個體之間的 SSH 連線,請按照下列步驟操作。這些步驟假設您使用的是 Deployment Manager 範本為 SAP 產生的安全殼層金鑰。

  1. 在主要主機 VM 上:

    1. 透過 SSH 連線至 VM。

    2. 切換至根目錄:

      $ sudo su -
    3. 確認安全殼層金鑰是否存在:

      # ls -l /root/.ssh/

      您應該會看到 id_rsa 金鑰檔案,如以下範例所示:

      -rw-r--r-- 1 root root  569 May  4 23:07 authorized_keys
      -rw------- 1 root root 2459 May  4 23:07 id_rsa
      -rw-r--r-- 1 root root  569 May  4 23:07 id_rsa.pub
    4. 更新主要 VM 的中繼資料,加入次要 VM 的 SSH 金鑰資訊。

      # gcloud compute instances add-metadata SECONDARY_VM_NAME \
      --metadata "ssh-keys=$(whoami):$(cat ~/.ssh/id_rsa.pub)" \
      --zone SECONDARY_VM_ZONE
    5. 如要確認 SSH 金鑰設定正確無誤,請開啟從主要系統到次要系統的 SSH 連線:

      # ssh SECONDARY_VM_NAME
  2. 在次要主機 VM 上:

    1. 透過 SSH 連線至 VM。

    2. 切換至根目錄:

      $ sudo su -
    3. 確認安全殼層 (SSH) 金鑰是否存在:

      # ls -l /root/.ssh/

      您應該會看到 id_rsa 金鑰檔案,如以下範例所示:

      -rw-r--r-- 1 root root  569 May  4 23:07 authorized_keys
      -rw------- 1 root root 2459 May  4 23:07 id_rsa
      -rw-r--r-- 1 root root  569 May  4 23:07 id_rsa.pub
    4. 更新次要 VM 的中繼資料,加入主要 VM 的 SSH 金鑰資訊。

      # gcloud compute instances add-metadata PRIMARY_VM_NAME \
      --metadata "ssh-keys=$(whoami):$(cat ~/.ssh/id_rsa.pub)" \
      --zone PRIMARY_VM_ZONE
      # cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    5. 開啟從次要系統到主要系統的 SSH 連線,確認 SSH 金鑰是否已正確設定。

      # ssh PRIMARY_VM_NAME

設定共用檔案儲存空間並設定共用目錄

您需要設定 NFS 檔案共用解決方案,提供高可用性的共用檔案儲存空間,讓 HA 叢集的兩個節點都能存取。接著,您可以在兩個節點上建立對應至共用檔案儲存空間的目錄。叢集軟體可確保只在正確的執行個體上掛載適當的目錄。

本指南未說明如何設定檔案共用解決方案。如需檔案共用系統的設定說明,請參閱所選解決方案供應商提供的操作說明。如果您選擇使用 Filestore 做為檔案共用解決方案,建議您使用 Filestore 的企業級。如要瞭解如何建立 Filestore 執行個體,請參閱「建立執行個體」一文。

如要瞭解Google Cloud上提供的檔案共用解決方案,請參閱「 Google Cloud上的 HA SAP 系統共用儲存空間選項」。

如何設定共用目錄:

  1. 如果您尚未設定高可用性的 NFS 共用檔案儲存解決方案,請立即設定。

  2. 在兩部伺服器上掛接 NFS 共用儲存空間,以便進行初始設定。

    ~> sudo mkdir /mnt/nfs
    ~> sudo mount -t nfs NFS_PATH /mnt/nfs

    請將 NFS_PATH 替換為 NFS 檔案共用解決方案的路徑。例如:10.49.153.26:/nfs_share_nw_ha

  3. 請在任一伺服器上建立 sapmnt、中央傳輸目錄和特定執行個體目錄的目錄。如果您使用的是 Java 堆疊,請先將「ASCS」替換為「SCS」,再使用下列或任何其他範例指令:

    ~> sudo mkdir /mnt/nfs/sapmntSID
    ~> sudo mkdir /mnt/nfs/usrsap{trans,SIDASCSASCS_INSTANCE_NUMBER,SIDERSERS_INSTANCE_NUMBER}

    如果您使用的是簡易掛載設定,請改為執行下列指令:

    ~> sudo mkdir /mnt/nfs/sapmntSID
    ~> sudo mkdir /mnt/nfs/usrsap{trans,SID}

    更改下列內容:

    • SID:SAP 系統 ID (SID)。請使用大寫字母。例如:AHA
    • ASCS_INSTANCE_NUMBER:ASCS 系統的執行個體編號。例如:00
    • ERS_INSTANCE_NUMBER:ERS 系統的執行個體編號。例如:10
  4. 在兩部伺服器上建立必要的掛接點:

    ~> sudo mkdir -p /sapmnt/SID
    ~> sudo mkdir -p /usr/sap/trans
    ~> sudo mkdir -p /usr/sap/SID/ASCSASCS_INSTANCE_NUMBER
    ~> sudo mkdir -p /usr/sap/SID/ERSERS_INSTANCE_NUMBER

    如果您使用的是簡易掛載設定,請改為執行下列指令:

    ~> sudo mkdir -p /sapmnt/SID
    ~> sudo mkdir -p /usr/sap/trans
    ~> sudo mkdir -p /usr/sap/SID
  5. 設定 autofs,讓系統在首次存取檔案目錄時掛載常見的共用檔案目錄。叢集軟體會管理 ASCSASCS_INSTANCE_NUMBERERSERS_INSTANCE_NUMBER 目錄的掛載作業,您會在後續步驟中設定這項作業。

    視檔案共用解決方案的需要,調整指令中的 NFS 選項。

    在兩部伺服器上設定 autofs

    ~> echo "/- /etc/auto.sap" | sudo tee -a /etc/auto.master
    ~> NFS_OPTS="-rw,relatime,vers=3,hard,proto=tcp,timeo=600,retrans=2,mountvers=3,mountport=2050,mountproto=tcp"
    ~> echo "/sapmnt/SID ${NFS_OPTS} NFS_PATH/sapmntSID" | sudo tee -a /etc/auto.sap
    ~> echo "/usr/sap/trans ${NFS_OPTS} NFS_PATH/usrsaptrans" | sudo tee -a /etc/auto.sap

    如要瞭解 autofs,請參閱「autofs - 運作方式」。

    如果您使用的是簡易掛載設定,請改為執行下列指令:

    ~> echo "/- /etc/auto.sap" | sudo tee -a /etc/auto.master
    ~> NFS_OPTS="-rw,relatime,vers=3,hard,proto=tcp,timeo=600,retrans=2,mountvers=3,mountport=2050,mountproto=tcp"
    ~> echo "/sapmnt/SID ${NFS_OPTS}/sapmnt" | sudo tee -a /etc/auto.sap
    ~> echo "/usr/sap/trans ${NFS_OPTS}/usrsaptrans" | sudo tee -a /etc/auto.sap
    ~> echo "/usr/sap/SID  ${NFS_OPTS}/usrsapSID" | sudo tee -a /etc/auto.sap
  6. 在兩部伺服器上啟動 autofs 服務:

    ~> sudo systemctl enable autofs
    ~> sudo systemctl restart autofs
    ~> sudo automount -v
  7. 使用 cd 指令存取每個目錄,觸發 autofs 掛接共用目錄。例如:

    ~> cd /sapmnt/SID
    ~> cd /usr/sap/trans
    

    如果您使用的是 簡易掛載設定,請改為執行下列指令:

    ~> cd /sapmnt/SID
    ~> cd /usr/sap/trans
    ~> cd /usr/sap/SID
  8. 存取所有目錄後,請發出 df -Th 指令,確認目錄已掛載。

    ~> df -Th | grep FILE_SHARE_NAME

    請將 FILE_SHARE_NAME 替換為 NFS 檔案共用解決方案的名稱。例如:nfs_share_nw_ha

    您會看到類似以下範例的掛載點和目錄:

    10.49.153.26:/nfs_share_nw_ha              nfs      1007G   76M  956G   1% /mnt/nfs
    10.49.153.26:/nfs_share_nw_ha/usrsaptrans  nfs      1007G   76M  956G   1% /usr/sap/trans
    10.49.153.26:/nfs_share_nw_ha/sapmntAHA    nfs      1007G   76M  956G   1% /sapmnt/AHA

    如果您使用的是 簡易掛載設定,則會看到掛載點和目錄,如下所示:

    10.49.153.26:/nfs_share_nw_ha              nfs      1007G   76M  956G   1% /mnt/nfs
    10.49.153.26:/nfs_share_nw_ha/usrsaptrans  nfs      1007G   76M  956G   1% /usr/sap/trans
    10.49.153.26:/nfs_share_nw_ha/sapmntAHA    nfs      1007G   76M  956G   1% /sapmnt/AHA
    10.49.153.26:/nfs_share_nw_ha/usrsapAHA   nfs      1007G   76M  956G   1% /usr/sap/AHA

設定 Cloud Load Balancing 容錯移轉支援功能

內部直通式網路負載平衡器服務提供容錯支援,可將 ASCS 和 ERS 流量轉送至 SAP NetWeaver 叢集中的各個有效執行個體。內部直通式網路負載平衡器會使用虛擬 IP (VIP) 位址、後端服務、執行個體群組和健康狀態檢查,適當地將流量路由。

為虛擬 IP 保留 IP 位址

針對 SAP NetWeaver 高可用性叢集,您會建立兩個 VIP,有時也稱為「浮動」IP 位址。一個 VIP 會追蹤有效的 SAP Central Services (SCS) 執行個體,另一個則會追蹤 Enqueue Replication Server (ERS) 執行個體。負載平衡器會將傳送至每個 VIP 的流量,路由至目前代管 VIP 的 ASCS 或 ERS 元件有效執行個體的 VM。

  1. 開啟 Cloud Shell:

    前往 Cloud Shell

  2. 為 ASCS 的虛擬 IP 和 ERS 的 VIP 保留 IP 位址。針對 ASCS,IP 位址是應用程式用來存取 SAP NetWeaver 的 IP 位址。針對 ERS,IP 位址是用於 Enqueue 伺服器複製作業的 IP 位址。如果您省略 --addresses 標記,系統會為您選擇指定子網路中的 IP 位址:

    ~ gcloud compute addresses create ASCS_VIP_NAME \
      --region CLUSTER_REGION --subnet CLUSTER_SUBNET \
      --addresses ASCS_VIP_ADDRESS
    
    ~ gcloud compute addresses create ERS_VIP_NAME \
      --region CLUSTER_REGION --subnet CLUSTER_SUBNET \
      --addresses ERS_VIP_ADDRESS

    更改下列內容:

    • ASCS_VIP_NAME:指定 ASCS 執行個體的虛擬 IP 位址名稱。例如:ascs-aha-vip
    • CLUSTER_REGION:指定叢集所在的 Google Cloud 區域。例如:us-central1
    • CLUSTER_SUBNET:指定叢集使用的子網路。例如:example-sub-network-sap
    • ASCS_VIP_ADDRESS:可選,使用 CIDR 標記法指定 ASCS 虛擬 IP 的 IP 位址。例如:10.1.0.2
    • ERS_VIP_NAME:指定 ERS 執行個體的虛擬 IP 位址名稱。例如:ers-aha-vip
    • ERS_VIP_ADDRESS:可選,使用 CIDR 標記法指定 ERS 虛擬 IP 的 IP 位址。例如:10.1.0.4

    如要進一步瞭解如何預留靜態 IP,請參閱「預留靜態內部 IP 位址」。

  3. 確認 IP 位址保留狀態:

    ~ gcloud compute addresses describe VIP_NAME \
      --region CLUSTER_REGION

    您會看到類似以下範例的輸出內容:

    address: 10.1.0.2
    addressType: INTERNAL
    creationTimestamp: '2022-04-04T15:04:25.872-07:00'
    description: ''
    id: '555067171183973766'
    kind: compute#address
    name: ascs-aha-vip
    networkTier: PREMIUM
    purpose: GCE_ENDPOINT
    region: https://www.googleapis.com/compute/v1/projects/example-project-123456/regions/us-central1
    selfLink: https://www.googleapis.com/compute/v1/projects/example-project-123456/regions/us-central1/addresses/ascs-aha-vip
    status: RESERVED
    subnetwork: https://www.googleapis.com/compute/v1/projects/example-project-123456/regions/us-central1/subnetworks/example-sub-network-sap

/etc/hosts 中定義 VIP 位址的主機名稱

為每個 VIP 位址定義主機名稱,然後將 VM 和 VIP 的 IP 位址和主機名稱,新增至每個 VM 的 /etc/hosts 檔案。

除非您也將 VIP 主機名稱新增至 DNS 服務,否則 VM 外部無法得知這些名稱。將這些項目新增至本機 /etc/hosts 檔案,可保護叢集免受 DNS 服務中斷的影響。

/etc/hosts 檔案的更新內容應類似下列範例:

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
10.1.0.113 nw-ha-vm-2.us-central1-c.c.example-project-123456.internal nw-ha-vm-2
10.1.0.2   ascs-aha-vip
10.1.0.4   ers-aha-vip
10.1.0.114 nw-ha-vm-1.us-central1-b.c.example-project-123456.internal nw-ha-vm-1  # Added by Google
169.254.169.254 metadata.google.internal  # Added by Google

建立 Cloud Load Balancing 健康狀態檢查

建立健康狀態檢查:一個用於有效的 ASCS 執行個體,另一個用於有效的 ERS。

  1. 在 Cloud Shell 中建立健康狀態檢查。為避免與其他服務衝突,請在私人範圍 49152-65535 中指定 ASCS 和 ERS 執行個體的通訊埠編號。下列指令中的檢查間隔和逾時值比預設值略長,可在 Compute Engine 即時遷移事件期間提高容錯能力。如有需要,您可以調整這些值:

    1. ~ gcloud compute health-checks create tcp ASCS_HEALTH_CHECK_NAME \
      --port=ASCS_HEALTHCHECK_PORT_NUM --proxy-header=NONE --check-interval=10 --timeout=10 \
      --unhealthy-threshold=2 --healthy-threshold=2
    2. ~ gcloud compute health-checks create tcp ERS_HEALTH_CHECK_NAME \
      --port=ERS_HEALTHCHECK_PORT_NUM --proxy-header=NONE --check-interval=10 --timeout=10 \
      --unhealthy-threshold=2 --healthy-threshold=2
  2. 確認已建立各項健康狀態檢查:

    ~ gcloud compute health-checks describe HEALTH_CHECK_NAME

    您會看到類似以下範例的輸出內容:

    checkIntervalSec: 10
    creationTimestamp: '2021-05-12T15:12:21.892-07:00'
    healthyThreshold: 2
    id: '1981070199800065066'
    kind: compute#healthCheck
    name: ascs-aha-health-check-name
    selfLink: https://www.googleapis.com/compute/v1/projects/example-project-123456/global/healthChecks/scs-aha-health-check-name
    tcpHealthCheck:
      port: 60000
      portSpecification: USE_FIXED_PORT
      proxyHeader: NONE
    timeoutSec: 10
    type: TCP
    unhealthyThreshold: 2

為健康狀態檢查建立防火牆規則

如果您尚未這麼做,請為私人範圍中的通訊埠定義防火牆規則,允許 Cloud Load Balancing 健康狀態檢查使用的 IP 範圍 (35.191.0.0/16130.211.0.0/22) 存取主機 VM。如要進一步瞭解負載平衡器的防火牆規則,請參閱「建立健康狀態檢查的防火牆規則」。

  1. 如果您尚未建立網路代碼,請在主機 VM 中新增網路代碼。防火牆規則會使用這個網路標記進行健康狀態檢查。

  2. 建立使用網路標記的防火牆規則,允許健康狀態檢查:

    ~ gcloud compute firewall-rules create  RULE_NAME \
      --network=NETWORK_NAME \
      --action=ALLOW \
      --direction=INGRESS \
      --source-ranges=35.191.0.0/16,130.211.0.0/22 \
      --target-tags=NETWORK_TAGS \
      --rules=tcp:ASCS_HEALTHCHECK_PORT_NUM,tcp:ERS_HEALTHCHECK_PORT_NUM

    例如:

    gcloud compute firewall-rules create  nw-ha-cluster-health-checks \
    --network=example-network \
    --action=ALLOW \
    --direction=INGRESS \
    --source-ranges=35.191.0.0/16,130.211.0.0/22 \
    --target-tags=allow-health-check \
    --rules=tcp:60000,tcp:60010

建立 Compute Engine 執行個體群組

您需要在包含叢集節點 VM 的每個區域中建立執行個體群組,並將該區域中的 VM 新增至執行個體群組。

  1. 在 Cloud Shell 中建立主要執行個體群組,並將主要 VM 新增至該群組:

    1. ~ gcloud compute instance-groups unmanaged create PRIMARY_IG_NAME \
      --zone=PRIMARY_ZONE
    2. ~ gcloud compute instance-groups unmanaged add-instances PRIMARY_IG_NAME \
      --zone=PRIMARY_ZONE \
      --instances=PRIMARY_VM_NAME
  2. 在 Cloud Shell 中建立次要執行個體群組,並將次要 VM 新增至該群組:

    1. ~ gcloud compute instance-groups unmanaged create SECONDARY_IG_NAME \
      --zone=SECONDARY_ZONE
    2. ~ gcloud compute instance-groups unmanaged add-instances SECONDARY_IG_NAME \
      --zone=SECONDARY_ZONE \
      --instances=SECONDARY_VM_NAME
  3. 確認執行個體群組已建立:

    ~ gcloud compute instance-groups unmanaged list

    您會看到類似以下範例的輸出內容:

    NAME                              ZONE           NETWORK              NETWORK_PROJECT        MANAGED  INSTANCES
    sap-aha-primary-instance-group    us-central1-b  example-network-sap  example-project-123456  No       1
    sap-aha-secondary-instance-group  us-central1-c  example-network-sap  example-project-123456  No       1
    

設定後端服務

建立兩項後端服務,一個用於 ASCS,另一個用於 ERS。將兩個執行個體群組新增至每個後端服務,並將相反的執行個體群組指定為每個後端服務中的容錯移轉執行個體群組。最後,請建立從 VIP 轉送至後端服務的轉送規則。

  1. 在 Cloud Shell 中,建立 ASCS 的後端服務和容錯群組:

    1. 建立 ASCS 的後端服務:

      ~ gcloud compute backend-services create ASCS_BACKEND_SERVICE_NAME \
         --load-balancing-scheme internal \
         --health-checks ASCS_HEALTH_CHECK_NAME \
         --no-connection-drain-on-failover \
         --drop-traffic-if-unhealthy \
         --failover-ratio 1.0 \
         --region CLUSTER_REGION \
         --global-health-checks
    2. 將主要執行個體群組新增至 ASCS 後端服務:

      ~ gcloud compute backend-services add-backend ASCS_BACKEND_SERVICE_NAME \
        --instance-group PRIMARY_IG_NAME \
        --instance-group-zone PRIMARY_ZONE \
        --region CLUSTER_REGION
    3. 將次要執行個體群組新增為 ASCS 後端服務的容錯移轉執行個體群組:

      ~ gcloud compute backend-services add-backend ASCS_BACKEND_SERVICE_NAME \
        --instance-group SECONDARY_IG_NAME \
        --instance-group-zone SECONDARY_ZONE \
        --failover \
        --region CLUSTER_REGION
  2. 在 Cloud Shell 中,建立 ERS 的後端服務和容錯群組:

    1. 建立 ERS 的後端服務:

      ~ gcloud compute backend-services create ERS_BACKEND_SERVICE_NAME \
      --load-balancing-scheme internal \
      --health-checks ERS_HEALTH_CHECK_NAME \
      --no-connection-drain-on-failover \
      --drop-traffic-if-unhealthy \
      --failover-ratio 1.0 \
      --region CLUSTER_REGION \
      --global-health-checks
    2. 將次要執行個體群組新增至 ERS 後端服務:

      ~ gcloud compute backend-services add-backend ERS_BACKEND_SERVICE_NAME \
        --instance-group SECONDARY_IG_NAME \
        --instance-group-zone SECONDARY_ZONE \
        --region CLUSTER_REGION
    3. 將主要執行個體群組新增為 ERS 後端服務的容錯移轉執行個體群組:

      ~ gcloud compute backend-services add-backend ERS_BACKEND_SERVICE_NAME \
        --instance-group PRIMARY_IG_NAME \
        --instance-group-zone PRIMARY_ZONE \
        --failover \
        --region CLUSTER_REGION
  3. 視需要確認後端服務是否如預期包含執行個體群組:

    ~ gcloud compute backend-services describe BACKEND_SERVICE_NAME \
     --region=CLUSTER_REGION

    您應該會看到類似以下範例的 ASCS 後端服務輸出內容。對於 ERS,failover: true 會顯示在主要例項群組中:

    backends:
    - balancingMode: CONNECTION
      group: https://www.googleapis.com/compute/v1/projects/example-project-123456/zones/us-central1-b/instanceGroups/sap-aha-primary-instance-group
    - balancingMode: CONNECTION
      failover: true
      group: https://www.googleapis.com/compute/v1/projects/example-project-123456/zones/us-central1-c/instanceGroups/sap-aha-secondary-instance-group
    connectionDraining:
      drainingTimeoutSec: 0
    creationTimestamp: '2022-04-06T10:58:37.744-07:00'
    description: ''
    failoverPolicy:
      disableConnectionDrainOnFailover: true
      dropTrafficIfUnhealthy: true
      failoverRatio: 1.0
    fingerprint: s4qMEAyhrV0=
    healthChecks:
    - https://www.googleapis.com/compute/v1/projects/example-project-123456/global/healthChecks/ascs-aha-health-check-name
    id: '6695034709671438882'
    kind: compute#backendService
    loadBalancingScheme: INTERNAL
    name: ascs-aha-backend-service-name
    protocol: TCP
    region: https://www.googleapis.com/compute/v1/projects/example-project-123456/regions/us-central1
    selfLink: https://www.googleapis.com/compute/v1/projects/example-project-123456/regions/us-central1/backendServices/ascs-aha-backend-service-name
    sessionAffinity: NONE
    timeoutSec: 30
  4. 在 Cloud Shell 中,為 ASCS 和 ERS 後端服務建立轉送規則:

    1. 建立從 ASCS VIP 轉送至 ASCS 後端服務的轉送規則:

      ~ gcloud compute forwarding-rules create ASCS_FORWARDING_RULE_NAME \
      --load-balancing-scheme internal \
      --address ASCS_VIP_ADDRESS \
      --subnet CLUSTER_SUBNET \
      --region CLUSTER_REGION \
      --backend-service ASCS_BACKEND_SERVICE_NAME \
      --ports ALL
    2. 建立從 ERS VIP 到 ERS 後端服務的轉送規則:

      ~ gcloud compute forwarding-rules create ERS_FORWARDING_RULE_NAME \
      --load-balancing-scheme internal \
      --address ERS_VIP_ADDRESS \
      --subnet CLUSTER_SUBNET \
      --region CLUSTER_REGION \
      --backend-service ERS_BACKEND_SERVICE_NAME \
      --ports ALL

測試負載平衡器設定

雖然後端執行個體群組要到稍後才會註冊為健康狀態,但您可以設定監聽器來回應健康狀態檢查,藉此測試負載平衡器設定。設定事件監聽器後,如果負載平衡器設定正確,後端執行個體群組的狀態就會變更為正常。

以下各節將介紹可用來測試設定的不同方法。

使用 socat 公用程式測試負載平衡器

您可以使用 socat 公用程式暫時監聽健康檢查埠。

  1. 在兩個主機 VM 上安裝 socat 公用程式:

    $ sudo yum install socat

  2. 在主要 VM 上,將 VIP 暫時指派給 eth0 網路卡:

    ip addr add VIP_ADDRESS dev eth0
  3. 在主要 VM 上啟動 socat 程序,以便在 ASCS 健康狀態檢查通訊埠上監聽 60 秒:

    $ timeout 60s socat - TCP-LISTEN:ASCS_HEALTHCHECK_PORT_NUM,fork

  4. 在 Cloud Shell 中,等待幾秒讓健康狀態檢查偵測到監聽器後,請檢查 ASCS 後端執行個體群組的健康狀態:

    ~ gcloud compute backend-services get-health ASCS_BACKEND_SERVICE_NAME \
      --region CLUSTER_REGION

    您應該會看到類似以下範例的 ASCS 輸出內容:

    backend: https://www.googleapis.com/compute/v1/projects/example-project-123456/zones/us-central1-b/instanceGroups/sap-aha-primary-instance-group
    status:
      healthStatus:
      - forwardingRule: https://www.googleapis.com/compute/v1/projects/example-project-123456/regions/us-central1/forwardingRules/scs-aha-forwarding-rule
        forwardingRuleIp: 10.1.0.90
        healthState: HEALTHY
        instance: https://www.googleapis.com/compute/v1/projects/example-project-123456/zones/us-central1-b/instances/nw-ha-vm-1
        ipAddress: 10.1.0.89
        port: 80
      kind: compute#backendServiceGroupHealth
    ---
    backend: https://www.googleapis.com/compute/v1/projects/example-project-123456/zones/us-central1-c/instanceGroups/sap-aha-secondary-instance-group
    status:
      healthStatus:
      - forwardingRule: https://www.googleapis.com/compute/v1/projects/example-project-123456/regions/us-central1/forwardingRules/scs-aha-forwarding-rule
        forwardingRuleIp: 10.1.0.90
        healthState: UNHEALTHY
        instance: https://www.googleapis.com/compute/v1/projects/example-project-123456/zones/us-central1-c/instances/nw-ha-vm-2
        ipAddress: 10.1.0.88
        port: 80
      kind: compute#backendServiceGroupHealth
  5. 從 eth0 介面中移除 VIP:

    ip addr del VIP_ADDRESS dev eth0
  6. 重複執行 ERS 的步驟,將 ASCS 變數值替換為 ERS 值。

使用 22 號通訊埠測試負載平衡器

如果主機 VM 上的 SSH 連線已開啟通訊埠 22,您可以暫時編輯健康檢查器,使用通訊埠 22,該通訊埠具有可回應健康檢查器的監聽器。

如要暫時使用 22 連接埠,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,前往 Compute Engine 的「Health checks」(健康狀態檢查) 頁面:

    前往「Health checks」(健康狀態檢查) 頁面

  2. 按一下健康狀態檢查名稱。

  3. 按一下 [編輯]

  4. 在「Port」欄位中,將通訊埠號碼變更為 22。

  5. 按一下「儲存」,然後等候一兩分鐘。

  6. 在 Cloud Shell 中,等待幾秒讓健康檢查偵測到監聽器後,請檢查後端執行個體群組的健康狀態:

    ~ gcloud compute backend-services get-health BACKEND_SERVICE_NAME \
      --region CLUSTER_REGION

    畫面會顯示類似以下的輸出:

    backend: https://www.googleapis.com/compute/v1/projects/example-project-123456/zones/us-central1-b/instanceGroups/sap-aha-primary-instance-group
    status:
      healthStatus:
      - forwardingRule: https://www.googleapis.com/compute/v1/projects/example-project-123456/regions/us-central1/forwardingRules/scs-aha-forwarding-rule
        forwardingRuleIp: 10.1.0.85
        healthState: HEALTHY
        instance: https://www.googleapis.com/compute/v1/projects/example-project-123456/zones/us-central1-b/instances/nw-ha-vm-1
        ipAddress: 10.1.0.79
        port: 80
      kind: compute#backendServiceGroupHealth
    ---
    backend: https://www.googleapis.com/compute/v1/projects/example-project-123456/zones/us-central1-c/instanceGroups/sap-aha-secondary-instance-group
    status:
      healthStatus:
      - forwardingRule: https://www.googleapis.com/compute/v1/projects/example-project-123456/regions/us-central1/forwardingRules/scs-aha-forwarding-rule
        forwardingRuleIp: 10.1.0.85
        healthState: HEALTHY
        instance: https://www.googleapis.com/compute/v1/projects/example-project-123456/zones/us-central1-c/instances/nw-ha-vm-2
        ipAddress: 10.1.0.78
        port: 80
      kind: compute#backendServiceGroupHealth
  7. 完成後,請將健康狀態檢查通訊埠編號改回原始通訊埠編號。

安裝健康狀態檢查的事件監聽器

如要設定健康檢查資源,您必須先安裝事件監聽器。

負載平衡器會使用每個主機健康狀態檢查通訊埠上的監聽器,判斷 SAP HANA 叢集的主要執行個體執行的位置。

在叢集中的每個主機上,完成下列步驟來安裝監聽器:

  1. 以 root 身分安裝簡易的 TCP 監聽器。這些操作說明會說明如何安裝及使用 HAProxy 做為事件監聽器。

    # yum install haproxy
  2. 複製並重新命名預設 haproxy.cfg 設定檔,將其設為多個 haproxy 執行個體的範本檔案:

    # cp /usr/lib/systemd/system/haproxy.service \
        /etc/systemd/system/haproxy@.service
    
  3. 編輯 haproxy@.service 檔案的 [Unit][Service] 區段,納入 %i 例項參數,如以下範例所示:

    [Unit]
    Description=HAProxy Load Balancer %i
    After=network-online.target
    Wants=network-online.target
    
    [Service]
    Environment="CONFIG=/etc/haproxy/haproxy-%i.cfg" "PIDFILE=/run/haproxy-%i.pid"
    ...
    

    如要進一步瞭解 Red Hat 的 systemd 單位範本,請參閱「使用已實例化的單位」。

  4. 為 ASCS 例項建立 haproxy.cfg 設定檔。例如:

    # vi /etc/haproxy/haproxy-SIDscs.cfg

    SID 替換為 SAP 系統 ID (SID)。請使用大寫字母。例如:AHA

  5. haproxy-SIDscs.cfg ASCS 設定檔中插入下列設定,並將 ASCS_HEALTHCHECK_PORT_NUM 替換為您先前為 ASCS 建立 Compute Engine 健康檢查時指定的通訊埠編號:

    global
        chroot      /var/lib/haproxy
        pidfile     /var/run/haproxy-%i.pid
        user        haproxy
        group       haproxy
        daemon
    defaults
        mode                    tcp
        log                     global
        option                  dontlognull
        option                  redispatch
        retries                 3
        timeout queue           1m
        timeout connect         10s
        timeout client          1m
        timeout server          1m
        timeout check           10s
        maxconn                 3000
    
    # Listener for SAP healthcheck
    listen healthcheck
       bind *:ASCS_HEALTHCHECK_PORT_NUM
  6. 為 ERS 執行個體建立 haproxy.cfg 設定檔。例如:

    # vi /etc/haproxy/haproxy-SIDers.cfg
  7. haproxy-SIDers.cfg ERS 設定檔中插入下列設定,並將 ERS_HEALTHCHECK_PORT_NUM 替換為先前為 ERS 建立 Compute Engine 健康檢查時指定的通訊埠號碼:

    global
        chroot      /var/lib/haproxy
        pidfile     /var/run/haproxy-%i.pid
        user        haproxy
        group       haproxy
        daemon
    defaults
        mode                    tcp
        log                     global
        option                  dontlognull
        option                  redispatch
        retries                 3
        timeout queue           1m
        timeout connect         10s
        timeout client          1m
        timeout server          1m
        timeout check           10s
        maxconn                 3000
    
    # Listener for SAP healthcheck
    listen healthcheck
       bind *:ERS_HEALTHCHECK_PORT_NUM
  8. 重新載入 systemd 服務:

    # systemctl daemon-reload
  9. 確認 haproxy 服務已正確設定:

     # systemctl start haproxy
     # systemctl status haproxy
     # systemctl | grep haproxy

    返回的狀態應顯示 haproxy.serviceactive (running)

    ● haproxy.service - HAProxy Load Balancer
       Loaded: loaded (/usr/lib/systemd/system/haproxy.service; enabled; vendor preset: disabled)
       Active: active (running) since Sun 2022-04-10 16:48:10 UTC; 2 days ago
     Main PID: 1079 (haproxy)
        Tasks: 2 (limit: 100996)
       Memory: 5.1M
       CGroup: /system.slice/haproxy.service
               ├─1079 /usr/sbin/haproxy -Ws -f /etc/haproxy/haproxy.cfg -p /run/haproxy.pid
               └─1083 /usr/sbin/haproxy -Ws -f /etc/haproxy/haproxy.cfg -p /run/haproxy.pid
    
    Apr 10 16:48:10 dru-hanw-ascs systemd[1]: Starting HAProxy Load Balancer...
    Apr 10 16:48:10 dru-hanw-ascs systemd[1]: Started HAProxy Load Balancer.
  10. 針對叢集中的每個主機重複執行上述步驟。

設定 Pacemaker

下列程序會在 Compute Engine VM 上為 SAP NetWeaver 設定 Pacemaker 叢集的 RHEL 實作。

此程序是根據 Red Hat 說明文件設定高可用性叢集,包括下列出版品 (必須訂閱 Red Hat):

如需 SAP 提供的 RHEL 安裝和設定相關資訊,請參閱:

在兩部主機上設定必要的叢集套件和 OS 防火牆

以主要和次要主機的超級使用者身分,安裝及更新必要的叢集套件、設定 hacluster,以及設定 OS 防火牆服務。

  1. 安裝下列必要叢集套件:

    # yum install pcs pacemaker
    # yum install fence-agents-gce
    # yum install resource-agents-gcp
    # yum install resource-agents-sap
    # yum install sap-cluster-connector
  2. 更新已安裝的套件:

    # yum update -y
  3. 設定 hacluster 使用者的密碼,該使用者會在叢集套件中安裝:

    # passwd hacluster
  4. 在提示中指定 hacluster 的密碼。

  5. 在 Google Cloud提供的 RHEL 映像檔中,作業系統防火牆服務預設為啟用狀態。設定防火牆服務,允許高可用性流量:

    # firewall-cmd --permanent --add-service=high-availability
    # firewall-cmd --reload
  6. 啟動 pcs 服務,並將其設為在開機時啟動:

    # systemctl start pcsd.service
    # systemctl enable pcsd.service
  7. 檢查 pcs 服務的狀態:

    # systemctl status pcsd.service

    畫面會顯示類似以下的輸出:

    ● pcsd.service - PCS GUI and remote configuration interface
      Loaded: loaded (/usr/lib/systemd/system/pcsd.service; enabled; vendor preset: disabled)
      Active: active (running) since Sat 2020-06-13 21:17:05 UTC; 25s ago
        Docs: man:pcsd(8)
              man:pcs(8)
    Main PID: 31627 (pcsd)
      CGroup: /system.slice/pcsd.service
              └─31627 /usr/bin/ruby /usr/lib/pcsd/pcsd
    Jun 13 21:17:03 hana-ha-vm-1 systemd[1]: Starting PCS GUI and remote configuration interface...
    Jun 13 21:17:05 hana-ha-vm-1 systemd[1]: Started PCS GUI and remote configuration interface.

建立叢集

  1. 以任一節點的 root 身分,授權 hacluster 使用者。按一下 RHEL 版本的分頁標籤,查看指令:

    RHEL 8 和後續版本

    # pcs host auth PRIMARY_VM_NAME SECONDARY_VM_NAME

    RHEL 7

    # pcs cluster auth PRIMARY_VM_NAME SECONDARY_VM_NAME
  2. 在提示訊息中,輸入您為 hacluster 使用者設定的 hacluster 使用者名稱和密碼。

  3. 建立叢集:

    RHEL 8 和後續版本

    # pcs cluster setup CLUSTER_NAME PRIMARY_VM_NAME SECONDARY_VM_NAME

    RHEL 7

    # pcs cluster setup --name CLUSTER_NAME PRIMARY_VM_NAME SECONDARY_VM_NAME

更新 Corosync 設定檔

下列步驟會設定 Corosync 的建議叢集值。如果 Corosync 設定檔 /etc/corosync/corosync.conf 尚不存在或為空白,您可以使用 /etc/corosync/ 目錄中的範例檔案做為設定的基礎。

  1. 開啟 corosync.conf 檔案進行編輯:

    # vi /etc/corosync/corosync.conf
  2. corosync.conf 檔案的 totem 部分,將下列摘錄範例中的參數設為所示值。部分參數可能已設為正確的值:

    RHEL 8

    totem {
    ...
      transport: knet
      token: 20000
      token_retransmits_before_loss_const: 10
      join: 60
      max_messages: 20
    ...
    }

    RHEL 7

    totem {
    ...
      transport: udpu
      token: 20000
      token_retransmits_before_loss_const: 10
      join: 60
      max_messages: 20
    ...
    }
  3. 將設定同步處理至第二部伺服器:

    RHEL 8 和後續版本

    # pcs cluster sync corosync

    RHEL 7

    # pcs cluster sync
  4. 在主要 VM 中啟用及啟動叢集

    # pcs cluster enable --all
    # pcs cluster start --all
  5. 使用 corosync-cmapctl 公用程式,確認新的 corosync 設定在叢集中是否有效:

    # corosync-cmapctl
  6. 檢查叢集的狀態:

    # pcs status

    您會看到類似以下範例的輸出內容:

    Cluster name: nwha
    
    WARNINGS:
    No stonith devices and stonith-enabled is not false
    
    Cluster Summary:
    * Stack: corosync
    * Current DC: nw-ha-vm-2 (version 2.0.5-9.el8_4.3-ba59be7122) - partition with quorum
    * 2 nodes configured
    * 0 resource instances configured
    
    Node List:
    * Online: [ nw-ha-vm-1 nw-ha-vm-2 ]
    
    Full List of Resources:
    * No resources
    
    Daemon Status:
    corosync: active/enabled
    pacemaker: active/enabled
    pcsd: active/enabled

設定基礎架構的叢集資源

您需要為下列叢集基礎架構定義 Pacemaker 資源:

  • 防火牆裝置,可避免發生分割腦的情況
  • 共用檔案系統中的 ASCS 和 ERS 目錄
  • 健康狀態檢查
  • VIP
  • ASCS 和 ERS 元件

您必須先定義圍欄裝置、共用檔案系統、健康檢查和 VIP 的資源。接著安裝 SAP NetWeaver。安裝 SAP NetWeaver 後,最後請為 ASCS 和 ERS 元件定義叢集資源。

設定圍欄

您可以使用 fence_gce 代理程式,為每個主機 VM 定義叢集資源,藉此設定圍欄。

為確保在圍欄動作後的事件順序正確,您還可以設定作業系統,在 VM 遭到圍欄後延遲重新啟動 Corosync。您也可以調整 Pacemaker 的重新啟動逾時時間,以便考量延遲時間。

建立圍欄裝置資源

針對叢集中的每個 VM,為圍欄裝置建立叢集資源,以便叢集重新啟動 VM。VM 的圍欄裝置必須在其他 VM 上執行,因此您必須設定叢集資源的位置,以便在任何 VM 上執行 (除了可重新啟動的 VM 以外)。

  1. 在主要主機上以超級使用者的身分,為主要 VM 的圍欄裝置建立叢集資源:

    # pcs stonith create FENCING_RESOURCE_PRIMARY_VM fence_gce \
        port="PRIMARY_VM_NAME" \
        zone="PRIMARY_ZONE" \
        project="CLUSTER_PROJECT_ID" \
        pcmk_reboot_timeout=300 pcmk_monitor_retries=4 pcmk_delay_max=30 \
        op monitor interval="300s" timeout="120s" \
        op start interval="0" timeout="60s"
  2. 為主要 VM 設定圍欄裝置的位置,讓該裝置只在次要 VM 上啟用:

    # pcs constraint location FENCING_RESOURCE_PRIMARY_VM avoids PRIMARY_VM_NAME
  3. 在次要主機上以 root 身分,為次要 VM 的圍欄裝置建立叢集資源:

    # pcs stonith create FENCING_RESOURCE_SECONDARY_VM fence_gce \
        port="SECONDARY_VM_NAME" \
        zone="SECONDARY_ZONE" \
        project="CLUSTER_PROJECT_ID" \
        pcmk_reboot_timeout=300 pcmk_monitor_retries=4 \
        op monitor interval="300s" timeout="120s" \
        op start interval="0" timeout="60s"
  4. 為次要 VM 設定隔離裝置的位置,讓該裝置只在主要 VM 上啟用:

    # pcs constraint location FENCING_RESOURCE_SECONDARY_VM avoids SECONDARY_VM_NAME

設定 Corosync 的重新啟動延遲時間

  1. 在兩部主機上以超級使用者的身分建立 systemd 插入檔案,以便延遲 Corosync 的啟動,確保在重新啟動受限的 VM 後,事件的順序正確無誤:

    systemctl edit corosync.service
  2. 在檔案中新增下列幾行內容:

    [Service]
    ExecStartPre=/bin/sleep 60
  3. 儲存檔案並結束編輯器。

  4. 重新載入 systemd 管理員設定。

    systemctl daemon-reload
  5. 確認已建立插入檔案:

    service corosync status

    您應該會看到插入檔案的一行,如以下範例所示:

    ● corosync.service - Corosync Cluster Engine
       Loaded: loaded (/usr/lib/systemd/system/corosync.service; disabled; vendor preset: disabled)
      Drop-In: /etc/systemd/system/corosync.service.d
               └─override.conf
       Active: active (running) since Tue 2021-07-20 23:45:52 UTC; 2 days ago

建立檔案系統資源

定義共用檔案系統中 ASCS 和 ERS 目錄的叢集資源。

  1. 為 ASCS 目錄設定檔案系統資源。

    # pcs resource create ASCS_FILE_SYSTEM_RESOURCE Filesystem \
        device="NFS_PATH/usrsapSIDASCSASCS_INSTANCE_NUMBER" \
        directory="/usr/sap/SID/ASCSASCS_INSTANCE_NUMBER" \
        fstype=nfs force_unmount=safe \
        --group ASCS_RESOURCE_GROUP \
        op start interval=0 timeout=60 \
        op stop interval=0 timeout=120 \
        op monitor interval=200 timeout=40

    更改下列內容:

    • ASCS_FILE_SYSTEM_RESOURCE:指定 ASCS 檔案系統的叢集資源名稱。
    • NFS_PATH:指定 NFS 檔案系統的目錄路徑。
    • SID:指定系統 ID (SID)。所有字母都使用大寫。
    • ASCS_INSTANCE_NUMBER:指定 ASCS 執行個體編號。
    • ASCS_RESOURCE_GROUP:為 ASCS 叢集資源指定不重複的群組名稱。您可以使用「SID_ASCSinstance_number_group」等慣例,確保不重複。例如:nw8_ASCS00_group

      由於群組尚未存在,Pacemaker 會立即建立群組。 建立其他 ASCS 資源時,請將這些資源加入這個群組。

  2. 為 ERS 目錄設定檔案系統資源。

    # pcs resource create ERS_FILE_SYSTEM_RESOURCE Filesystem \
        device="NFS_PATH/usrsapSIDERSERS_INSTANCE_NUMBER" \
        directory="/usr/sap/SID/ERSERS_INSTANCE_NUMBER" \
        fstype=nfs force_unmount=safe \
        --group ERS_RESOURCE_GROUP \
        op start interval=0 timeout=60 \
        op stop interval=0 timeout=120 \
        op monitor interval=200 timeout=40

    更改下列內容:

    • ERS_FILE_SYSTEM_RESOURCE:指定檔案系統資源的名稱。
    • NFS_PATH:指定 NFS 檔案系統的目錄路徑。
    • SID:指定系統 ID (SID)。所有字母都使用大寫。
    • ERS_INSTANCE_NUMBER:指定 ERS 執行個體編號。
    • ERS_RESOURCE_GROUP:為 ERS 叢集資源指定不重複的群組名稱。您可以使用「SID_ERSinstance_number_group」等慣例,確保不重複。例如:nw8_ERS10_group

      由於群組尚未存在,Pacemaker 會立即建立群組。 建立其他 ERS 資源時,請將這些資源加入這個群組。

建立虛擬 IP 位址資源

定義 VIP 位址的叢集資源。

  1. 如需查詢 VIP 位址,可以使用以下方法:

    • gcloud compute addresses describe ASCS_VIP_NAME
      --region=CLUSTER_REGION --format="value(address)"
    • gcloud compute addresses describe ERS_VIP_NAME
      --region=CLUSTER_REGION --format="value(address)"
  2. 為 ASCS 和 ERS VIP 建立叢集資源。

    # pcs resource create ASCS_VIP_RESOURCE IPaddr2 \
        ip=ASCS_VIP_ADDRESS cidr_netmask=32 nic=eth0 \
        op monitor interval=3600 timeout=60 \
        --group ASCS_RESOURCE_GROUP
    # pcs resource create ERS_VIP_RESOURCE IPaddr2 \
        ip=ERS_VIP_ADDRESS cidr_netmask=32 nic=eth0 \
        op monitor interval=3600 timeout=60 \
        --group ERS_RESOURCE_GROUP

建立健康狀態檢查資源

  1. 為 ASCS 健康狀態檢查設定叢集資源:

    # pcs resource create _HEALTHCHECK_SCS service:haproxy@SIDascs \
       op monitor interval=10s timeout=20s \
       --group ASCS_RESOURCE_GROUP
  2. 為 ERS 健康檢查設定叢集資源:

    # pcs resource create _HEALTHCHECK_ERS service:haproxy@SIDers \
       op monitor interval=10s timeout=20s \
       --group ERS_RESOURCE_GROUP

設定其他叢集預設值

  1. 設定其他叢集屬性:

    # pcs resource defaults resource-stickiness=1
    # pcs resource defaults migration-threshold=3

查看已定義的資源

顯示目前定義的叢集資源,確認這些資源是否正確無誤。

  1. 顯示叢集狀態:

    # pcs status

    您會看到類似以下範例的輸出內容:

    Cluster name: nwha
    Cluster Summary:
      * Stack: corosync
      * Current DC: nw-ha-vm-1 (version 2.0.5-9.el8_4.3-ba59be7122) - partition with quorum
      * 2 nodes configured
      * 8 resource instances configured
    
    Node List:
      * Online: [ nw-ha-vm-1 nw-ha-vm-2 ]
    
    Full List of Resources:
      * fence-nw-ha-vm-2    (stonith:fence_gce):     Started nw-ha-vm-1
      * fence-nw-ha-vm-1    (stonith:fence_gce):     Started nw-ha-vm-2
      * Resource Group: nw8_ascs00_group:
        * nw8_vip_ascs00    (ocf::heartbeat:IPaddr2):    Started nw-ha-vm-1
        * nw8_healthcheck_scs   (service:haproxy@nw8scs):    Started nw-ha-vm-1
        * nw8_fs_ascs00 (ocf::heartbeat:Filesystem):     Started nw-ha-vm-1
      * Resource Group: nw8_ers10_group:
        * nw8_vip_ers10 (ocf::heartbeat:IPaddr2):    Started nw-ha-vm-2
        * nw8_healthcheck_ers   (service:haproxy@nw8ers):    Started nw-ha-vm-2
        * nw8_fs_ers10  (ocf::heartbeat:Filesystem):     Started nw-ha-vm-2
    
    Daemon Status:
      corosync: active/enabled
      pacemaker: active/enabled
      pcsd: active/enabled
    

安裝 ASCS 和 ERS

以下部分僅涵蓋在 Google Cloud上安裝 SAP NetWeaver 的相關規定和建議。

如需完整安裝操作說明,請參閱 SAP NetWeaver 說明文件

準備安裝

為確保叢集中的一致性並簡化安裝作業,請在安裝 SAP NetWeaver ASCS 和 ERS 元件前,定義使用者、群組和權限,並將次要伺服器設為待機模式。

  1. 將叢集移出維護模式:

    # sudo pcs property set maintenance-mode="false"

  2. 在兩部伺服器上以超級使用者身分輸入下列指令,指定適合您環境的使用者和群組 ID:

    # groupadd -g GID_SAPINST sapinst
    # groupadd -g GID_SAPSYS sapsys
    # useradd -u UID_SIDADM SID_LCadm -g sapsys
    # usermod -a -G sapinst SID_LCadm
    # useradd -u UID_SAPADM sapadm -g sapinst
    
    # chown SID_LCadm:sapsys /usr/sap/SID/SYS
    # chown SID_LCadm:sapsys /sapmnt/SID -R
    # chown SID_LCadm:sapsys /usr/sap/trans -R
    # chown SID_LCadm:sapsys /usr/sap/SID/SYS -R
    # chown SID_LCadm:sapsys /usr/sap/SID -R

    如果您使用的是簡易掛載設定,請改為以 root 身分在兩部伺服器上執行下列指令。指定適合您環境的使用者和群組 ID。

    # groupadd -g GID_SAPINST sapinst
    # groupadd -g GID_SAPSYS sapsys
    # useradd -u UID_SIDADM SID_LCadm -g sapsys
    # usermod -a -G sapinst SID_LCadm
    # useradd -u UID_SAPADM sapadm -g sapinst
    
    # chown SID_LCadm:sapsys /usr/sap/SID
    # chown SID_LCadm:sapsys /sapmnt/SID -R
    # chown SID_LCadm:sapsys /usr/sap/trans -R
    # chown SID_LCadm:sapsys /usr/sap/SID -R
    # chown SID_LCadm:sapsys /usr/sap/SID/SYS

    更改下列內容:

    • GID_SAPINST:指定 SAP 佈建工具的 Linux 群組 ID。
    • GID_SAPSYS:指定 SAPSYS 使用者的 Linux 群組 ID。
    • UID_SIDADM:指定 SAP 系統 (SID) 管理員的 Linux 使用者 ID。
    • SID_LC:指定系統 ID (SID)。請使用小寫字母。
    • UID_SAPADM:指定 SAP 主機代理程式的使用者 ID。
    • SID:指定系統 ID (SID)。所有字母都使用大寫。

    舉例來說,以下是實際的 GID 和 UID 編號配置:

    Group sapinst      1001
    Group sapsys       1002
    Group dbhshm       1003
    
    User  en2adm       2001
    User  sapadm       2002
    User  dbhadm       2003

安裝 ASCS 元件

  1. 在次要伺服器上輸入下列指令,將次要伺服器置於待命模式:

    # pcs node standby

    將次要伺服器設為待命模式,即可將主要伺服器上的所有叢集資源整合,簡化安裝作業。

  2. 確認次要伺服器處於待命模式:

    # pcs status

    輸出結果會與下列範例相似:

    Cluster name: nwha
       Cluster Summary:
         * Stack: corosync
         * Current DC: nw-ha-vm-1 (version 2.0.5-9.el8_4.3-ba59be7122) - partition with quorum
         * 2 nodes configured
         * 8 resource instances configured
    
       Node List:
         * Online: [ nw-ha-vm-1 nw-ha-vm-2 ]
    
       Full List of Resources:
         * fence-nw-ha-vm-2  (stonith:fence_gce):     Started nw-ha-vm-1
         * fence-nw-ha-vm-1  (stonith:fence_gce):     Stopped
         * Resource Group: nw8_ascs00_group:
           * nw8_vip_ascs00  (ocf::heartbeat:IPaddr2):    Started nw-ha-vm-1
           * nw8_healthcheck_scs (service:haproxy@nw8scs):    Started nw-ha-vm-1
           * nw8_fs_ascs00   (ocf::heartbeat:Filesystem):     Started nw-ha-vm-1
         * Resource Group: nw8_ers10_group:
           * nw8_vip_ers10   (ocf::heartbeat:IPaddr2):    Started nw-ha-vm-1
           * nw8_healthcheck_ers (service:haproxy@nw8ers):    Started nw-ha-vm-1
           * nw8_fs_ers10    (ocf::heartbeat:Filesystem):     Started nw-ha-vm-1
    
       Daemon Status:
         corosync: active/enabled
    
  3. 在主要伺服器上以超級使用者的身分,將目錄變更為暫時安裝目錄 (例如 /tmp),藉此透過執行 SAP Software Provisioning Manager (SWPM) 安裝 ASCS 執行個體。

    • 如要存取 SWPM 的網頁介面,您必須使用 root 使用者的密碼。如果您的 IT 政策不允許 SAP 管理員存取根密碼,您可以使用 SAPINST_REMOTE_ACCESS_USER

    • 啟動 SWPM 時,請使用 SAPINST_USE_HOSTNAME 參數指定您在 /etc/hosts 檔案中為 ASCS VIP 位址定義的虛擬主機名稱。

      例如:

      cd /tmp; /mnt/nfs/install/SWPM/sapinst SAPINST_USE_HOSTNAME=vh-aha-scs
    • 在 SWPM 最終確認頁面上,確認虛擬主機名稱是否正確。

  4. 設定完成後,請將次要 VM 從待命模式中移除:

    # pcs node unstandby

安裝 ERS 元件

  1. 在主要伺服器上以超級使用者或 SID_LCadm 的身份,停止 ASCS 服務。

    # su - SID_LCadm -c "sapcontrol -nr ASCS_INSTANCE_NUMBER -function Stop"
    # su - SID_LCadm -c "sapcontrol -nr ASCS_INSTANCE_NUMBER -function StopService"
  2. 在主要伺服器上輸入下列指令,將主要伺服器置於待命模式:

    # pcs node standby

    將主要伺服器設為待命模式,可將所有叢集資源整合至次要伺服器,簡化安裝程序。

  3. 確認主要伺服器處於待命模式:

    # pcs status

  4. 在次要伺服器上以超級使用者身分,將目錄變更為 /tmp 等暫時安裝目錄,藉此透過執行 SAP Software Provisioning Manager (SWPM) 安裝 ERS 執行個體。

    • 使用安裝 ASCS 元件時使用的使用者和密碼存取 SWPM。

    • 啟動 SWPM 時,請使用 SAPINST_USE_HOSTNAME 參數指定您在 /etc/hosts 檔案中為 ERS VIP 位址定義的虛擬主機名稱。

      例如:

      cd /tmp; /mnt/nfs/install/SWPM/sapinst SAPINST_USE_HOSTNAME=vh-aha-ers
    • 在 SWPM 最終確認頁面上,確認虛擬主機名稱是否正確。

  5. 將主要 VM 從待命狀態移除,讓兩者都處於啟用狀態:

    # pcs node unstandby

設定 SAP 服務

您需要確認服務設定正確無誤、檢查 ASCS 和 ERS 設定檔中的設定,並將 SID_LCadm 使用者新增至 haclient 使用者群組。

確認 SAP 服務項目

  1. 請在兩部伺服器上確認 /usr/sap/sapservices 檔案包含 ASCS 和 ERS 服務的項目。如要執行這項操作,您可以使用 systemVsystemd 整合。

    您可以使用 sapstartsrv 指令搭配 pf=PROFILE_OF_THE_SAP_INSTANCE-reg 選項,新增任何缺少的項目。

    如要進一步瞭解這些整合功能,請參閱下列 SAP 注意事項:

    systemV

    以下範例說明使用 systemV 整合功能時,/usr/sap/sapservices 檔案中的 ASCS 和 ERS 服務項目應如何設定:

    # LD_LIBRARY_PATH=/usr/sap/hostctrl/exe:$LD_LIBRARY_PATH; export LD_LIBRARY_PATH
    /usr/sap/hostctrl/exe/sapstartsrv \
    pf=/usr/sap/SID/SYS/profile/SID_ERSERS_INSTANCE_NUMBER_ERS_VIRTUAL_HOST_NAME \
    -D -u SID_LCadm
    /usr/sap/hostctrl/exe/sapstartsrv \
    pf=/usr/sap/SID/SYS/profile/SID_ASCSASCS_INSTANCE_NUMBER_ASCS_VIRTUAL_HOST_NAME \
    -D -u SID_LCadm

    systemd

    1. 請確認 /usr/sap/sapservices 檔案包含 ASCS 和 ERS 服務的項目。以下範例說明使用 systemd 整合功能時,這些項目會如何顯示在 /usr/sap/sapservices 檔案中:

      systemctl --no-ask-password start SAPSID_ASCS_INSTANCE_NUMBER # sapstartsrv pf=/usr/sap/SID/SYS/profile/SID_ASCSASCS_INSTANCE_NUMBER_SID_LCascs
      systemctl --no-ask-password start SAPSID_ERS_INSTANCE_NUMBER # sapstartsrv pf=/usr/sap/SID/SYS/profile/SID_ERSERS_INSTANCE_NUMBER_SID_LCers
    2. 在 ASCS 和 ERS 執行個體上停用 systemd 整合功能:

      # systemctl disable SAPSID_ASCS_INSTANCE_NUMBER.service
      # systemctl stop SAPSID_ASCS_INSTANCE_NUMBER.service
      # systemctl disable SAPSID_ERS_INSTANCE_NUMBER.service
      # systemctl stop SAPSID_ERS_INSTANCE_NUMBER.service
    3. 確認已停用 systemd 整合:

      # systemctl list-unit-files | grep sap

      如果輸出內容與下列範例相似,表示 systemd 整合功能已停用。請注意,系統會啟用 saphostagentsaptune 等部分服務,並停用部分服務。

      SAPSID_ASCS_INSTANCE_NUMBER.service disabled
      SAPSID_ERS_INSTANCE_NUMBER.service disabled
      saphostagent.service enabled
      sapinit.service generated
      saprouter.service disabled
      saptune.service enabled

停止 SAP 服務

  1. 在次要伺服器上停止 ERS 服務:

    # su - SID_LCadm -c "sapcontrol -nr ERS_INSTANCE_NUMBER -function Stop"
    # su - SID_LCadm -c "sapcontrol -nr ERS_INSTANCE_NUMBER -function StopService"
  2. 在每部伺服器上,確認所有服務都已停止:

    # su - SID_LCadm -c "sapcontrol -nr ASCS_INSTANCE_NUMBER -function GetSystemInstanceList"
    # su - SID_LCadm -c "sapcontrol -nr ERS_INSTANCE_NUMBER -function GetSystemInstanceList"

    您會看到類似以下範例的輸出內容:

    GetSystemInstanceList
    FAIL: NIECONN_REFUSED (Connection refused), NiRawConnect failed in plugin_fopen()

在 SAP 中停用自動服務重新啟動功能

由於叢集軟體會在備援期間管理 SAP 服務的重新啟動作業,因此為了避免發生衝突,請停用 SAP 軟體自動重新啟動服務的功能。

  1. 在兩個節點上,編輯 /usr/sap/sapservices 檔案,為 ASCS 和 ERS 元件在 sapstartsrv 指令開頭加上註解字元 #,藉此停用 SAP 軟體中的自動重新啟動功能。

    例如:

    #!/bin/sh
    
     #LD_LIBRARY_PATH=/usr/sap/SID/ASCSASCS_INSTANCE_NUMBER/exe:$LD_LIBRARY_PATH; export LD_LIBRARY_PATH; /usr/sap/SID/ASCSASCS_INSTANCE_NUMBER/exe/sapstartsrv pf=/usr/sap/SID/SYS/profile/SID_ASCSASCS_INSTANCE_NUMBER_ASCS_VIRTUAL_HOST_NAME -D -u SID_LCadm
     #LD_LIBRARY_PATH=/usr/sap/SID/ERSERS_INSTANCE_NUMBER/exe:$LD_LIBRARY_PATH; export LD_LIBRARY_PATH; /usr/sap/SID/ERSERS_INSTANCE_NUMBER/exe/sapstartsrv pf=/usr/sap/SID/SYS/profile/SID_ERSERS_INSTANCE_NUMBER_ERS_VIRTUAL_HOST_NAME -D -u SID_LCadm
     

編輯 ASCS 和 ERS 設定檔

  1. 在任一伺服器上,使用下列任一指令切換至設定檔目錄:

    # cd /usr/sap/SID/SYS/profile
    # cd /sapmnt/SID/profile
  2. 如有需要,您可以透過列出設定檔目錄中的檔案,或使用下列格式,找出 ASCS 和 ERS 設定檔的檔案名稱:

    SID_ASCSASCS_INSTANCE_NUMBER_ASCS_VIRTUAL_HOST_NAME
    SID_ERSERS_INSTANCE_NUMBER_ERS_VIRTUAL_HOST_NAME
  3. 如果您使用的是 ENSA1,請在 ASCS 設定檔中設定下列項目,啟用保活功能:

    enque/encni/set_so_keepalive = true

    詳情請參閱 SAP 注意事項 1410736 - TCP/IP:設定保活間隔

  4. 如有需要,請編輯 ASCS 和 ERS 設定檔,變更 Enqueue 伺服器和 Enqueue 複製伺服器的啟動行為。

    ENSA1

    在 ASCS 設定檔的「啟動 SAP 排隊伺服器」部分中,如果您看到 Restart_Program_NN,請將「Restart」變更為「Start」,如以下範例所示。

    Start_Program_01 = local $(_EN) pf=$(_PF)

    在 ERS 設定檔的「啟動排隊複製伺服器」部分,如果您看到 Restart_Program_NN,請將「Restart」變更為「Start」,如以下範例所示。

    Start_Program_00 = local $(_ER) pf=$(_PFL) NR=$(SCSID)

    ENSA2

    在 ASCS 設定檔的「啟動 SAP 排隊伺服器」部分中,如果您看到 Restart_Program_NN,請將「Restart」變更為「Start」,如以下範例所示。

    Start_Program_01 = local $(_ENQ) pf=$(_PF)

    在 ERS 設定檔的「Start enqueue replicator」部分,如果您看到 Restart_Program_NN,請將「Restart」變更為「Start」,如以下範例所示。

    Start_Program_00 = local $(_ENQR) pf=$(_PF) ...

為 ASCS 和 ERS 設定叢集資源

  1. 以任一伺服器的 root 身分,將叢集置於維護模式:

    # pcs property set maintenance-mode="true"
  2. 確認叢集處於維護模式:

    # pcs status
  3. 為 ASCS 和 ERS 服務建立叢集資源:

    ENSA1

    • 為 ASCS 執行個體建立叢集資源。InstanceName 的值是 SWPM 在您安裝 ASCS 時產生的執行個體設定檔名稱。

      # pcs resource create ASCS_INSTANCE_RESOURCE SAPInstance \
          InstanceName=SID_ASCSASCS_INSTANCE_NUMBER_ASCS_VIRTUAL_HOST_NAME \
          START_PROFILE=/sapmnt/SID/profile/SID_ASCSASCS_INSTANCE_NUMBER_ASCS_VIRTUAL_HOST_NAME \
          AUTOMATIC_RECOVER=false meta resource-stickiness=5000 migration-threshold=1 \
          failure-timeout=60  --group ASCS_RESOURCE_GROUP \
          op monitor interval=20 on-fail=restart timeout=60 \
          op start interval=0 timeout=600 \
          op stop interval=0 timeout=600
      
      # pcs resource meta ASCS_RESOURCE_GROUP resource-stickiness=3000
      
    • 為 ERS 執行個體建立叢集資源。InstanceName 的值是 SWPM 在安裝 ERS 時產生的執行個體設定檔名稱。參數 IS_ERS=true 會指示 Pacemaker 將 runsersSID 標記設為 ERS 處於作用中的節點的 1

      # pcs resource create ERS_INSTANCE_RESOURCE SAPInstance \
          InstanceName=SID_ERSERS_INSTANCE_NUMBER_ERS_VIRTUAL_HOST_NAME \
          START_PROFILE=/sapmnt/SID/profile/SID_ERSERS_INSTANCE_NUMBER_ERS_VIRTUAL_HOST_NAME \
          AUTOMATIC_RECOVER=false IS_ERS=true --group ERS_RESOURCE_GROUP \
          op monitor interval=20 on-fail=restart timeout=60 \
          op start interval=0 timeout=600 \
          op stop interval=0 timeout=600
      

    ENSA2

    • 為 ASCS 執行個體建立叢集資源。InstanceName 的值是 SWPM 在您安裝 ASCS 時產生的執行個體設定檔名稱。

      # pcs resource create ASCS_INSTANCE_RESOURCE SAPInstance \
          InstanceName=SID_ASCSASCS_INSTANCE_NUMBER_ASCS_VIRTUAL_HOST_NAME \
          START_PROFILE=/sapmnt/SID/profile/SID_ASCSASCS_INSTANCE_NUMBER_ASCS_VIRTUAL_HOST_NAME \
          AUTOMATIC_RECOVER=false meta resource-stickiness=5000 \
          --group ASCS_RESOURCE_GROUP \
          op monitor interval=20 on-fail=restart timeout=60 \
          op start interval=0 timeout=600 \
          op stop interval=0 timeout=600
      
      # pcs resource meta ASCS_RESOURCE_GROUP resource-stickiness=3000
      
    • 為 ERS 執行個體建立叢集資源。InstanceName 的值是 SWPM 在安裝 ERS 時產生的執行個體設定檔名稱。

      # pcs resource create ERS_INSTANCE_RESOURCE SAPInstance \
          InstanceName=SID_ERSERS_INSTANCE_NUMBER_ERS_VIRTUAL_HOST_NAME \
          START_PROFILE=/sapmnt/SID/profile/SID_ERSERS_INSTANCE_NUMBER_ERS_VIRTUAL_HOST_NAME \
          AUTOMATIC_RECOVER=false IS_ERS=true --group ERS_RESOURCE_GROUP \
          op monitor interval=20 on-fail=restart timeout=60 \
          op start interval=0 timeout=600 \
          op stop interval=0 timeout=600
      

設定位置和排序限制

您可以建立限制,定義哪些服務需要先啟動,以及哪些服務需要在同一主機上一起執行。舉例來說,IP 位址必須與主要 SAP Central Services 執行個體位於相同主機上。

  1. 定義開始順序限制:

ENSA1

  1. 建立並置限制,避免 ASCS 資源與 ERS 資源在同一台伺服器上執行:

    # pcs constraint colocation add ERS_RESOURCE_GROUP with \
        ASCS_RESOURCE_GROUP -5000
    
  2. 設定 ASCS 以備援至 ERS 執行的伺服器,這由標記 runsersSID 是否等於 1 決定:

    # pcs constraint location ASCS_INSTANCE_RESOURCE \
        rule score=2000 runs_ers_SID eq 1
  3. 在容錯移轉後,先啟動 ASCS,再將 ERS 移轉至其他伺服器:

    # pcs constraint order start ASCS_RESOURCE_GROUP then \
        stop ERS_RESOURCE_GROUP symmetrical=false kind=Optional
    

ENSA2

  1. 建立並置限制,避免 ASCS 資源與 ERS 資源在同一台伺服器上執行:

    # pcs constraint colocation add ERS_RESOURCE_GROUP  with \
        ASCS_RESOURCE_GROUP -5000
    
  2. 在容錯移轉後,先啟動 ASCS,再將 ERS 移轉至其他伺服器:

    # pcs constraint order start ASCS_RESOURCE_GROUP then \
        stop ERS_RESOURCE_GROUP symmetrical=false kind=Optional
    
  1. 檢查限制:

    # pcs constraint

    畫面會顯示類似以下的輸出:

    Location Constraints:
      Resource: ascs-aha-instance
        Constraint: location-ascs-instance
          Rule: score=2000
            Expression: runs_ers_HKN eq 1
      Resource: fence-nw-ha-vm-1
        Disabled on: nw-ha-vm-1 (score:-INFINITY)
      Resource: fence-nw-ha-vm-2
        Disabled on: nw-ha-vm-2 (score:-INFINITY)
    Ordering Constraints:
      start ascs-group then stop ers-group (kind:Optional) (non-symmetrical)
    Colocation Constraints:
      ascs-group with ers-group (score:-5000)
    Ticket Constraints:
  2. 以任一伺服器的 root 身分,停用叢集維護模式:

    # pcs property set maintenance-mode="false"

設定 SAP 專用的 Red Hat 叢集連接器

在叢集中的每個主機上,設定 SAP Start Service sapstartsrv,以便透過 HA 介面與 Pacemaker 叢集軟體通訊。

  1. 將 SAP 管理員使用者新增至 haclient 群組:

    usermod -a -G haclient SID_LCadm
  2. 在每個設定檔的結尾處加入下列幾行,即可編輯 SAP 例項設定檔。您可以在 /sapmnt/SID/profiles 目錄中找到設定檔。

    service/halib = $(DIR_CT_RUN)/saphascriptco.so
    service/halib_cluster_connector = /usr/bin/sap_cluster_connector
  3. 如果 ASCS 和 ERS 執行個體資源目前在叢集中執行,請停用這些資源:

    pcs resource disable ERS_INSTANCE_RESOURCE
    pcs resource disable ASCS_INSTANCE_RESOURCE
  4. 停止 ASCS 主機上的服務:

    sapcontrol -nr ASCS_INSTANCE_NUMBER -function StopService
  5. 停止 ERS 主機上的服務:

    sapcontrol -nr ERS_INSTANCE_NUMBER -function StopService
  6. 啟用資源:

    pcs resource enable ERS_INSTANCE_RESOURCE
    pcs resource enable ASCS_INSTANCE_RESOURCE
  7. 針對叢集中的每個主機重複執行上述步驟。

如要進一步瞭解 Red Hat 的相關資訊,請參閱「如何在 RHEL 7 和 8 上為 SAPInstance 資源設定 SAP halib」。

在叢集外的主機上安裝資料庫和應用程式伺服器

在高可用性設定中,建議您在不同的主機上安裝資料庫和應用程式伺服器,而非分群中的 ASCS 和 ERS 主機。

為每部伺服器使用不同的主機,可降低複雜度、減少失敗影響多部伺服器的風險,並可依各伺服器類型調整每個 Compute Engine 的大小。

這樣一來,您就能選擇最合適的認證機器大小、避免失敗,並降低複雜度。

本指南未涵蓋資料庫和應用程式伺服器的安裝作業。

如要瞭解如何安裝資料庫伺服器,請參閱:

驗證及測試叢集

本節說明如何執行下列測試:

  • 檢查設定錯誤
  • 確認 ASCS 和 ERS 資源在備援期間正確切換伺服器
  • 確認鎖定功能是否保留
  • 模擬 Compute Engine 維護事件,確保即時遷移不會觸發備援

檢查叢集設定

  1. 以任一伺服器的 root 身分,檢查資源正在哪些節點上執行:

    # pcs status

    在下列範例中,ASCS 資源會在 nw-ha-vm-2 伺服器上執行,而 ERS 資源會在 nw-ha-vm-1 伺服器上執行。

    Stack: corosync
      Current DC: nw-ha-vm-1 (version 1.1.23-1.el7_9.1-9acf116022) - partition with quorum
      Last updated: Wed Apr 13 05:21:21 2022
      Last change: Wed Apr 13 05:21:18 2022 by hacluster via crmd on nw-ha-vm-2
    
      2 nodes configured
      10 resource instances configured
    
      Online: [ nw-ha-vm-1 nw-ha-vm-2 ]
    
      Full list of resources:
    
      fence-nw-ha-vm-1     (stonith:fence_gce):    Started nw-ha-vm-2
      fence-nw-ha-vm-2     (stonith:fence_gce):    Started nw-ha-vm-1
       Resource Group: ascs-group
           ascs-file-system   (ocf::heartbeat:Filesystem):    Started nw-ha-vm-2
           ascs-vip   (ocf::heartbeat:IPaddr2):       Started nw-ha-vm-2
           ascs-healthcheck   (service:haproxy@AHAascs):      Started nw-ha-vm-2
           ascs-aha-instance      (ocf::heartbeat:SAPInstance):   Started nw-ha-vm-2
       Resource Group: ers-group
           ers-file-system    (ocf::heartbeat:Filesystem):    Started nw-ha-vm-1
           ers-vip    (ocf::heartbeat:IPaddr2):       Started nw-ha-vm-1
           ers-healthcheck    (service:haproxy@AHAers):       Started nw-ha-vm-1
           ers-aha-instance       (ocf::heartbeat:SAPInstance):   Started nw-ha-vm-1
    
      Migration Summary:
      * Node nw-ha-vm-1:
      * Node nw-ha-vm-2:
  2. 切換至 SID_LCadm 使用者:

    # su - SID_LCadm
  3. 檢查叢集設定。針對 INSTANCE_NUMBER,請指定在您輸入指令的伺服器上,處於活動狀態的 ASCS 或 ERS 執行個體編號:

    > sapcontrol -nr INSTANCE_NUMBER -function HAGetFailoverConfig

    HAActive 應為 TRUE,如以下範例所示:

    HAGetFailoverConfig
    
    14.04.2022 17:25:45
    HAGetFailoverConfig
    OK
    HAActive: TRUE
    HAProductVersion: Pacemaker
    HASAPInterfaceVersion: sap_cluster_connector
    HADocumentation: https://github.com/ClusterLabs/sap_cluster_connector
    HAActiveNode:
    HANodes:

  4. SID_LCadm 身分檢查設定中的錯誤:

    > sapcontrol -nr INSTANCE_NUMBER -function HACheckConfig

    您會看到類似以下範例的輸出內容:

    14.04.2022 21:43:39
    HACheckConfig
    OK
    state, category, description, comment
    SUCCESS, SAP CONFIGURATION, Redundant ABAP instance configuration, 0 ABAP instances detected
    SUCCESS, SAP CONFIGURATION, Enqueue separation, All Enqueue server separated from application server
    SUCCESS, SAP CONFIGURATION, MessageServer separation, All MessageServer separated from application server
    SUCCESS, SAP STATE, SCS instance running, SCS instance status ok
    SUCCESS, SAP CONFIGURATION, SAPInstance RA sufficient version (vip-ascs_NWT_00), SAPInstance includes is-ers patch
    SUCCESS, SAP CONFIGURATION, Enqueue replication (vip-ascs_NWT_00), Enqueue replication enabled
    SUCCESS, SAP STATE, Enqueue replication state (vip-ascs_NWT_00), Enqueue replication active
    SUCCESS, SAP CONFIGURATION, SAPInstance RA sufficient version (vip-ers_NWT_10), SAPInstance includes is-ers patch

  5. 在 ASCS 處於作用中的伺服器上,以 SID_LCadm 模擬備援:

    > sapcontrol -nr ASCS_INSTANCE_NUMBER -function HAFailoverToNode ""
  6. 以 root 身分,如果您使用 crm_mon 追蹤備援,應會看到 ASCS 移至其他伺服器、ERS 在該伺服器上停止,然後 ERS 移至 ASCS 原本執行的伺服器。

模擬容錯移轉

模擬主要主機的失敗情況,測試叢集。在發布系統供使用前,請使用測試系統或在正式版系統上執行測試。

您可以透過多種方式模擬失敗,包括:

  • ip link set eth0 down
  • echo c > /proc/sysrq-trigger

這些操作說明會使用 ip link set eth0 down 將網路介面移至離線狀態,因為它會驗證容錯移轉和圍欄。

  1. 備份系統。

  2. 以主機上的有效 SCS 例項的 root 身分,將網路介面設為離線:

    $ ip link set eth0 down
  3. 使用 SSH 重新連線至任一主機,並切換到超級使用者。

  4. 輸入 pcs status 以確認主要主機已在包含次要主機的 VM 中啟用。自動重新啟動功能會在叢集中啟用,因此已停止的主機會重新啟動,並假設為次要主機的角色,如以下範例所示。

     Stack: corosync
      Current DC: nw-ha-vm-1 (version 1.1.23-1.el7_9.1-9acf116022) - partition with quorum
      Last updated: Wed Apr 13 05:21:21 2022
      Last change: Wed Apr 13 05:21:18 2022 by hacluster via crmd on nw-ha-vm-2
    
      2 nodes configured
      10 resource instances configured
    
      Online: [ nw-ha-vm-1 nw-ha-vm-2 ]
    
      Full list of resources:
    
      fence-nw-ha-vm-1     (stonith:fence_gce):    Started nw-ha-vm-2
      fence-nw-ha-vm-2     (stonith:fence_gce):    Started nw-ha-vm-1
       Resource Group: ascs-group
           ascs-file-system   (ocf::heartbeat:Filesystem):    Started nw-ha-vm-1
           ascs-vip   (ocf::heartbeat:IPaddr2):       Started nw-ha-vm-1
           ascs-healthcheck   (service:haproxy@AHAascs):      Started nw-ha-vm-1
           ascs-aha-instance      (ocf::heartbeat:SAPInstance):   Started nw-ha-vm-1
       Resource Group: ers-group
           ers-file-system    (ocf::heartbeat:Filesystem):    Started nw-ha-vm-2
           ers-vip    (ocf::heartbeat:IPaddr2):       Started nw-ha-vm-2
           ers-healthcheck    (service:haproxy@AHAers):       Started nw-ha-vm-2
           ers-aha-instance       (ocf::heartbeat:SAPInstance):   Started nw-ha-vm-2
    
      Migration Summary:
      * Node nw-ha-vm-1:
      * Node nw-ha-vm-2:

確認鎖定項目是否保留

如要確認鎖定項目在備援期間保留,請先選取 Enqueue Server 的版本分頁,然後按照程序產生鎖定項目、模擬備援,並確認 ASCS 再次啟用後鎖定項目是否保留。

ENSA1

  1. SID_LCadm 身分,在 ERS 處於啟用狀態的伺服器上,使用 enqt 程式產生鎖定項目:

    > enqt pf=/PATH_TO_PROFILE/SID_ERSERS_INSTANCE_NUMBER_ERS_VIRTUAL_HOST_NAME 11 NUMBER_OF_LOCKS
  2. SID_LCadm 身分,在啟用 ASCS 的伺服器上,確認鎖定項目是否已註冊:

    > sapcontrol -nr ASCS_INSTANCE_NUMBER -function EnqGetStatistic | grep locks_now

    如果您建立了 10 個鎖,畫面上應會顯示類似以下範例的輸出內容:

    locks_now: 10
  3. SID_LCadm 身分,在 ERS 處於啟用狀態的伺服器上,啟動 enqt 程式的監控函式 OpCode=20

    > enqt pf=/PATH_TO_PROFILE/SID_ERSERS_INSTANCE_NUMBER_ERS_VIRTUAL_HOST_NAME 20 1 1 9999

    例如:

    > enqt pf=/sapmnt/AHA/profile/AHA_ERS10_vh-ers-aha 20 1 1 9999
  4. 如果 ASCS 處於啟用狀態,請重新啟動伺服器。

    在監控伺服器上,當 Pacemaker 停止 ERS 並將其移至其他伺服器時,您應該會看到類似以下的輸出內容。

    Number of selected entries: 10
    Number of selected entries: 10
    Number of selected entries: 10
    Number of selected entries: 10
    Number of selected entries: 10
  5. enqt 監控器停止時,請輸入 Ctrl + c 退出監控器。

  6. 您也可以在任一伺服器上以 root 身分監控叢集容錯移轉:

    # crm_mon
  7. 如同 SID_LCadm,確認鎖定後,請釋放鎖定:

    > enqt pf=/PATH_TO_PROFILE/SID_ERSERS_INSTANCE_NUMBER_ERS_VIRTUAL_HOST_NAME 12 NUMBER_OF_LOCKS
  8. SID_LCadm 身分,在啟用 ASCS 的伺服器上,確認鎖定項目是否已移除:

    > sapcontrol -nr ASCS_INSTANCE_NUMBER -function EnqGetStatistic | grep locks_now

ENSA2

  1. SID_LCadm 身分,在啟用 ASCS 的伺服器上,使用 enq_adm 程式產生鎖定項目:

    > enq_admin --set_locks=NUMBER_OF_LOCKS:X:DIAG::TAB:%u pf=/PATH_TO_PROFILE/SID_ASCSASCS_INSTANCE_NUMBER_ASCS_VIRTUAL_HOST_NAME
  2. SID_LCadm 身分,在啟用 ASCS 的伺服器上,確認鎖定項目是否已註冊:

    > sapcontrol -nr ASCS_INSTANCE_NUMBER -function EnqGetStatistic | grep locks_now

    如果您建立了 10 個鎖,畫面上應會顯示類似以下範例的輸出內容:

    locks_now: 10
  3. 如果 ERS 已啟用,請確認鎖定項目是否已複製:

    > sapcontrol -nr ERS_INSTANCE_NUMBER -function EnqGetStatistic | grep locks_now

    傳回的鎖定數量應與 ASCS 例項相同。

  4. 如果 ASCS 處於啟用狀態,請重新啟動伺服器。

  5. 您也可以在任一伺服器上以 root 身分監控叢集容錯移轉:

    # crm_mon
  6. SID_LCadm 身分,在重新啟動 ASCS 的伺服器上,確認鎖定項目是否已保留:

    > sapcontrol -nr ASCS_INSTANCE_NUMBER -function EnqGetStatistic | grep locks_now
  7. SID_LCadm 身分,在啟用 ERS 的伺服器上,確認已保留鎖定後,釋放鎖定:

    > enq_admin --release_locks=NUMBER_OF_LOCKS:X:DIAG::TAB:%u pf=/PATH_TO_PROFILE/SID_ERSERS_INSTANCE_NUMBER_ERS_VIRTUAL_HOST_NAME
  8. SID_LCadm 身分,在啟用 ASCS 的伺服器上,確認鎖定項目是否已移除:

    > sapcontrol -nr ASCS_INSTANCE_NUMBER -function EnqGetStatistic | grep locks_now

    您應該會看到類似以下範例的輸出內容:

    locks_now: 0

模擬 Compute Engine 維護作業

模擬 Compute Engine 維護事件,確保即時遷移不會觸發備援作業。

這些指令中使用的逾時和間隔值會計算即時遷移的時間長度。如果在叢集設定中使用較短的值,即時遷移可能會觸發備援機制,風險也會隨之增加。

如要測試叢集的即時遷移容錯值,請按照下列步驟操作:

  1. 在主要節點上,使用下列 gcloud CLI 指令觸發模擬維護作業事件:

    $ gcloud compute instances simulate-maintenance-event PRIMARY_VM_NAME
  2. 確認主要節點不會變更:

    $ pcs status

評估 SAP NetWeaver 工作負載

如要自動為在 Google Cloud上執行的 SAP NetWeaver 高可用性工作負載進行持續驗證檢查,您可以使用Workload Manager

您可以使用 Workload Manager,根據 SAP、 Google Cloud和作業系統供應商的最佳做法,自動掃描及評估 SAP NetWeaver 高可用性工作負載。這有助於改善工作負載的品質、效能和可靠性。

如要瞭解 Workload Manager 支援的最佳做法,以便評估在 Google Cloud上執行的 SAP NetWeaver 高可用性工作負載,請參閱「Workload Manager 適用於 SAP 的最佳做法」。如要瞭解如何使用 Workload Manager 建立及執行評估作業,請參閱「建立並執行評估作業」。

疑難排解

如要排解 SAP NetWeaver 高可用性設定的問題,請參閱「排解 SAP 高可用性設定問題」。

收集 SAP NetWeaver 高可用性叢集的診斷資訊

如需協助解決 SAP NetWeaver 高可用性叢集的問題,請收集必要的診斷資訊,然後與 Cloud Customer Care 團隊聯絡。

如要收集診斷資訊,請參閱「RHEL 高可用性叢集的診斷資訊」。

支援

如果是基礎架構或服務相關問題,請與客戶服務團隊聯絡。 Google Cloud 您可以在 Google Cloud 控制台的「支援總覽」頁面中找到聯絡資訊。如果客戶服務團隊判定問題出在 SAP 系統,就會將您轉介給 SAP 支援團隊。

如要進一步瞭解 SAP 產品相關問題,請使用 SAP 支援登錄您的支援要求。SAP 會評估支援票證,如確定為 Google Cloud基礎架構方面的問題,就會將票證轉移至系統中的適當Google Cloud 元件:BC-OP-LNX-GOOGLEBC-OP-NT-GOOGLE

支援相關規定

您必須符合支援方案的最低需求,才能獲得 SAP 系統和Google Cloud基礎架構和服務的支援服務。

如要進一步瞭解Google Cloud上 SAP 的最低支援需求,請參閱:

執行部署後工作

使用 SAP NetWeaver 系統前,建議您備份新的 SAP NetWeaver HA 系統。

詳情請參閱 SAP NetWeaver 作業指南

後續步驟

如要進一步瞭解高可用性、SAP NetWeaver 和 Google Cloud,請參閱下列資源: