突發流量限制

本文說明適用於 Google Security Operations 資源的突發流量限制,特別是單一客戶可將多少資料攝入 Google SecOps。爆量限制會限制所有客戶共用的資源用量:

  • 單一客戶可使用的資料攝入量上限。這可確保單一客戶的資料突然大量湧入時,不會影響其他客戶。
  • 監控每位客戶共用資源的使用情形。
  • 維護自動強制執行短暫流量限制的設定。
  • 提供要求或變更突發流量限制的方法。

針對電湧保護,爆發量限制會以 5 分鐘為單位進行測量。這不是每日擷取限制。

每位顧客的突發流量上限增加

如果您打算迅速提高擷取率,我們可以協助您事先規劃,確保資料擷取作業維持穩定。如要申請提高爆量上限,請提前與 Google SecOps 技術支援團隊聯絡。

爆發上限簡介

突發限制會限制單一客戶可傳送至 Google SecOps 的資料量。這麼做可確保公平性,並避免因單一客戶的擷取量激增而影響其他客戶。爆量限制可確保客戶資料擷取作業順利進行,並可透過支援單主動調整。為套用突發限制,Google SecOps 會根據攝入量使用下列分類:

突發流量限制 每年等效資料量上限 (每秒爆發上限)
20 MBps 600 TB
88 MBps 2.8 PB
350 MB/s 11 PB
886 MBps 28 PB
2.6 GBps 82 PB

以下規範適用於短時間大量傳輸限制:

  • 當達到突發上限時,應將正確設定的攝入來源設為緩衝額外資料。不應設定為捨棄資料。

    • 對於以拉取為基礎的攝入作業 (例如 Google Cloud 和 API 動態饋給),系統會自動緩衝攝入作業,不需要額外設定。
    • 針對推送式擷取方法 (例如轉送器、網址連結和 API 擷取),請設定系統在達到突發限制時自動重新傳送資料。如果是 Bindplane 和 Cribl 等系統,請設定緩衝區,以便有效處理資料溢位。
  • 在達到突發上限之前,您可以提高上限。

  • 如要判斷是否即將達到短暫流量上限,請參閱「查看短暫流量用量」。

查看突發流量限制用量

您可以使用 Google SecOps 或 Cloud Monitoring 查看突發流量限制用量。

使用 Google SecOps 資訊主頁查看突發流量限制

如要查看限制用量,請在 Google SecOps 資料攝入和健康狀況資訊主頁中使用下列圖表:

  • 攝入限制圖表:顯示攝入速率與每秒限制。
  • Burst Rejection Graph:顯示因超出突發限制而遭到拒絕的記錄數量。

如要查看「突發限制圖表」和「突發拒絕圖表」的視覺化呈現,請按照下列步驟操作:

  1. 在 Google SecOps 選單中,選取「資訊主頁」
  2. 在「預設資訊主頁」專區中,選取「資料攝入和健康」

    在隨即顯示的「資料攝入和健康」資訊主頁中,您可以查看「突發限制圖表」和「突發拒絕圖表」的視覺化呈現。

使用 Cloud Monitoring 查看突發限制

如要在 Google Cloud 控制台中查看 Google SecOps 突發流量限制,您需要具備與任何 Google Cloud 限制相同的權限。詳情請參閱「授予 Cloud Monitoring 存取權」。

如要瞭解如何使用圖表查看指標,請參閱「使用 Metrics Explorer 建立圖表」一文。

如要查看爆量限制用量,請使用下列 PromQL 查詢:

100 * sum(rate(chronicle_googleapis_com:ingestion_log_bytes_count
{monitored_resource="chronicle.googleapis.com/Collector"}[10m]))/min(min_over_time(chronicle_googleapis_com:ingestion_quota_limit{monitored_resource="chronicle.googleapis.com/Collector"}[10m]))

如要查看超過爆量限制後遭拒絕的位元組數,請使用下列 PromQL 查詢:

sum(rate(chronicle_googleapis_com:ingestion_log_quota_rejected_bytes_count{monitored_resource="chronicle.googleapis.com/Collector"}[15m]))

如要在擷取的位元組超過爆發限制的 70% 時建立快訊,請使用下列 PromQL 查詢:

100 * sum(rate(chronicle_googleapis_com:ingestion_log_bytes_count
{monitored_resource="chronicle.googleapis.com/Collector"}[10m]))/
min(min_over_time(chronicle_googleapis_com:ingestion_quota_limit{monitored_resource="chronicle.googleapis.com/Collector"}[10m])) > 70

在擷取來源處緩衝資料

下表說明如何設定,以便緩衝 (而非捨棄) 企業資料,這取決於擷取來源。

擷取來源 緩衝設定
Google Cloud 和 Chronicle API 動態饋給 自動提供緩衝功能
轉送站、Webhook 和 API 攝入 設定重試
BindplaneCribl轉發器 設定永久佇列

疑難排解

下列指南可協助您避免超出短暫流量上限:

  • 建立擷取快訊,在擷取的位元組數量超過突發上限門檻時通知您。如要進一步瞭解如何設定擷取警報,請參閱「使用 Cloud Monitoring 擷取通知」。
  • 如要找出擷取來源和擷取量,請使用 collector_idlog_type 搭配指標 chronicle.googleapis.com/ingestion/log/bytes_count 建立監控快訊。如要找出擷取來源和擷取量,請使用下列 PromQL 查詢:

    sum by (collector_id,log_type)(rate(chronicle_googleapis_com:ingestion_log_bytes_count{monitored_resource="chronicle.googleapis.com/Collector"}[5m]))
    
  • 如果您預期攝取量會增加到平常攝取量的四倍以上,請提前與 Google SecOps 技術支援團隊聯絡,以便提高峰值限制。

  • 如果您使用 Google SecOps 轉送器擷取資料,當您超過突發上限時,可以使用磁碟緩衝區來緩衝資料。詳情請參閱「為轉送器使用磁碟緩衝區」。

下表列出擷取方法,以及達到峰值限制時需要採取的對應動作:

擷取模式 建議採取的行動
Ingestion API 等到爆量上限降到原先的數值。如果您想提早恢復攝入,請與 Google SecOps 技術支援團隊聯絡。
動態饋給管理 等到爆量上限降到原先的數值。如果您想提早恢復攝入,請與 Google SecOps 技術支援團隊聯絡。
轉送站 當您超過突發限制時,請使用磁碟緩衝區來緩衝資料。
使用 Amazon Data Kinesis、Pub/Sub 或 webhook 的 HTTPS 推送擷取。 請務必將保留時間設為可用的最大值。舉例來說,如要設定 Pub/Sub 的保留時間,請參閱「設定訂閱訊息保留時間」一文。

使用轉送器的磁碟緩衝區

如果您使用 Google SecOps SIEM 轉送器,建議您在超出突發限制時,開始使用磁碟緩衝區來緩衝資料。收集器使用的 RAM 大小上限為 4 GB。您可以使用收集器設定中的 max_file_buffer_bytes 設定來設定此限制。如要緩衝超過 4 GB 的資料,請使用磁碟緩衝區。如要決定磁碟緩衝區大小,請使用下列 MQL 查詢,找出轉發器擷取資料的速度:

sum(rate(chronicle_googleapis_com:ingestion_log_bytes_count
{monitored_resource="chronicle.googleapis.com/Collector", collector_id!~ "
(aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa
|bbbbbbbb-bbbb-bbbb-bbbb-bbbbbbbbbbbb
|cccccccc-cccc-cccc-cccc-cccccccccccc
|dddddddd-dddd-dddd-dddd-dddddddddddd
|aaaa2222-aaaa-2222-aaaa-2222aaaa2222)"}[5m]))

舉例來說,如果轉發器的擷取率為 415 Kbps,緩衝區壓縮效率為 70%,則緩衝區填滿率的計算方式為 415 Kbps x (100% - 70%) = 124.5 Kbps。以這個速度來說,緩衝區大小為 1 GB (這是記憶體內預設緩衝區值),會在 2 小時 20 分鐘內填滿。計算方式為 1024 x 1024 / 124.5 = 8422.297 秒 = 2 小時 20 分鐘。如果您已超過短暫流量上限,就需要 100 GB 的磁碟空間,才能緩衝一天的資料。

常見問題

超出突發上限時會觸發什麼錯誤?

超過短暫流量限制時,您會收到 HTTP 429 錯誤。

如何解決 HTTP 429 錯誤?

請在五分鐘後重試要求。

短暫流量限制的更新頻率為何?

爆發上限會每五分鐘更新一次。