使用 Looker 推出對話內容分析的最佳做法

對話式數據分析可讓使用者在 Looker 執行個體中,以自然語言提問,查詢 LookML 中建立模型的資料。

本指南提供策略和最佳做法,協助 Looker 管理員和 LookML 開發人員順利設定、部署及最佳化對話式分析。本指南涵蓋下列主題:

準備好 LookML 模型和對話式數據分析後,就能提高使用者採用率,並確保使用者獲得準確實用的問題解答。

瞭解 Gemini for Google Cloud 如何使用您的資料,以及使用時機

對話內容分析的 LookML 最佳做法

對話式數據分析會運用兩項主要輸入內容,解讀自然語言問題:

  1. LookML 模型:對話式 Analytics 會分析 Looker 探索中定義的結構、欄位 (維度、指標)、標籤和說明。

  2. 不重複的欄位值:對話式 Analytics 會檢查欄位中的資料值 (具體來說是字串維度),找出使用者可能會詢問的可用類別和實體。基數 (不重複值的數量) 可能會影響這些值的使用方式。

對話式分析功能十分強大,但成效直接取決於這兩項輸入內容的品質和清晰度。下表列出 LookML 不清楚或模稜兩可時,對對話式數據分析造成的常見負面影響,以及改善輸出內容和使用者體驗的解決方案。

常見的 LookML 品質問題 解決方案:提升對話式數據分析的清晰度
不清楚:如果欄位沒有清楚的標籤或說明,對話式數據分析和使用者都會感到模稜兩可。 使用清楚的標籤:使用 label 參數為欄位提供直覺易懂的名稱,方便使用者在問題中引用。
欄位膨脹:公開過多欄位 (尤其是內部 ID (主鍵)、從聯結繼承的重複欄位,或中間計算欄位),可能會導致對話式數據分析可用的選項過於雜亂。 隱藏不相關的欄位:請務必隱藏所有主鍵、外鍵、聯結中的多餘欄位,以及純技術欄位。

(選用) 擴充探索:如果探索包含大量欄位,建議您建立擴充現有探索的新探索。這樣一來,您就能為對話式 Analytics 量身打造熱門內容的專屬版本,而不必修改其他內容可能依賴的探索。
命名衝突:如果「探索」中不同檢視畫面有多個名稱或標籤相似或相同的欄位,可能會導致選取錯誤的欄位。 撰寫詳盡的說明:說明可為對話式數據分析提供重要背景資訊。使用 description 參數執行下列工作:
  • 使用自然語言清楚描述欄位。
  • 加入公司或產業專屬的術語或同義詞。
  • 說明計算方式或背景資訊。對話式數據分析會使用說明,更準確地識別欄位意義並對應使用者用語。

舉例來說,標籤為 user_count 的欄位可能會有「造訪網站的不重複使用者總數」說明。

統一命名:檢查欄位名稱和標籤,確保一致性和清楚明瞭。
隱藏的複雜性:如果過度依賴資訊主頁層級的自訂欄位或表格計算,對話式分析就可能無法存取重要的業務邏輯。 納入自訂邏輯:找出重要且常用的自訂欄位表格計算。將這些欄位的邏輯轉換為 LookML 維度和指標,供對話式分析使用。
資料雜亂:下列類型的不一致或結構不良資料,會導致對話式分析難以準確解讀查詢。
  • 值變化:大小寫或命名慣例不一致 (例如值 completeCompleteCOMPLETE 混用),可能會導致對話式數據分析中的資料重複或資料關係不正確。
  • 資料類型不一致:如果資料欄應為數值,但偶爾包含字串值,系統會強制將欄位類型設為 string,導致無法執行數值運算。
  • 時區不明確:時間戳記欄位缺少標準化時區,可能會導致篩選或彙整結果不正確。
解決地址資料品質問題:盡可能標記資料管理期間發現的資料品質問題 (不一致的值、類型、時區)。與資料工程團隊合作,清理來源資料,或在 ETL/資料建模層套用轉換。

如要進一步瞭解如何編寫簡潔有效率的 LookML,請參閱下列說明文件:

何時應在 LookML 中新增背景資訊,而非在對話內容分析中新增

在對話式 Analytics 中,您可以將欄位同義字和說明等背景資訊輸入內容,新增至 LookML 和代理程式指令。決定要在何處新增脈絡時,請套用下列指引:一律為 true 的脈絡應直接新增至 LookML 模型。Looker 探索功能可用於多個位置,包括資訊主頁和對話式數據分析,因此在 LookML 中套用的內容必須適用於所有可能與資料互動的使用者。

代理程式內容應為質性,並以使用者為中心,且一個探索中可有多個代理程式為不同使用者提供服務。以下列舉應納入代理程式指令,但不應納入 LookML 的情境:

  • 與代理互動的使用者是誰?What is their role? 是公司內部還是外部人員?他們先前的分析經驗為何?
  • 使用者的目標是什麼?對話結束時,他們想做出哪種決定?
  • 這位使用者會提出哪些類型的問題?
  • 這個使用者有哪些專屬的頂尖領域?使用者永遠不需要使用的欄位有哪些?

本指南建議您分階段在 Looker 中導入對話式數據分析:

這種做法可讓您從受控的小範圍開始,驗證設定,然後擴展至更多使用者和資料。

第 1 階段:管理資料並定義初始範圍

在這個階段,請準備好資料,供使用者透過對話式數據分析查詢,並定義初始部署的範圍。如要從小規模且受控的範圍開始,請按照下列建議操作:

  • 限制初始使用者存取權:如要進行內部測試和驗證,請使用 Looker 的權限系統,將 Gemini 角色授予一小群熟悉資料的使用者。
  • 限制 Gemini 的 Looker 模型存取權:授予 Gemini 角色時,您也可以限制 Gemini 可存取的模型。首先,請考慮將 Gemini 存取權限制為一或兩個模型,這些模型是您為對話式數據分析精選的。
  • 選取精選的探索:先從一或兩個結構良好的探索開始,這些探索應以相對乾淨的資料為基礎,並提供明確的商業價值。請按照「對話內容分析的 LookML 最佳做法」中的詳細操作說明,在 Looker 中針對對話內容分析最佳化這些探索。

第 2 階段:設定代理程式並在內部驗證

在這個階段,請建構及調整對話式數據分析代理程式,然後與內部使用者進行全面測試,確認準確度和有效性。這個階段包含下列步驟:

  1. 建立精選代理程式:建立對話式 Analytics 代理程式,這類代理程式只會根據您在精選和初始設定階段準備的精選探索建立。
  2. 使用代理程式指令調整:使用代理程式指令提供額外背景資訊和進一步指引。例如:

    • 定義欄位名稱或值的同義字。
    • 針對特定欄位的使用方式提供具體情境或規則。
  3. 進行內部驗證並反覆測試:請熟悉資料的使用者徹底測試代理程式。提出各種問題、測試極端情況,並找出弱點。根據測試結果進行下列變更:

    1. 修正 LookML。舉例來說,您可以調整 labeldescriptionhidden LookML 參數的值。
    2. 調整代理程式指令。
    3. 繼續標記資料品質問題。

第 3 階段:向更多使用者開放對話式數據分析

在這個階段,請授予存取權、收集意見回饋,並反覆調整代理程式,讓更多使用者採用對話式數據分析。這個階段包含下列步驟:

  1. 授予目標存取權:將對話式數據分析存取權授予具備 Gemini 角色的其他使用者,並鼓勵這些使用者使用您建立的特定代理程式 (已通過審查)。
  2. 發布並收集意見回饋:主動徵求有關下列主題的意見回饋:

    • 回覆準確度
    • 易用性
    • 資訊缺漏或結果含糊不清
  3. 持續疊代:根據意見回饋進一步修正 LookML 和虛擬服務專員指令,並優先處理資料清理工作。

  4. 擴大存取權:確認代理程式穩定且實用後,將 Gemini 角色授予其他相關使用者群組,並推出新的精選代理程式。您也可以按照先前階段使用的相同程序,推出新的精選代理程式,並擴大 Gemini 角色可用的模型存取權。