已經有很多關於執行 A/B 測試的優良材料,但要搜尋它們以找到基本問題的正確解釋卻非常困難。以下是一份簡短指南,僅涵蓋您需要的基本資訊 - 步驟、概念和必備術語。它更針對剛開始進行實驗的初級分析師,但也可以用作快速提取資訊(例如顯著性計算器)的資源。因此,請將該清單放在手邊,並在需要時重新閱讀。
進行產品實驗的步驟
您可以測試它嗎?
您無法對每件小事進行 A/B 測試。新的體驗或新產品發布無法透過 A/B 測試執行(請參閱 - 如何衡量產品採用率)。潛在偏差 - 新奇效應或變更厭惡。
建立假設
您為什麼要執行實驗?投資報酬率是多少?現在是執行測試的好時機嗎?考慮季節性、新版本發布、未解決的錯誤等。設定您期望的比率 - 這是您的最小可偵測效應 (MDE)。為什麼您需要 MDE?這是控制組和變異組之間最小的可接受差異。如果變異組比控制組好 0.0001%,您仍然想執行測試嗎?這值得成本和時間嗎?
最終確定您的指標集
對於 A/B 分析,我使用一組 3 個指標
- 成功指標;
- 生態系統指標(公司 KPI);
- 權衡指標;
更多說明請參閱此處 - 如何選擇正確的指標。
計算樣本大小
- 設定您的顯著性、信賴區間和檢定力。
- 您的組別實驗大小應相同。
- 您的樣本應隨機分佈。識別流量、裝置、回訪使用者等。與工程團隊合作進行測試,並確保隨機化演算法按預期運作(雜湊、叢集、樣本分層?)。
- 確保沒有因其他正在執行的測試而引入偏差。
執行測試
執行測試直到達到顯著性。監控測試時間軸和事件。
評估結果
- 執行健全性檢查。控制指標和轉換應與基準線一致。如果它們不一致,請質疑測試設定。
- 檢查樣本變異數和分佈。
- 執行抽查。從控制組和變異組樣本中挑選一些使用者並檢查他們,以確保他們是隨機的,不與其他測試重疊,並且符合測試要求。
- 如果結果與您預期的不符,請考慮潛在的偏差 - 新奇效應、學習效應、網路效應。
得出結論
向產品負責人提供關於後續步驟的建議。
注意事項
- 首先執行A/A 測試。它可以幫助您檢查軟體、外部因素和自然變異數。您需要知道樣本變異數才能估計顯著性水平和統計檢定力。
- 不要選擇太敏感(瀏覽次數)或太穩健(第 7 天或第 30 天留存率)的指標。它們沒有幫助,而且往往會誤導您。最佳測試指標會顯示結果的變化,並且在其他事件發生時不會有太大波動。
- 不要將實驗執行太長時間,因為您可能會遇到資料污染 - 多個裝置、Cookie 和其他外部因素影響您的結果的效應。
- 也不要將實驗執行時間太短,因為您可能會得到誤報(回歸平均值)。換句話說,當變數最初是極端的,但隨後會更接近平均值。
- 在引入新變更時,請在較小的樣本上執行較長時間的測試,以消除新奇或學習效應偏差。
📢 使用此計算器或此計算器來確定實驗所需的樣本大小。
📢 使用此計算器來評估您的測試顯著性和結果。
統計術語
為了進行 A/B 測試,您可以考慮虛無假設檢定並應用以下術語
- P 值 - 假設虛無假設為真,看到特定結果的機率是多少?如果資料位於「非預期」區域,我們將拒絕虛無假設。
- 統計顯著性(或顯著性水平,alpha)是在不存在效應時看到效應的機率(誤報)。
- 統計檢定力(或 1-beta)是在效應確實存在時看到效應的機率。
- 信賴區間是允許的誤差數量或估計可靠性的度量:CI 越小,結果越準確。
- z 分數是與平均值的標準差數量。在我的每週電子報和建議專欄「Data Analysis Journal」中閱讀更多關於資料分析的指南和教學。
在我的每週電子報和建議專欄中閱讀更多關於資料分析的指南和教學 - Data Analysis Journal。