首頁 > 遊戲

統計學| ab測試的結果分析:如何對ab測試的實驗結果進行進行分析?

由 ZZ資料分析 發表于 遊戲2021-06-01

簡介實驗結果分析當我們提出假設,並且構造完統計量之後,我們就要進行決策了,在統計學中,進行決策通常有兩種方式:一種是將統計量的值與給定顯著性水平下統計量的分佈的臨界值作比較,以此來判斷是否接受原假設

置信區間可以為負嗎

我是ZZ,點選上方“關注”,每天為你分享資料分析乾貨;私信我回複數字01,送你一份新手入門資料分析大禮包。

在上一篇文章

統計學(2)|A/B測試—理論基礎

中,我們理清了AB測試的理論基礎——

假設檢驗

的思想,並且嚴格推導了為什麼現在公司做AB測試基本全都使用

統計量。這篇文章,我們來介紹一下如何對AB測試的實驗結果進行分析。在進行結果分析之前,我們先簡單回顧一下假設檢驗的相關知識。

1。假設檢驗

1。1 假設檢驗的定義

假設檢驗是先對總體的引數提出某種假設,然後利用樣本資料判斷假設是否成立的過程。

具體到A/B測試裡的假設檢驗,就是指假設實驗組的總體引數等於對照版本的總體引數,然後利用這兩個版本的樣本資料來判斷這個假設是否成立。如果樣本資料拒絕原假設,我們說檢驗的結果是顯著的;反之,我們則說結果是不顯著的。

1。2 假設檢驗的流程

提出原假設與備擇假設

構造檢驗統計量

進行決策

瞭解了假設檢驗的流程之後,我們一一介紹一下這個裡面的一些基本概念。

1。3 假設檢驗中的基本概念

1.3.1 原假設H0和備擇假設H1

我們常把沒有把握不能輕易肯定的命題作為備擇假設

,而把沒有充分理由不能輕易否定的命題作為零假設

,或者說我們將希望透過實驗結果推翻的假設記為零假設 。

原假設和備擇假設是一個完備事件組,而且相互對立。在一項假設檢驗中,原假設和備擇假設必有一個成立,而且只有一個成立。

1.3.2 檢驗統計量

在AB測試涉及的假設檢驗中,我們所構造的檢驗統計量稍微有一丟丟複雜,因為假設檢驗想要比較兩個總體引數是否存在顯著差異,所以對應的兩個樣本的統計量相比單個樣本的統計量複雜一些。但有了上一篇文章的推導之後,我們瞭解了

統計量是如何構造的,所以可以直接用一張圖來表示不同情況下對應的不同統計量的形式。

2。 實驗結果分析

當我們提出假設,並且構造完統計量之後,我們就要進行決策了,在統計學中,進行決策通常有兩種方式:

一種是將統計量的值與給定顯著性水平下統計量的分佈的臨界值作比較,以此來判斷是否接受原假設。這種根據統計量落入的區域做出是否拒絕原假設的決策。確定顯著性水平

以後,拒絕域的位置也就確定了。(顯著性水平就是我們後文中要提到的犯第一類錯誤的機率)

統計學(3)|AB測試—實驗結果分析

但實際進行AB測試時,我們使用的是以P值為主的實驗結果評估體系。

2。1 P 值

p值當原假設為真時,出現樣本觀察結果或者更極端結果出現的機率。

如果P 值很小,說明發生這種情況的機率很小,而一旦發生了,根據小機率原理,我們就有理由拒絕原假設,P 值越小,拒絕的理由越充分。

舉個例子:假設

,那我們隨機抽取一個樣本,其均值大於0 的機率就是P 值。通常,我們將P 值與事先確定的顯著性水平

進行比較,如果

,則拒絕原假設。

在實際進行AB測試時,我們需要判斷兩個不同版本之間是否存在差異,

P

值就是告訴我們兩個版本的實驗結果之間存在顯著差異的機率。

2。2。 兩類錯誤和統計功效

(1)兩類錯誤

當我們提出原假設之後,我們需要根據樣本資訊判斷原假設對不對。但是這種判斷不是百分之百對的,我們可能會犯錯誤,錯誤有兩種型別:

統計學(3)|AB測試—實驗結果分析

兩類錯誤

第 I 類錯誤(棄真錯誤):原假設為真時拒絕原假設;第 I 類錯誤的機率記為α ,也好就是我們前文提到的顯著性水平。

第 II 類錯誤(取偽錯誤):原假設為假時未拒絕原假設。第 II 類錯誤的機率記為β 。

(2)統計功效

一般情況下,我們在做假設檢驗時候,希望拒絕原假設,得到新的結論。比如我們做AB測試,我們當然希望實驗組的效果要好於對照組。也就是我們希望不要出現應該拒絕原假設時,我們卻沒有拒絕的情況,這就是剛才說的第二類錯誤。

統計功效Power 就是我們沒有犯第II類錯誤的機率1-β ,也就是原假設不成立時,被我們拒絕的機率。

實際進行AB測試時,統計功效就是,當兩個不同版本之間存在顯著差異時,實驗能正確做出存在差異判斷的機率。

該值越大則表示機率越大、功效越充分。一般來說,我們期待並設定的最低的統計功效值為80%。

2。3 置信區間

統計學中用樣本去推斷總體有兩個工具:引數估計與假設檢驗。

這裡我們稍加筆墨來介紹一下引數估計,目的是為了引出在AB測試中最關注的元素之一:置信區間。

引數估計和假設檢驗都是利用樣本對總體進行推斷。但是推斷的角度有所不同。

引數估計是用樣本統計量去估計總體引數,總體引數在估計前未知;

而假設檢驗,則是先對總體引數的值提出一個假設,然後利用樣本統計量去檢驗這個假設是否成立。

引數估計又分為點估計和區間估計。

點估計,顧名思義就是用樣本統計量的某個值作為總體引數的估計值。

區間估計,就是基於點估計,給出總體引數估計的一個區間範圍,這個區間通常由

樣本統計量加減估計誤差

得到。這個區間也就是我們所說的

置信區間,

我們給它一個官方的定義:

由樣本量所構造的總體引數的估計區間稱為

置信區間

在上文構造統計量的表格中,已經列舉出了

置信區間

的計算公式,這裡我們也不過多的介紹了。

由於置信區間是一個估計區間,但是我們不能保證它一定包含總體引數。我們只能說構造的是

一定置信水平下的置信區間

。什麼是置信水平呢?

如果將構造置信區間的步驟重複多次,置信區間所包含總體引數真值的次數所佔的比例稱為置信水平。

舉個栗子:

我們有100個樣本,由100個樣本構造了100個置信區間,其中有95%的區間包含總體引數,5%沒有包含,這個95%就是置信水平。

介紹完置信水平之後,我們就可以用一張圖來表示置信區間與置信水平:

統計學(3)|AB測試—實驗結果分析

在實際進行AB測試時,置信區間可以輔助確定版本間是否有存在顯著差異的可能性:如果置信區間上下限的值同為正或負,認為存在有顯著差異的可能性;如果同時有負值和正值,那麼則認為不存在有顯著差異的可能性。

2。4 實驗結果分析體系

在實際進行AB測試時,我們的實驗結果分析體系就是由上述的P 值、統計功效和置信區間所構成的。

(1)P值

判斷兩個不同版本的實驗結果之間存在顯著差異的機率。如果 p值<α(顯著性水平,一般取0。05),就表示存在顯著差異。

(2)統計功效

當兩個不同版本之間存在顯著差異時,實驗能正確做出存在差異判斷的機率。可以理解為我有多少的把握認為版本之間有差別。

(3)置信區間

置信區間可以輔助確定版本間是否有存在顯著差異的可能性。

綜上,我們認為當

AB測試實驗資料在95%的置信水平區間內,P值小於0.05,功效大於80%的情況下,實驗結果是可信賴的。

當然,這是一個嚴格的理想標準。在使用的實際過程中,我們會遇到多種情況,比如P值符合標準,功效還差一些,此時,我們就要根據實驗背景與經驗,具體問題具體分析。

透過這兩篇文章,整個AB測試所涉及的統計學原理,以及如何將相關統計學概念應用到AB測試實驗結果的分析中,我們已經介紹完了。之後我們會更新AB測試在實際工作中的流程,如何確定最小樣本量等內容,感興趣的可以繼續關注~

作者:ZZ資料分析,網易資深資料分析師,專注資料分析、資料科學知識分享。關注之後私信我,回覆數字“01”,送你一份資料分析師大禮包。

同系列文章:

統計學(1)|白話統計學發展(含統計學必知必會)

統計學(2)|AB測試—理論基礎

統計學(3)|AB測試—實驗結果分析(本文)

統計學(4)|AB測試—實驗流程

統計學(5)|AB測試—方差分析與卡方檢驗

Tags:假設AB置信區間假設檢驗我們