首頁 > 運動

資料分析入門之:三類資料統計分析策略(下)

由 學掌門 發表于 運動2021-06-19

簡介05,說明我們應該拒絕原假設,換句話說,我們認為學生的性別與其是否被錄取是相關的

縱軸表示什麼

資料分析入門之:三類資料統計分析策略(下)

上期,我們跟大家分享了了資料統計分析策略中的描述性統計分析,和部分探索性統計分析的相關內容,今天,我們接著為大家分享探索性統計分析的內容和推斷性統計分析的內容。

接下來,我們繼續講探索性統計分析策略的案例。

案例3

:探索某電商的交易量,在PC端和移動端之間的比例變化

為了清晰的展現交易量在PC端和移動端之間的比例變化,我們可以選擇百分比堆疊條形圖,將所有條形高度都標準化到100%,來展示資料佔比。

資料分析入門之:三類資料統計分析策略(下)

透過整理電商企業各埠的資料,我們可以得到上圖這樣的堆疊條形圖。其中,橫軸代表2014-2016年的各個季度,縱軸代表佔比,圖形的上半部分代表移動端,下半部分代表PC端。

透過圖片,我們可以直觀的看到,移動端的交易量在迅速擴張,PC端的資料量則是呈現逐年遞減的趨勢。由此我們不難發現,自2014年到2016年3年間,電商行業的交易方式,逐漸由電腦操作過渡到了手機交易。

03

推斷性統計分析

1)釋義

按照百度詞條的解釋:推斷統計學是指,以機率論為基礎,用隨機樣本的數量特徵資訊,來推斷總體的數量特徵,作出具有一定可靠性保證的估計或檢驗。

推斷性統計分析非常經典,但操作起來相對較難。相比探索性統計分析,它更加側重於尋找定量的答案,通常是計算統計量和對應的機率P值。

一般情況下,如果機率P值:

P<0。05,則需要拒絕原假設;

P≥0。05,則需要接受原假設。

(注:0。05為預設的對比值。原假設即假設事件成立的情況,如樣本均值等於某個值,兩屬性之間不相關,則樣本服從正態分佈,需要拒絕原假設;反之則需要接受原假設)

2)案例

為了便於大家理解,我們還是透過小例子,給大家闡述相關的內容。案例如下

(1)透過t檢驗,推斷兩樣本間的均值,是否存在差異;

(2)透過卡方檢驗和Pearso相關性檢驗,推斷樣本的兩個屬性是否不相關;

(3)透過Shapiro正態性檢驗,推斷樣本是否服從正態性分佈。

下面,我們逐一給大家做相應的介紹。

(1)t檢驗

t檢驗也稱為均值檢驗。該方法主要是透過驗證樣本的均值,從而判斷樣本是否滿足某個常數;或者判斷兩樣本之間的均值,是否存在差異。

舉個栗子:假設某品牌充電寶電容量標註的是資料是5000毫安。那麼,我們應該如何驗證這一說法的真實性呢?這就要用到t檢驗了。我們可以透過藉助t檢驗的工具(基於Python),得到如下的電容量資料:

資料分析入門之:三類資料統計分析策略(下)

接下來,我們就需要透過資料來做驗證了。

①提出原假設與備擇假設。

H0:樣本均值為5000毫安(原假設)。

H1:樣本均值不為5000毫安(備擇假設)。

②計算統計量。

資料分析入門之:三類資料統計分析策略(下)

透過計算,我們可以發現,所得的統計量為-0。694。從資料來看,我們不能直接說,該樣本是否滿足均值為5000毫安。由此,我們還需要對P值進行計算。

③對比機率P值,下結論。

P=0.5019915686890506

結果顯示,P>0。05,說明不能拒絕原假設。也就是說,樣本均值為5000毫安的說法是正確的。這也說明,該商品不存在虛假宣傳的問題。

(2)卡方檢驗和Pearson相關性檢驗

我們都知道,卡方檢驗主要用於驗證兩個離散型變數之間的獨立性;而Pearson相關性檢驗,則是用於驗證兩個數值型變數之間的獨立性。這二者既是相互獨立的,也是互為補充的。下面,我們透過兩組資料來給大傢俱體解釋他們的特點。

下面,我們來逐一解釋這兩種檢驗。下圖是:三某班級學生的性別與其是否被大學錄取的資料圖。我們透過卡方檢驗來做驗證。

資料分析入門之:三類資料統計分析策略(下)

接下來,我們還是透過資料計算,來得出進一步的結論。

①提出原假設與備擇假設。

H0:學生的性別與其是否被錄取相互獨立。

H1:學生的性別與其是否被錄取不相互獨立。

②計算統計量。

從下圖我們能看到,卡方檢驗的統計量為4。86。接下來,我們藉助P值來判斷結果。

資料分析入門之:三類資料統計分析策略(下)

③對比機率P值,下結論。

P=0.02750150730030855

由此,我們發現,P<0。05,說明我們應該拒絕原假設,換句話說,我們認為學生的性別與其是否被錄取是相關的。

緊接著,我們透過Pearson相關性檢驗,來判斷汽車速度與剎車距離是否呈現的相關性。

資料分析入門之:三類資料統計分析策略(下)

具體步驟如下:

1)提出原假設與備擇假設。

H0:汽車速度與剎車距離不相關。

H1:汽車速度與剎車距離相關。

2)計算統計量。

資料分析入門之:三類資料統計分析策略(下)

結果顯示,汽車速度與剎車距離之間的Pearson相關係數為0。807,說明兩者之間存在很強的相關性,為進一步驗證這個結論,可以計算機率P值。

3)對比機率P值,下結論。

P=1.4898364962950702e-12

透過計算,我們可以發現,P<0。05,說明我們應該拒絕原假設,換句話說,我們認為汽車速度與剎車距離之間強相關性是正確的。

(3)Shapiro正態性檢驗

接下來,我們來說說Shapiro檢驗。對於正態性的樣本,我們在做檢驗時,可以使用Shapiro檢驗方法。當然,我們通常要求樣本數量在5000以內,如果樣本量在5000以上,可以使用KS檢驗方法。

下面,我們以Titanic乘客的年齡資料為例,來驗證其是否服從正態性分佈。

1)提出原假設與備擇假設。

H0:乘客的年齡資料服從正態性分佈。

H1:乘客的年齡資料不服從正態性分佈。

2)計算統計量。

資料分析入門之:三類資料統計分析策略(下)

透過計算,我們可以得出Shapiro檢驗的統計量為0。981。接下來,我們就需要透過計算,來得出明確的結論。

3)對比機率P值,下結論。

P=7.322165629375377e-08

透過計算,我們可以發現,P<0。05。所以我們應該拒絕原假設,換句話說,我們認為Titanic乘客的年齡並不服從正態性分佈。

寫在最後

綜上,我們給大家分享了三類資料統計分析策略。結合案例分析,我們不難發現,在資料分析過程中,我們不僅要透過探索方法,對資料結論或者業務走向,做到心中有“數;還要透過深入研究,讓資料背後的隱藏價值,客觀、直接的展現在從業者的面前,為我們後續給企業,給領導層提出相應的決策,提供有力地支撐。

Tags:檢驗假設我們統計分析正態性