首頁 > 藝術

【資料探勘】資料的離散程度是什麼意思?資料散差是什麼意思???

由 決策不拍頭 發表于 藝術2021-05-08

簡介我們已經知道,方差和標準差其實反映的是資料離散的絕對程度

資料散差是什麼意思

資料的離散程度,也是衡量資料分佈的一個方面,它主要指各個變數和中心位置是相距多遠的一個度量。

也就是說,資料的離散程度越大,那麼集中趨勢的這個指標的代表性就越差。

在統計學中,這7個度量指標,讓你更好地衡量資料的離散程度

根據不同的資料型別,離散程度主要有以下幾個測度值:

異眾比率

異眾比率,適用於類別型資料。它指的是非眾陣列的頻數佔總的頻數的比例。計算公式如下:

在統計學中,這7個度量指標,讓你更好地衡量資料的離散程度

∑f[i]是總頻數,f[m]是眾陣列的頻數

從公式中不難看出,異眾比率越大,說明眾數的代表性越差,反之亦然。

四分位差

四分位差又叫內距,它指的是上四分位數和下四分位數的差,用公式可以表示為:

在統計學中,這7個度量指標,讓你更好地衡量資料的離散程度

Q[U]是上四分位數,Q[L]是下四分位數

簡單的說,四分位差主要反映的是中間那50%部分資料的離散程度。

從公式中也能看出,四分位差越大,說明中間這部分資料越分散。

需要注意的是,四分位差主要適用於測量順序型資料的離散程度,一般並不適合用於分型別資料。

極差

極差,顧名思義,就是指一組資料的最大值和最小值的差。也可以稱之為全距,用公式表示就是:

在統計學中,這7個度量指標,讓你更好地衡量資料的離散程度

公式很簡單,也很方便理解。但由於只計算了資料兩端的差值,並不能很好的反映資料的離散程度,一般很少使用這個指標。

平均差

平均差,又稱之為平均絕對離差。它是每個變數和平均值之間差的絕對值的平均數,看起來有點繞,不過用公式表示就很清晰了,如下:

在統計學中,這7個度量指標,讓你更好地衡量資料的離散程度

n為資料個數

為什麼公式中要用絕對值呢?因為如果去掉絕對值的話,那麼離差之和就是0了,沒有意義。

平均差的實際意義也很明確,平均差越大,表示資料的離散程度越大。

方差和標準差

方差

方差和平均差很類似,只不過是將平均差中的絕對值換成了平方數。也就是說,方差是各個變數和平均數之間離差的平方的平均數。用公式可以表示為:

在統計學中,這7個度量指標,讓你更好地衡量資料的離散程度

n為資料個數

分母n-1又稱為自由度,那為什麼要減去1呢?因為我們通常拿到的都是樣本,如果是總體資料計算方差的話,可以不用減1。

標準差

標準差更簡單,就是方差的平方根,公式表示如下:

在統計學中,這7個度量指標,讓你更好地衡量資料的離散程度

但標準差的實際意義要比方差更清晰,因為它有根號,因此它的計量單位和原來資料的單位是一致的,更便於我們進行分析。因此,它應用的範圍是很廣的。

標準分數

標準分數由平均數和標準差計算得來,主要用來衡量每個變數的相對位置,同時也能看出離群點資料。它也可以叫做z分數,用公式表示為:

在統計學中,這7個度量指標,讓你更好地衡量資料的離散程度

從公式中可以看出,z分數的計算方式是變數值與平均數的差,再除以標準差。

z分數有一個特點,就是平均數為0,標準差為1。它並沒有改變資料的相對位置,只是縮放了數值的大小。

經驗法則

當資料是對稱分佈(正態分佈)時,我們通常有一個經驗法則:

大約有68%的資料在平均數±1個標準差的範圍內;

大約有95%的資料在平均數±2個標準差的範圍內;

大約有99%的資料在平均數±3個標準差的範圍內。

我們把3個標準差之外的資料就叫做離群點,透過這個經驗法則,我們可以很快的判斷出離群點,便於資料處理。

切比雪夫不等式

真實世界中的資料大部分都不是對稱分佈的,經驗法則就失效了,此時就可以用切比雪夫不等式來判斷,它適用於任何型別的資料分佈。

切比雪夫不等式是說,對於任意分佈的資料,至少有(1-1/k²)的資料落在±k個標準差之內,其中k是大於1的任意數(不一定是整數)。

那麼,當k=2,3,4時,我們可以得到:

至少有75%的資料落在平均數±2個標準差的範圍內;

至少有89%的資料落在平均數±3個標準差的範圍內;

至少有94%的資料落在平均數±4個標準差的範圍內。

離散係數

離散係數反映了資料離散的相對程度。

我們已經知道,方差和標準差其實反映的是資料離散的絕對程度。他們數值的大小跟原來各個變數值的大小有關,或者說,跟原來的平均數的大小有關。也就是說,原來變數值大的,最後得到的方差和標準差也就大。

另外,如果原來不同組資料變數的單位不同,那麼最後得到的方差和標準差也就不同。

為了消除絕對值大小和計量單位對離散程度測量的影響,就引入了離散係數這個指標。它的計算公式如下:

在統計學中,這7個度量指標,讓你更好地衡量資料的離散程度

可以看到,離散係數的計算方式很簡單,就是用該組資料的標準差除以平均值,這樣一來就可以消除上面說過的兩種影響。

同時,從公式中也可以看出,離散係數大,資料的離散程度就大;離散係數小,離散程度就小。

以上介紹的極差、平均差、方差、標準差、離散係數,都適用於數值型的資料。

關於離散程度的7個度量指標就介紹到這裡了,覺得有用的話就點贊轉發分享吧,謝謝!

Tags:標準差離散資料平均數方差