首頁 > 藝術
【資料探勘】資料的離散程度是什麼意思?資料散差是什麼意思???
由 決策不拍頭 發表于 藝術2021-05-08
簡介我們已經知道,方差和標準差其實反映的是資料離散的絕對程度
資料散差是什麼意思
資料的離散程度,也是衡量資料分佈的一個方面,它主要指各個變數和中心位置是相距多遠的一個度量。
也就是說,資料的離散程度越大,那麼集中趨勢的這個指標的代表性就越差。
根據不同的資料型別,離散程度主要有以下幾個測度值:
異眾比率
異眾比率,適用於類別型資料。它指的是非眾陣列的頻數佔總的頻數的比例。計算公式如下:
∑f[i]是總頻數,f[m]是眾陣列的頻數
從公式中不難看出,異眾比率越大,說明眾數的代表性越差,反之亦然。
四分位差
四分位差又叫內距,它指的是上四分位數和下四分位數的差,用公式可以表示為:
Q[U]是上四分位數,Q[L]是下四分位數
簡單的說,四分位差主要反映的是中間那50%部分資料的離散程度。
從公式中也能看出,四分位差越大,說明中間這部分資料越分散。
需要注意的是,四分位差主要適用於測量順序型資料的離散程度,一般並不適合用於分型別資料。
極差
極差,顧名思義,就是指一組資料的最大值和最小值的差。也可以稱之為全距,用公式表示就是:
公式很簡單,也很方便理解。但由於只計算了資料兩端的差值,並不能很好的反映資料的離散程度,一般很少使用這個指標。
平均差
平均差,又稱之為平均絕對離差。它是每個變數和平均值之間差的絕對值的平均數,看起來有點繞,不過用公式表示就很清晰了,如下:
n為資料個數
為什麼公式中要用絕對值呢?因為如果去掉絕對值的話,那麼離差之和就是0了,沒有意義。
平均差的實際意義也很明確,平均差越大,表示資料的離散程度越大。
方差和標準差
方差
方差和平均差很類似,只不過是將平均差中的絕對值換成了平方數。也就是說,方差是各個變數和平均數之間離差的平方的平均數。用公式可以表示為:
n為資料個數
分母n-1又稱為自由度,那為什麼要減去1呢?因為我們通常拿到的都是樣本,如果是總體資料計算方差的話,可以不用減1。
標準差
標準差更簡單,就是方差的平方根,公式表示如下:
但標準差的實際意義要比方差更清晰,因為它有根號,因此它的計量單位和原來資料的單位是一致的,更便於我們進行分析。因此,它應用的範圍是很廣的。
標準分數
標準分數由平均數和標準差計算得來,主要用來衡量每個變數的相對位置,同時也能看出離群點資料。它也可以叫做z分數,用公式表示為:
從公式中可以看出,z分數的計算方式是變數值與平均數的差,再除以標準差。
z分數有一個特點,就是平均數為0,標準差為1。它並沒有改變資料的相對位置,只是縮放了數值的大小。
經驗法則
當資料是對稱分佈(正態分佈)時,我們通常有一個經驗法則:
大約有68%的資料在平均數±1個標準差的範圍內;
大約有95%的資料在平均數±2個標準差的範圍內;
大約有99%的資料在平均數±3個標準差的範圍內。
我們把3個標準差之外的資料就叫做離群點,透過這個經驗法則,我們可以很快的判斷出離群點,便於資料處理。
切比雪夫不等式
真實世界中的資料大部分都不是對稱分佈的,經驗法則就失效了,此時就可以用切比雪夫不等式來判斷,它適用於任何型別的資料分佈。
切比雪夫不等式是說,對於任意分佈的資料,至少有(1-1/k²)的資料落在±k個標準差之內,其中k是大於1的任意數(不一定是整數)。
那麼,當k=2,3,4時,我們可以得到:
至少有75%的資料落在平均數±2個標準差的範圍內;
至少有89%的資料落在平均數±3個標準差的範圍內;
至少有94%的資料落在平均數±4個標準差的範圍內。
離散係數
離散係數反映了資料離散的相對程度。
我們已經知道,方差和標準差其實反映的是資料離散的絕對程度。他們數值的大小跟原來各個變數值的大小有關,或者說,跟原來的平均數的大小有關。也就是說,原來變數值大的,最後得到的方差和標準差也就大。
另外,如果原來不同組資料變數的單位不同,那麼最後得到的方差和標準差也就不同。
為了消除絕對值大小和計量單位對離散程度測量的影響,就引入了離散係數這個指標。它的計算公式如下:
可以看到,離散係數的計算方式很簡單,就是用該組資料的標準差除以平均值,這樣一來就可以消除上面說過的兩種影響。
同時,從公式中也可以看出,離散係數大,資料的離散程度就大;離散係數小,離散程度就小。
以上介紹的極差、平均差、方差、標準差、離散係數,都適用於數值型的資料。
關於離散程度的7個度量指標就介紹到這裡了,覺得有用的話就點贊轉發分享吧,謝謝!