首頁 > 農業

資料分析必備——統計學入門基礎知識(上)

由 小飛象資料分析社群 發表于 農業2021-07-18

簡介3)方差與標準差:反映一組資料的平均離散水平,消除了樣本含量的影響,常和均數一起用來描述一組資料中的離散和集中趨勢

型別抽樣與整群抽樣有何區別

要做好資料分析,除了自身技術硬以及

資料思維

靈活外,還得學會必備的統計學基礎知識!因此,統計學是資料分析必須掌握的基礎知識,即透過搜尋、整理、分析、描述資料等手段,以達到推斷所測物件的本質,甚至預測物件未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在資料量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的資料人必備的技能。

但是,統計學的知識包括了圖形資訊化、資料的集中趨勢、機率計算、排列組合、連續型機率分佈、離散型機率分佈、假設檢驗、相關和迴歸等知識,對於具體的知識點,本文就不一一介紹了,感興趣的同學請參考《深入淺出統計學》、《統計學:從資料到結論》等專業書籍。

統計學分為描述性統計學和推斷性統計學。

今天我們就先來看看描述性統計。

定義:使用特定的數字或圖表來體現資料的集中程度和離散程度。

1、集中趨勢集中趨勢是指一組資料所趨向的中心數值,用到的指標有:算數均數、幾何均數、中位數。

1) 算數均數:即為均數,用以反映一組呈對稱分佈的變數值在數量上的平均水平。

2)幾何均數:常用以反映一組經對數轉換後呈對稱分佈的變數值在數量上的平均水平。

3)中位數:適用於偏態分佈資料和一端或兩端無確切的數值的資料,是第50百分位數。

4)百分位數:為一界值,用以確定醫學參考值範圍。

2、離散趨勢是反映資料的變異程度,常用指標有極差、四分位間距、方差與標準差、變異係數。

1)極差:為一組資料的最大值和最小值之差,但極差不能反映所有資料的變異大小,且極易受樣本含量的影響。常用以描述偏態分佈。

2)四分位數間距:它是由第3四分位數與第1四分位數相減得到,常和中位數一起描述偏態分佈資料的分佈。

3)方差與標準差:反映一組資料的平均離散水平,消除了樣本含量的影響,常和均數一起用來描述一組資料中的離散和集中趨勢。

4)變異係數:也稱作異常值,多用於觀察指標單位不同時,可消除因單位不同而不能進行比較的困難。

例如箱線圖就可以很好反映其中部分重點統計值。

資料分析必備——統計學入門基礎知識(上)

3、抽樣方法和中心極限定理

#抽樣方法

我們在做產品檢驗的時候,不可能把所有的產品都開啟檢驗一遍看是否合格,我們只能從全部的產品中抽取部分樣本進行檢驗,依據樣本的質量估算整體的產品質量,這個就是抽樣,抽樣的定義是為了檢驗整體從整體中抽離部分樣本進行檢測,以樣本的檢測結果進行整體質量的估算的方法。

抽樣有多種方法,針對不同的目的和場景,需要運用不同的方法進行檢測,常見的抽樣方法有:

#機率抽樣

•簡單隨機抽樣;

•分層抽樣;

•整群抽樣(先將總體中若干個單位合併為組,這樣的組稱為群,再直接對群進行抽樣);

•系統抽樣(將總體中所有單位按一定順序排列,在規定的範圍內隨機抽取一個單位作為初始單位,然後再按事先指定好的規則確定其他樣本單位);

•階段抽樣(先抽群,然後在群內進行二階段抽樣)。

#非機率抽樣

•方便抽樣(依據方便原則自行確定);

•判斷抽樣(依據專業知識進行判斷);

•自願樣本(調查者自願參加);

•滾雪球樣本(類似樹結構);

•配額樣本(類似分層抽樣);

#兩者抽樣方法之間的比較:

•非機率抽樣適合探索性的研究,為更深入的資料分析做準備,特點是操作簡便、時效快、成本低。而且對於抽樣中的統計專業技術要求不是很高;

•機率抽樣的技術含量更高,調查成本更高,統計學專業知識要求更高,適合調查目的為研究物件總體,得到總體引數的置信區間。

資料分析必備——統計學入門基礎知識(上)

#中心極限定理:若給定樣本量的所有樣本來自任意整體,則樣本均值的抽樣分佈近似服從正態分佈,且樣本量越大,近似性越強。以30為界限,當樣本量大於30的時候符合中心極限定理,樣本服從正態分佈;當樣本量小於30的時候,總體近似正態分佈時,此時樣本服從t分佈。樣本的分佈形態決定了我們在假設檢驗中採用什麼方法去檢驗它。

預告:

推斷性統計學。

1人點贊

資料說·夢想季

Tags:抽樣樣本統計學資料樣本量