首頁 > 遊戲
一文了解什麼是置信區間
由 機器學習與資料探勘 發表于 遊戲2021-06-09
簡介用點估計給出的估計是X‘ 而用區間估計給出的是區間[X’-1, X’+1],區間估計估計正確的機率是:依舊是之前估計人類身高的問題,假設我們用一個固定長度的區間去估計人類身高的均值:假設選定這個固定長度後,我們抽取不同的樣本,得到了不同的估
置信區間可以為負嗎
1。 定義
在統計學中,一個樣本的置信區間是對總體引數的一個
區間估計
。置信區間給出的是,聲稱總體引數的真實值在測量值的區間所具有的可信程度或者說是機率。這個機率又叫做
置信水平
。舉例來說:再一次大選中,上帝視角看到某人的支援率是55%,而置信水平0。95上的置信區間是(50%,60%),那麼他的真實支援率落在50%到60%之間的機率為95%,如果分佈是對稱的,那麼他支援率不足50%的機率只有2。5%。
對於一個給定的情況,置信水平越高,置信區間就會越大。置信區間表示具體的某個範圍,置信水平是一個機率,表示真實值落在這個區間內的機率。
2。 引數估計
置信區間屬於
引數估計
中的
區間估計
引數估計主要包括
點估計
和
區間估計
。其中點估計包括:
一階矩、二階矩估計
、
極大似然估計
、
最小二乘法估計
。而置信區間屬於區間估計。
3。 置信區間
我們透過對人類身高的估計來講解什麼是置信區間。
3。1 上帝視角
對於人類的平均身高,沒有辦法全部統計,因為人太多。但是這個資料肯定是真實存在的,我們可以說,上帝知道。也就是說上帝視角可以看到人類身高的
真是
分佈,假設滿足正態分佈:均值145,標準差1。4。
3。2 點估計
愚蠢的人類想要統計平均身高,沒有別的辦法,只能進行抽樣統計
比如在一次抽樣過程中,我們把算出來的樣本均值畫在圖上,藍色點表示:
那麼這個抽樣的身高均值就是對真是平均身高的一次
點估計
。透過一次又一次的抽樣,我們可以得到很多個不同的點估計:
現在,關閉上帝視角,根本無法判斷哪個點估計更好:
總結:對於點估計來說,直接用樣本的均值去估計真實的均值。看上去好像比區間估計要精確。其實不是這樣的,如果只用點估計,那麼估計正確的機率為0。P(u1 = u) = 0
置信區間
雖然依舊不知道哪個估計更好,但是可以給出一個機率。
3。3 置信區間
提供的是一種區間估計的辦法。不再是直接估計引數的值,而是估計區間包含真實值的機率。比如95%置信區間就是指,給出的這個置信區間有95%的可能會包含真實值。(一般不說:引數的真實值會以95%的機率落在這個區間中。因為引數的真實值不是隨機的,他就一個值,而我們的區間才是隨機的變化的)。
用點估計給出的估計是X‘ 而用區間估計給出的是區間[X’-1, X’+1],區間估計估計正確的機率是:
依舊是之前估計人類身高的問題,假設我們用一個固定長度的區間去估計人類身高的均值:
假設選定這個固定長度後,我們抽取不同的樣本,得到了不同的估計區間。對於某些抽取的樣本來說,估計的區間包含真實值(比如綠色),另一些則不包含(比如紅色)。如果在100次的抽取樣本實驗過程中,有95次構造的估計區間都包含了真實值,那麼置信度就為95%。
3。4 置信區間的長度和中點是怎麼得到的
我們以95%的置信區間來說明
假設人群身高符合正態分佈:
其中均值不知道,但是方差已經知道了。
目標:估計均值。
我們不斷的對人群進行取樣,得到了一個大小為n的樣本空間,樣本的均值為:
那麼M也服從於正態分佈:
接下來,我們算出以u為中心,面積為0。95的一個區間。在上帝視角看來是這樣的:
即:
那現在我們沒有辦法得到真實的均值。那麼只能用
抽樣樣本的均值進行替換了
。但是替換之後也出現了一個問題,樣本均值和真實值之間存在一定偏差,所以即時區間長度相同,得到的區間也不同。假設我們抽樣得到了100個區間,如下圖:
可以看到,有的區間包含了真實值,有的區間沒有包含真實值。那麼100個區間,有多少個包含了真實值那?答案是95%。換個問法:從這100個區間中隨機取一個區間,那麼包含真實值的機率是多少那?答案是95%。
常見正態分佈的圖還是可以記一哈:
3。5 如何評價區間估計的好壞
常用的標準有兩類:(1)置信度標準 (2)精確度標準
置信度
是一個機率,表示估計的區間包含真實值的機率。顯然,置信度越大越好。
置信係數
是置信度在引數空間上的下邊界。因為對於不同的引數,估計出來的置信度不同,顯然,我們希望最小的置信度也儘可能的大。所以置信係數越大越好。
精確度
標準很多,最常用的是
隨機區間的平均長度
,顯然平均長度越小越好。