水杉

[拼音]:chouyang diaocha

[英文]:sampling survey

一種統計學方法,也是數理統計學的一個分支。它通過從總體中抽取一部分個體進行調查,藉以獲得對整個總體的特徵的瞭解。抽樣調查主要用於社會、經濟、農業和人口等領域;被調查的總體通常是有限的,它的個體可以辨別。

最簡單的抽樣設計是無放回隨機抽樣,還有分層抽樣、定額抽樣、系統抽樣、分群抽樣、多級抽樣等複雜的方法。抽樣調查的理論問題,可歸入有限總體推斷理論的研究之內,主要是討論各種不同的抽樣設計的相對效率,以及與之相應的種種估計方法(如比率估計、迴歸估計)的優良性。近二三十年來,由於應用上的需要,隨著有限總體推斷理論研究的開展,抽樣調查已逐漸成為數理統計學的一個活躍的分支。

出於對費用和時間的考慮,人們早已認識到需要在調查中進行抽查而不是普查。但對抽查結果的可靠性一開始是有懷疑的。第二次世界大戰期間,各交戰國為適應急劇變化的戰局,亟需及時而有效地收集情報,除抽樣調查外別無他法,這就促進了對抽樣調查的理論和方法的研究。戰後不久,出現了這方面的專著,F.耶茨受聯合國統計抽樣專業委員會的委託,為協助1950年世界農業和世界人口調查而寫的《人口調查與一般調查的抽樣方法》就是其中之一。50年代後,世界各國已逐漸把抽樣調查作為一種重要的調查方法。這是因為,普查的工作量太大,往往為人力財力時間所不允許,在實施過程中易出現人為的誤差錯;經驗表明,有時一個精心設計的抽樣方案,其實施效果甚至可以勝過普查。

在抽樣調查中,有時不能以自然個體為單位,而要按實際需要和使用方便把這些自然個體劃分為若干單元,抽樣時把每個單元看作一個個體,稱為抽樣單元。例如人口調查中的個人、家庭;又如在地圖上劃分方格,每格代表一個抽樣單元,格的大小也可不同。構成總體的全部抽樣單元的一個總的描述叫抽樣框。載有總體中每個抽樣單元的一本名冊、一幅地圖或者一份檔案,就是抽樣框。

抽樣方法分成概率抽樣和判斷抽樣兩大類:前者指每個抽樣單元都依指定的概率被抽取,又稱隨機抽樣;後者是根據調查者的判斷從總體中選一些有代表性的單元進行調查。判斷抽樣又稱典型抽樣。

無放回隨機抽樣

從N 個抽樣單元組成的總體中抽取含n個單元的樣本(n≤N),方法是,在抽取第一個時,讓N個抽樣單元中每一個以同等概率1/N被抽到,抽到的這一個不再放回到總體中去,然後在剩下的N-1箇中抽出1個,每個被抽出的概率都是1/(N-1),抽到的這一個不再放回,這樣下去,直到抽出n個為止。這種抽樣方法叫做無放回隨機抽樣。它使得N個抽樣單元中的任何n個都有同等的概率

被抽到。在抽樣調查中,通常把它叫做簡單隨機抽樣,抽到的樣本稱為簡單隨機樣本。但它與數理統計學中一般意義下的簡單隨機抽樣(見樣本)是有區別的,後者每個樣本觀測值的分佈是相互獨立的,而這裡由於每個單元在調查後不再放回到總體中去,它們的分佈就不是相互獨立的了。

設有N個單元構成的有限總體(如某校全體新生),其某一特性Χ(如年齡)用Χ1,Χ2,…,ΧN表示,所抽得的樣本用x1,x2,…,xn表示(為方便起見,將樣本中的序號仍記為1,2,…,n,但不一定就是總體中的前n個單元,下同)。以Χ和塣分別記總體的總和 Χ1+Χ2+…+XN和總體均值(塣=Χ/N);以x和塣分別記樣本的總和x1+x2+…+xn和樣本均值(塣=x/n)。在簡單隨機抽樣中,樣本均值塣是總體均值塣的無偏估計量(見點估計),這時,總體總和Χ的估計量是

式中N/n稱為放大因子,即將樣本總和放大 N/n倍便得總體總和的一個合理估計。放大因子的倒數n/N,稱為抽樣比例。

實際上,不少抽樣調查問題,都可化為估計總體均值的問題。例如,要了解具有某種特性的單元在總體中所佔的比例,只要根據第i 個單元有無此特性而分別令Χi=1或者0;這時,Χ1,Χ2,…,ΧN的平均值塣就是所要求的比例。

在抽樣調查中,一個抽樣方法及其相應估計方法的精度以所得的估計量的均方誤差表示。均方誤差就是估計量與被估計量(真值)的差的平方的數學期望。當估計量無偏時,均方誤差就等於方差。按簡單隨機抽樣方法,若用樣本均值塣 估計總體均值塣,它的方差是

式中

當N、n及N-n都較大時,可以用正態分佈近似塣的分佈,從而可以利用正態分佈或 t分佈(見統計量)定出總體均值塣的置信區間(見區間估計)。

分層抽樣

為了得到有代表性的樣本,按一種或多種標誌把總體劃分為若干子總體;儘可能使每個子總體內的單元之間的差異比較小,而不同子總體間的差異比較大。這樣,只要在每個子總體內抽少數單元就可得到代表性很強的樣本。稱子總體為層,這種方法叫分層抽樣。例如在小麥估產調查中,將麥田分為山地、平地、窪地三類,每類就是一個子總體。

如在每一層內都用簡單隨機抽樣的方法抽取一定數目的單元,就稱為分層隨機抽樣,通常說的分層抽樣均指分層隨機抽樣。如每一層的抽樣數目是事先指定好的,在總體中由調查人根據他的判斷進行抽樣,直到每一層的抽取數與事先指定的都相符為止,這種抽樣稱之為定額抽樣。例如,在服裝調查中,將男子分為少年、成年、老年三類,規定分別抽取n1、n2、n3個,則在某一人群中抽樣時,要一直抽到有n1個少年,n2個成年,n3個老年時為止。

假定總體分為L層,依次有 N1、N2、…、NL個單元,總體大小

在各層中分別抽取大小為n1、n2、…、nL的簡單隨機樣本,則樣本大小

當n給定時, 如何分配n1、n2、…、nL使得對總體均值的估計量的方差為最小,這是實際應用中的一個很重要的問題。J.奈曼指出,當

時,這個估計量的方差為最小 ,式中 S崺為第 h層的方差。這種分配方法叫奈曼分配。若各層中的單元抽查費用不同,費用函式C可寫成

式中α為固定費用,與n的大小無關,Ch為在第h層中每抽查一個單元的費用,則對給定費用C,方差最小的樣本量分配公式是

系統抽樣

又稱等距抽樣或機械抽樣,是指按一定方式系統地抽取樣本的方法。例如,從一張名單上按一定間隔抽取樣本就是一種系統抽樣。其做法是:先求一個最接近於N/n的整數q,從隨機數表(見偽隨機數)中讀一個在1與q之間的數k(叫隨機起數),然後按間隔q抽取順序號碼為k,q+k,2q+k,…等單元。如編號與被調查的特性無關,則系統抽樣可視同隨機抽樣,且更簡易;如編號相近的單元有相似的特性,則系統抽樣接近於分層抽樣。還可以將抽樣間隔q放大d(整數)倍,並從隨機數表讀d個不同的隨機起數,對每個起數按間隔dq抽取單元。

分群抽樣

為節約費用和時間,抽樣前按某種準則將總體分為若干群,每群有不止一個單元,抽樣時整群抽取,並對群中的每個單元進行觀測,這種抽樣稱之為分群抽樣或整群抽樣。

群本身就是抽樣單元,稱之為初級單元,群內的單元稱為次級單元。群的劃分要求群與群之間的差別越小越好。若分的群基本相似,只需要一個群就夠了。它與分層的準則正好相反,它們的差別可用圖

表示,圖中實線為分層,虛線為分群。

分群后,群的抽取方法與群的劃分有關。一般,若群的大小(群內次級單元個數)相近,可按等概率抽取;若群的大小懸殊,可考慮不等概率抽樣。一個可行的不等概率抽樣方法是與群的大小成比例的概率抽樣,簡記為PPS。

多級抽樣

又稱多階段抽樣。如果在分群抽樣中,不是對抽到的群(初級單元)中所有的次級單元都進行觀測,而只是抽取一部分進行觀測,這就是二級抽樣。若每個次級單元又可分成更小的單元(三級單元),而對抽到的每個次級單元又只抽取部分三級單元進行觀測,則稱為三級抽樣。由此可定義一般的 k級抽樣。各級單元的抽法可以有變化,如有的分層,有的不分層;有的等概率,有的不等概率(如與被抽取的抽樣單元中所包含的下一級單元的數量成比例PPS);等等。因此多級抽樣給抽樣設計帶來很大靈活性,在大規模調查中常被採用。此外,多級抽樣除了需有第一級抽樣框外,只需對被抽中的單元構造下一級抽樣框,故在實行中也比較經濟,特別適用於資料貧乏的地區和領域。

多級抽樣的分析比較複雜。以二級抽樣為例,設總體共有N個初級單元,從中抽取n個,又設第i個初級單元中有Mi個次級單元,從中抽取mi個,i= 1,2,…,n。記抽中第i個初級單元中的第j個次級單元的概率為 πij,相應的觀測值為xij,則

是總體均值塣一個無偏估計。?/I>的方差公式更為複雜,不僅依賴於各初級單元之間及每個初級單元內、次級單元之間的方差,還依賴於上述πij、n及mi等值的選取。

參考書目

F. Yates,sampling Methods for Censuses and Surveys,4th ed.,Charles Griffin, London, 1981.

W.G.Cochran,sampling Techniques,3rd ed.,John Wiley & Sons, New York, 1977.

C.M.Cassel,et al.,Foundations of Inference in Survey sampling,John Wiley & Sons, New York,1977.

參考文章

簡述抽樣調查的優點和作用。統計學抽樣調查有哪些特點?有哪些優越性?統計學為什麼說抽樣調查是所有非全面調查中最科學的調查方式?(抽樣調查的特徵)統計學抽樣調查、典型調查和重點調查有什麼區別?統計學什麼是隨機原則?在抽樣調查中為什麼要堅持隨機原則?統計學重點調查、典型調查、抽樣調查有什麼相同點和不同點?統計學抽樣調查有哪些特點?抽樣調查的優點和作用?統計學