內蒙古自治區

[拼音]:feicanshu tongji

[外文]:nonparametric statistics

數理統計學的一個分支。如果在一個統計問題中,其總體分佈不能用有限個實引數來刻畫,只能對它作一些諸如分佈連續、有密度、具有某階矩等一般性的假定,則稱之為非引數統計問題。例如,檢驗“兩個總體有相同分佈”這個假設,若假定兩總體的分佈分別為正態分佈N(μ1,σ2)和N(μ2,σ2),則問題只涉及三個實引數μ1,μ2,σ2,這是引數統計問題。若只假定兩總體的分佈為連續,此外一無所知,問題涉及的分佈不能用有限個實引數刻畫,則這是非引數統計問題。又如,估計總體分佈的期望μ,若假定總體分佈為正態 N(μ,σ2),則問題是引數性的;若只假定總體分佈的期望值存在,則問題是非引數性的。不過引數統計與非引數統計之間並沒有涇渭分明的界線。有的統計問題,從不同的角度,可以理解為引數性的,也可以理解為非引數性的。例如線性迴歸(見迴歸分析)問題,若關心的是估計迴歸係數,它只是有限個實引數,因而可以看成是引數性的。但是,如果對隨機誤差的分佈型別沒有作任何假定,則從問題的總體分佈這個角度看,也可以看成是非引數性的。

重要的非引數統計方法

秩方法是基於秩統計量(見統計量)的一類重要的非引數統計方法。設有樣本X1,X2,…,Xn,把它們由小到大排列,若Xi在這個次序中佔第Ri個位置(最小的佔第1個位置), 則稱Xi的秩為Ri(i=1,2,…,n)。1945年F.威爾科克森提出的"兩樣本秩和檢驗"是一個有代表性的例子。設X1,X2,…,Xm和Y1,Y2,…,Yn分別是從分佈為 F(x)和 F(x-θ)的總體中抽出的樣本,F連續但未知,θ也未知,檢驗假設 H:θ=0,備擇假設為θ>0(見假設檢驗)。記Yi在混合樣本(X1,X2,…,Xm,Y1,Y2,…,Yn)中的秩為Ri,且

為諸秩的和,當W >C時,否定假設H,這裡C決定於檢驗的水平。這是一個性能良好的檢驗。秩方法的一個早期結果是C.斯皮爾曼於1904年提出的秩相關係數。設(X1,Y1),(X2,Y2),…,(Xn,Yn)是從二維總體(X,Y)中抽出的樣本,Ri為Xi在(X1,X2,…,Xn)中的秩,Qi為Yi在(Y1,Y2,…,Yn)中的秩,定義秩相關係數為(Ri,Qi)(i=1,2,…n)的通常的相關係數(見相關分析)。它可以作為X、Y之間相關程度的度量,也可用於檢驗關於X、Y獨立性的假設。

次序統計量和U 統計量在非引數統計中也有重要應用。前者可用於估計總體分佈的分位數(見概率分佈)、檢驗兩總體有相同的分佈及構造連續總體分佈的容忍限和容忍區間(見區間估計)等。後者主要用於構造總體分佈的數字特徵的一致最小方差無偏估計(見點估計)及基於這種估計的假設檢驗。

蘇聯數學家Α.Η.柯爾莫哥洛夫和Β.И.斯米爾諾夫在20世紀30年代的工作開闢了非引數統計的一個方面,他們的方法基於樣本X1,X2,…,Xn的經驗分佈函式Fn(x)(見樣本)。柯爾莫哥洛夫考察 Fn(x)與理論分佈F(x)的最大偏差墹n,當墹n超過一定限度時,否定這個理論分佈F(x)。這就是柯爾莫哥洛夫檢驗。斯米爾諾夫則考察由兩個分佈為F(x)和g(x)的總體中抽出的樣本X1,X2,…,Xm和Y1,Y2,…,Yn計算其經驗分佈Fm(x)和gn(x)的最大偏差墹mn,當墹mn超過一定限度時,否定“F與g相等”這個假設。這就是斯米爾諾夫檢驗。

在非引數性估計方面,有關於估計分佈的對稱中心、概率密度函式和迴歸函式等比較重要的成果。

非引數統計的特點

非引數統計問題中對總體分佈的假定要求的條件很寬,因而針對這種問題而構造的非引數統計方法,不致因為對總體分佈的假定不當而導致重大錯誤,所以它往往有較好的穩健性(見穩健統計),這是一個重要特點。但因為非引數統計方法需要照顧範圍很廣的分佈,在某些情況下會導致其效率的降低。不過,近代理論證明了:一些重要的非引數統計方法,當與相應的引數方法比較時,即使在最有利於後者的情況下,效率上的損失也很小。

由於非引數統計中對分佈假定要求的條件寬,因而大樣本理論(見大樣本統計)佔據了主導地位。第二次世界大戰前,非引數統計的大樣本理論已有了一些結果,從20世紀50年代直到現代,更有了顯著的進展,尤其是關於秩統計量與U 統計量的大樣本理論,及基於這種理論的大樣本非引數方法,研究成果很多。

參考書目

H.A.David,Order Statistics,2nd ed., John Wiley & Sons, New York, 1980.

E.L.Lehmann,Nonparametrics:Statistical Method based on rank, Holden-Day, San Francisco, 1975.

參考文章

非引數統計方法的概念及適用範圍。統計學