軍都山
[拼音]:gail╇ tongji jisuan
[英文]:probabilistic and statistical computing
又稱計算概率統計,是概率論、數理統計、計算數學和電腦科學等學科之間的一個交叉性、邊緣性、應用性的學科分支,研究如何根據實際問題提出來的要求,利用概率論、數理統計中提供的概率統計模型,對試驗觀測資料或隨機模擬資料進行統計分析處理,給出實際問題性質的統計描述、統計控制或統計預測的數值結果。
概率統計計算應用廣泛,發展很快。研究的主要領域包括隨機資料的統計分析計算、概率統計模型的隨機模擬計算及它們在數字計算機上的具體計算實現的程式包研製等三個相互關聯的方面。
隨機資料的統計分析計算
在計算機上,對實際問題中給出的一組試驗觀測資料或概率統計模型的隨機模擬資料尣1,尣2 ,…,尣n 進行分析計算。這裡,
,
,表示在第i次試驗中或第i次模擬中得到的觀測資料,可以是一個標量 (m=1),也可以是一個向量(m>1)。根據尣i所含變數個數m的不同(m=1或m>1)和各次觀測模擬之間是否統計相關或相互獨立,在分析計算時使用不同的概率統計模型和不同的概率統計演算法。對各次觀測或模擬間相互獨立的隨機資料,有一元(m=1)和多元(m>1)統計分析計算之分;對相關性的觀測資料,有處理平穩隨機資料的數字時間序列分析計算,處理突發隨機事件的隨機點過程計算,處理狀態離散的馬爾可夫鏈計算和處理各種觀測系統的數字濾波計算等。
對一組給定的隨機觀測資料{尣i}進行統計分析計算,重要的是選擇恰當的概率統計模型和有效的進行統計分析計算的演算法。以對多元資料進行統計分析計算為例,目的各有不同:有的要求對觀測變數之間進行調整,使它們之間可以進行平衡和便於比較;有的要求在不影響結果的精度和可靠度的條件下,降低觀測資料的維數,化簡問題的結構;有的要求按照一定的標準,對資料進行分類或分組;有的要求給出觀測資料的方程或方程組,用這類模型解釋因變數的變異,預測系統的未來可能取值等等。因此,在多元分析計算中,不僅要明確進行分析計算的目的和觀測資料{尣i}自身的一些性質和特點,而且還要了解各種不同的多元統計分析模型及其相應演算法的特點。在多元統計分析計算中,進行統計分析的主要目的、相應可用的統計模型及其常用演算法如圖
所示(箭頭指示出可選用的統計模型)。
以多元迴歸分析和多元判別分析為例,用這種統計分析模型進行計算,就是根據由變數組(x1,x2,…,xm;y)得到的相互獨立的 n組觀測資料(xi1,xi2,…,xim;yi)(i=1,2,…,n;n>m), 確定因變數y和自變數(x1,x2,…,xm) 之間的關係,用於識別、預報、控制或分類。這裡,因變數y在迴歸模型中取連續值,表示分析系統所處的水平;在判別模型中取離散值,表示系統的類別。對這組資料進行統計分析計算的目的,就是從給定的變數組(x1,x2,…,xm)中,選取一個“最優”的子集:在迴歸模型中,經計算給出迴歸方程
,能夠解釋因變數y的變異;在判別模型中,經計算給出判別函式,能夠將用y表示的類別資料按類分開。所以,對給定的觀測資料進行分析計算時,主要注意力集中在最優變數子集選取的不同演算法及其實現上。在實際問題中,預選自變數的個數m和觀測的次數n通常都很大,各個自變數之間也不相互正交,存在著錯綜複雜的相互關係,需要按照一定的標準對自變數xi進行舍選。目前常用的演算法有四種:
(1)漸增法,把自變數按照各自重要性的大小,逐個選入迴歸方程或判別函式;
(2)漸降法,先把所有能引入的自變數全部引入迴歸方程或判別函式,然後再把不重要的自變數逐個捨去;
(3)舍選法,在把重要的自變數引入迴歸方程或判別函式的同時,檢驗已在模型中的自變數是否繼續顯著,把不符合要求的自變數從中捨去;
(4)最佳子集法,利用自變數各個不同子集合之間的關係,從所有可能的子集中選取最佳的子集。第三種演算法最為常用,通常把它稱為逐步迴歸和逐步判別演算法。
對系統中依賴於時間t的一個變數或一組變數x(t)進行觀測或模擬,在時間t的等距間隔 Δt上,得到一組有序離散相關的數集合尣1,尣2,…,尣n,其中尣i=尣(t0+iΔt)(i=1,2,…,n)稱為數字時間序列,分析這類資料的方法稱為數字時間序列分析,或簡稱為時間序列分析。這類方法包括時域中的相關分析,頻域中的譜分析和時間序列模型,特別是p階自迴歸、q階滑動平均線性模型ARMA(p,q)的識別、估計和檢驗的計算問題等。
時間序列分析與迴歸分析、判別分析等多元分析方法相比,發展較遲。由於在實際問題中應用的重要性和廣泛性,特別是數字計算機的迅速發展和一些重大演算法(如快速傅立葉變換演算法)和理論(如模型識別理論)的突破,從一維時間序列到多維時間序列、從線性模型到非線性模型,都有很快的發展和廣泛的應用。
在隨機資料統計分析計算中,利用數字計算機快速計算的特點,發展出一系列與傳統的統計計算不同的演算法,如各種非引數統計演算法、穩健性估計演算法、刀切法和自助子樣法等,增強了概率統計計算處理實際問題的能力。
概率統計模型的隨機模擬計算
隨機抽樣是概率統計中的一類經典方法。由於數字計算機的出現和發展,隨機抽樣作為一種演算法在第二次世界大戰之後得到了迅速發展,並在許多不同的領域中得到了廣泛的應用。當時從事這一方法研究的物理學家,借用歐洲著名賭城蒙特卡羅的名字,給該法起名為蒙特卡羅法。
和隨機資料的統計分析計算不同,隨機模擬計算利用實際系統的概率統計模型,通過模擬計算,“仿造”系統的試驗觀測資料,進而分析系統的漸近統計性質。在數字計算機上,隨機模擬計算用系統概型的隨機數字模擬代替實際系統的物理模擬,用偽隨機數代替隨機變數的真實抽樣,這種雙重模擬計算,為概率統計計算解決實際問題開闢了不少新的應用領域。
概率統計計算程式包
為方便使用者在計算機上使用統計演算法已經研製出為數眾多的概率統計計算程式包,它們可提供完整配套的統計模型,快速可靠的演算法,易於使用、便於移植和二次開發的各種計算機語言的程式。它們在計算機上的廣泛應用,既帶來了方便,也出現了一些值得注意的問題,主要集中在概率統計計算的誤用和濫用上。因此,具有模型自動檢驗、識別功能和有效演算法選取功能的統計程式包更受到使用者的歡迎。
參考書目
中國科學院計算中心概率統計組編著:《概率統計計算》,科學出版社,北京,1979。
K.安斯倫、A.拉爾斯登、H.S.維爾夫編,中國科學院計算中心概率統計組譯:《數字計算機上用的數學方法(統計方法)》,第3卷,上海科學技術出版社,上海,1981。(K. Enslein, A. Ralston, H. S. Wilf,StatisticalMethods for Digital Computers,Vol.3,MatheMatical Methods for Digital Computers,JohnWiley and Sons,New York,1977.)