尹宙碑

[拼音]:xiangguan fenxi

[英文]:correlation analysis

描述兩個或兩個以上變數間關係密切程度的統計方法。變數間關係的密切程度常以一個數量性指標描述,這個指標稱相關係數,是社會學中較為普遍採用的一種資料分析的方法。根據變數的層次和數目,相關分析可作如下的分類。

定距變數以上的相關

根據相關的準則,以直線為準,稱作直線相關;以非直線為準,稱作非直線相關。無論是直線相關或非直線相關,都可以進一步根據變數數目來分類。

簡單直線相關

討論兩定距變數間線性相關的程度與方向。例如,父輩受教育年限與子輩受教育年限之間的關係。簡單直線相關係數r,又稱皮爾遜相關係數或積矩相關係數。

式中x、y為兩相關變數,它們的測量值都是成對的:(x1,y1),(x2,y2),……,(xn,yn)。相關係數r 的性質有:

(1)相關係數的取值範圍為-1≤r≤+1;

(2)r為正值時,兩變數間為正相關(圖a);

③r為負值時,兩變數間為負相關(圖b);

④相關係數的絕對值│r│愈大,兩變數間相關程度愈密切。r=+1,為完全正相關(圖c);

r=-1,為完全負相關(圖d);

r=0,兩變數完全無關(圖e)。

複相關

研究一個變數 x0與另一組變數 (x1,x2,…,xn)之間的相關程度。例如,職業聲望同時受到一系列因素(收入、文化、權力……)的影響,那麼這一系列因素的總和與職業聲望之間的關係,就是複相關。複相關係數R0.12…n的測定,可先求出 x0對一組變數x1,x2,…,xn的迴歸直線,再計算x0與用迴歸直線估計值憫之間的簡單直線迴歸。複相關係數為

R0.12…n的取值範圍為0≤R0.12…n≤1。複相關係數值愈大,變數間的關係愈密切。

偏相關

研究在多變數的情況下,當控制其他變數影響後,兩個變數間的直線相關程度。又稱淨相關或部分相關。例如,偏相關係數 r13.2表示控制變數x2的影響之後,變數 x1和變數x3之間的直線相關。偏相關係數較簡單直線相關係數更能真實反映兩變數間的聯絡。

偏相關係數、複相關係數、簡單直線相關係數之間存在著一定的關係。以3個變數x1,x2,x3為例,它們有如下的關係:

定序變數的相關

討論兩個定序變數間的相關的程度與方向。又稱等級相關。例如,研究夫婦雙方文化程度的相關等。等級相關係數有R係數和γ係數。

R係數

計算方法與簡單直線相關係數相同。

式中X,Y分別為x,y的測量值的等級。

英國統計學家 C.E.斯皮爾曼從R係數中推匯出簡捷式,稱斯皮爾曼等級相關係數:

式中di=xi-yi,i=1,2,…,N(N為次數)。

等級相關係數 R具有與簡單直線相關相同的性質:取值範圍在〔-1,+1〕之間;R的絕對值愈大,變數間的等級相關程度愈大。

γ係數

適用於資料次數N 很大的情況。

式中Ns為同序對數目,Nd為異序對數目。

同序對錶示兩個個案(xi,yi)和(xj,yj)相比時,具有xi>xj,則yi>yj的性質;反之,若xi>xj,但yi<yj,則稱作一個異序對。

γ係數的取值範圍在〔-1,+1〕之間。γ的絕對值愈大,變數間的等級相關程度愈大。

定類變數的相關

研究兩個定類變數間的相關程度。又稱品質相關。例如,性別與宗教信仰,民族與宗教信仰等。為了研究定類變數間的相關,先將資料按兩種變數進行交叉分類,設x共分c類,y共分r類,得r×c頻次分配表。

列聯表中變數相關程度有兩種測量方法:λ係數和τ係數。

當邊緣分佈與每列的分佈(即條件分佈)相同時,λ和τ達極小值:λ=0,τ=0,表示x與y無關。當各行及各列都只有一個不為零的頻次值時,λ和τ達極大值:λ=1;τ=1,表示x與y全相關。

如果列聯表中所分類別都只有兩類:c=2;r=2。稱2×2列聯表。它的相關係數可按φ係數和Q係數計算:

當φ=0或Q=0時,表示x變數與y變數無關。而當φ或Q的絕對值為1時,表示x變數與y變數全相關。

r×c列聯表中變數的相關性,有時還採用列聯絡數。

式中

列聯絡數c取值範圍在0≤c<1。20世紀80年代以來,社會學中已很少使用c係數,一般用λ係數和τ係數。

參考文章

相關分析與迴歸分析有何區別與聯絡?統計學生豆餅為什麼不能餵鵝的原因和相關分析鵝炒新股的相關分析股票基金上升通道的相關分析股票基金魚鱗病相關分析面板科與傳染相關分析與迴歸分析的區別。統計學CYF同股價的相關分析股票基金相關分析與迴歸分析的區別與聯絡是什麼?統計學相關分析與迴歸分析有哪些區別與聯絡?統計學應用直線迴歸和相關分析時應注意哪些問題?統計學