尹宙碑
[拼音]:xiangguan fenxi
[英文]:correlation analysis
描述兩個或兩個以上變數間關係密切程度的統計方法。變數間關係的密切程度常以一個數量性指標描述,這個指標稱相關係數,是社會學中較為普遍採用的一種資料分析的方法。根據變數的層次和數目,相關分析可作如下的分類。
定距變數以上的相關
根據相關的準則,以直線為準,稱作直線相關;以非直線為準,稱作非直線相關。無論是直線相關或非直線相關,都可以進一步根據變數數目來分類。
簡單直線相關
討論兩定距變數間線性相關的程度與方向。例如,父輩受教育年限與子輩受教育年限之間的關係。簡單直線相關係數r,又稱皮爾遜相關係數或積矩相關係數。
式中x、y為兩相關變數,它們的測量值都是成對的:(x1,y1),(x2,y2),……,(xn,yn)。相關係數r 的性質有:
(1)相關係數的取值範圍為-1≤r≤+1;
(2)r為正值時,兩變數間為正相關(圖a);
③r為負值時,兩變數間為負相關(圖b);
④相關係數的絕對值│r│愈大,兩變數間相關程度愈密切。r=+1,為完全正相關(圖c);
r=-1,為完全負相關(圖d);
r=0,兩變數完全無關(圖e)。
複相關
研究一個變數 x0與另一組變數 (x1,x2,…,xn)之間的相關程度。例如,職業聲望同時受到一系列因素(收入、文化、權力……)的影響,那麼這一系列因素的總和與職業聲望之間的關係,就是複相關。複相關係數R0.12…n的測定,可先求出 x0對一組變數x1,x2,…,xn的迴歸直線,再計算x0與用迴歸直線估計值憫之間的簡單直線迴歸。複相關係數為
R0.12…n的取值範圍為0≤R0.12…n≤1。複相關係數值愈大,變數間的關係愈密切。
偏相關
研究在多變數的情況下,當控制其他變數影響後,兩個變數間的直線相關程度。又稱淨相關或部分相關。例如,偏相關係數 r13.2表示控制變數x2的影響之後,變數 x1和變數x3之間的直線相關。偏相關係數較簡單直線相關係數更能真實反映兩變數間的聯絡。
偏相關係數、複相關係數、簡單直線相關係數之間存在著一定的關係。以3個變數x1,x2,x3為例,它們有如下的關係:
或
定序變數的相關
討論兩個定序變數間的相關的程度與方向。又稱等級相關。例如,研究夫婦雙方文化程度的相關等。等級相關係數有R係數和γ係數。
R係數
計算方法與簡單直線相關係數相同。
式中X,Y分別為x,y的測量值的等級。
英國統計學家 C.E.斯皮爾曼從R係數中推匯出簡捷式,稱斯皮爾曼等級相關係數:
式中di=xi-yi,i=1,2,…,N(N為次數)。
等級相關係數 R具有與簡單直線相關相同的性質:取值範圍在〔-1,+1〕之間;R的絕對值愈大,變數間的等級相關程度愈大。
γ係數
適用於資料次數N 很大的情況。
式中Ns為同序對數目,Nd為異序對數目。
同序對錶示兩個個案(xi,yi)和(xj,yj)相比時,具有xi>xj,則yi>yj的性質;反之,若xi>xj,但yi<yj,則稱作一個異序對。
γ係數的取值範圍在〔-1,+1〕之間。γ的絕對值愈大,變數間的等級相關程度愈大。
定類變數的相關
研究兩個定類變數間的相關程度。又稱品質相關。例如,性別與宗教信仰,民族與宗教信仰等。為了研究定類變數間的相關,先將資料按兩種變數進行交叉分類,設x共分c類,y共分r類,得r×c頻次分配表。
列聯表中變數相關程度有兩種測量方法:λ係數和τ係數。
當邊緣分佈與每列的分佈(即條件分佈)相同時,λ和τ達極小值:λ=0,τ=0,表示x與y無關。當各行及各列都只有一個不為零的頻次值時,λ和τ達極大值:λ=1;τ=1,表示x與y全相關。
如果列聯表中所分類別都只有兩類:c=2;r=2。稱2×2列聯表。它的相關係數可按φ係數和Q係數計算:
當φ=0或Q=0時,表示x變數與y變數無關。而當φ或Q的絕對值為1時,表示x變數與y變數全相關。
r×c列聯表中變數的相關性,有時還採用列聯絡數。
式中
列聯絡數c取值範圍在0≤c<1。20世紀80年代以來,社會學中已很少使用c係數,一般用λ係數和τ係數。