細說傾聽。技安聚星堂: 閒談相關係數 Correlation Coefficient

http://johnmayhk.wordpress.com/2008/08/07/correlation/

在校內模擬會考放榜活動中，同事以 EXCEL 計算出所謂 Coefficient of Correlation（相關係數），從而告訴學生，學校估計的會考成績比同學自己估計的準確，因為校方的相關係數較同學的接近 1。

慚愧地，身為數學授課員，也不能深入認識何謂相關係數（或許是很久以前曾經認識過，現在已歸還教授們），現在只能以我這個統計學行外人，泛泛而談一些廢話。

首先，相關係數（或應說樣本相關係數）愈接近 1，是否代表所謂「愈準確」？

嗯，先來個感觀上的初步理解。以下四個散佈圖（scatter diagram），反映的資料分佈情況各異，但，四個散佈圖代表的四組資料，有著相同的相關係數 0.81（甚至有相同的回歸線 regression line。題外話：有譯「迥」歸線，不知哪個是正確，對不起）。

（圖片來源：http://en.wikipedia.org/wiki/Correlation）

那麼，我們可否單從相關係數是 0.81，認為所謂的估計「都幾準」，甚至誤以為，所謂的估計有 0.81 的機會率「命中」！同樣是 0.81，但實際資料的分佈情況迥異。

告訴你，學校要「做數」，使樣本相關係數接近 1 甚至是 1，是很容易的，只要取兩個樣本，則樣本相關係數肯定是 1。（不妨用 EXCEL 試試吧，用的函數是 correl）

統計參數的功能，其中一樣是為了量化一些比較概略的描述。比如說，某事情「有很大機會發生」是概略的描述，但說某事情發生的概率是九成，叫人有一點具體和客觀的感覺。

有關相關係數，中學的課程全無提及，和它有關的課題只有在中一數學課程的散佈圖。我們要求同學懂得觀察從以下圖像，從而對 X 和 Y 變項的關係作概略的描述，依次是「正關係」（positive relation）、「負關係」（negative relation）和「無關係」（no relation），見下圖。

計算出相關係數，比所謂「正關係」、「負關係」較具體和客觀。用「關係」這個字，或許可以讓公眾人士明白多一點，不過，若以「關係」來理解「相關」似乎比較「危險」。比方說，「零相關」（zero correlation）絕對不可被理解為「無關係」（no relation），單看看以下圖象（來源：http://en.wikipedia.org/wiki/Correlation），當中數字是該圖象代表的資料之相關係數。

大家看看「零相關」的圖象，特別是左下角的那個，怎能說兩個變項「無關係」？直觀地，那起碼那似乎是一種周期變化關係。

好了，不故作神秘，是明確運用數學的時間。

符號上，通常用

$\rho$ = 總體相關係數
$r$ = 樣本相關係數

有修 Applied Mathematics 的同學也明白，我們有興趣研究總體的統計參數（parameter），諸如「全港在職人士的平均薪金」，但礙於（比方說）成本所限，我們只能抽取樣本進行研究，例如只能計算出「樣本的平均薪金」。研究兩（隨機）變量的相關性也有類似的問題，我們不能直接研究總體的情況，只能看看某樣本的情形，諸如「某年」的同學在校內的 form rank 和會考最好六科積點的關係（即是我們一路進行的模擬放榜活動的考慮）等。

有關公式是

$\rho = \frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y}$
$r = \frac{\sum_{i = 1}^n(x_i - \overline{X})(y_i - \overline{Y})}{\sqrt{\sum_{i = 1}^n(x_i - \overline{X})^2}\sqrt{\sum_{i = 1}^n(y_i - \overline{Y})^2}}$

修 Applied Mathematics 的同學可能看到，上面兩個公式其實是非常類似，分別只是在乎考慮總體和樣本。
（注， $r$ 就是所謂皮爾森積差相關係數 Pearson Product Moment correlation coefficient。補充一說，我們也可對總體相關係數作假設檢定 Hypothesis Testing，又或構作總體相關係數的置信區間 Confidence Interval，涉及的公式多了，背後理論似乎也頗深，有興趣的同學可自行找找看。）

一般人或許害怕看到上述的「怪物」，於是讓（比如）電腦（或某些機構）黑箱地計算出一個一個的數字。這容易不過，有公式便行，問題是，為何上述公式可以反映所謂的「相關性」？我們要如何理解由公式得出的數字？如何（正確地）運用那些數字。

相關係數的主要任務，是針對兩個「疑似」存在線性關係的（隨機）變量，計算出一個數字，以反映出它們的關係有多線性，或曰，它們的直線關係有多強。當總體相關係數的絕對值愈接近 1，兩變量的直線關係便愈強烈。對完全（直線）相關（perfect correlation）的兩變量，可以證明 $\rho$ = 1 或 -1，見下。

設兩變量 $X, Y$ 的關係完全是線性的，可設 $Y = aX + b$ （其中 $a, b$ 是常數）。
$\rho$
$= \frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y}$
$= \frac{E[(X - \mu_X)(aX + b - (a\mu_X + b)]}{\sigma_X |a|\sigma_X}$
$= \frac{aE[(X - \mu_X)^2]}{\sigma_X |a|\sigma_X}$
$= \frac{a\sigma_X^2}{|a|\sigma_X^2}$
$\therefore \rho = 1$ (if $a > 0$ ) or $\rho = -1$ (if $a < 0$ )

至於為何 $\rho = \frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y}$ 可以反映線性有多強？

告訴你，我不太清楚公式的來源和學理上的因由。只能略略看一些意義。我們可先思考 $(X - \mu_X)(Y - \mu_Y)$ 代表什麼。參考下圖，當中的資料「疑似」存在線性關係。

以 $X$ 和 $Y$ 的平均數 $\mu_X$ 和 $\mu_Y$ 為界，把圖像分成 A, B, C, D 四個區域。

落在 A 區的點， $(X - \mu_X)$ 和 $(Y - \mu_Y)$ 同為正，於是 $(X - \mu_X)(Y - \mu_Y) > 0$ 。
落在 B 區的點， $(X - \mu_X)$ 和 $(Y - \mu_Y)$ 同為負，於是 $(X - \mu_X)(Y - \mu_Y) > 0$ 。
類似地，我們知道落在 C 或 D 區的點， $(X - \mu_X)(Y - \mu_Y) < 0$ 。

把所有 $(X - \mu_X)(Y - \mu_Y)$ 加起來取平均數，即 $E[(X - \mu_X)(Y - \mu_Y)]$ 就是所謂 Covariance（共變異數），表為 $Cov(X,Y) = E[(X - \mu_X)(Y - \mu_Y)]$ 。如上圖，因落在區域 A 和 B 的點比較多，所以可以估計到， $E[(X - \mu_X)(Y - \mu_Y)]$ 是正數。循這想法，不難理解下圖的 $E[(X - \mu_X)(Y - \mu_Y)]$ 是負數。

考慮（比如）三點 $(1,2), (2,4), (3,6)$ ，明顯兩變量是線性。當 $X$ 和 $Y$ 各乘 10，得 $(10,20), (20,40), (30,60)$ ，仍保持線性。但共變異數 $Cov(X,Y)$ 卻是原本的 100 倍（試證之），概略地說，不同的比例，不會影響線性關係，卻會影響共變異數；所以，單以共變異數來反映線性強度仍有不足，於是把變量標準化（standardize），即 $\frac{Cov(X,Y)}{\sigma_X\sigma_Y}$ ，便成了量度線性強度的指標：相關係數。

（注：以上只屬泛泛而談，同學若要知其真義，應到大學找正規的純計或數學書看。慚愧地，我家中連一本正式談論統計學的教科書也沒有。）

經常聽聞相關係數介乎於 -1 和 1 之間。現在在下要想證明這個事實： $-1 \le \rho \le 1$ 。

$((X - \mu_X) - k(Y - \mu_Y))^2 \ge 0$ ; $\forall k \in \mathbb{R}$
$\Rightarrow E[(X - \mu_X) - k(Y - \mu_Y)]^2 \ge 0$
$\Rightarrow E[(X - \mu_X)^2] + k^2E[(Y - \mu_Y)^2] - 2kE[(X - \mu_X)(Y - \mu_Y)] \ge 0$
$Var(X) + k^2Var(Y) - 2kCov(X,Y) \ge 0$ ; $\forall k \in \mathbb{R}$
Take $k = \frac{Cov(X,Y)}{Var(Y)}$ ,
$Var(X) + \frac{Cov^2(X,Y)}{Var(Y)} - \frac{2Cov^2(X,Y)}{Var(Y)} \ge 0$
$\Rightarrow Var(X)Var(Y) \ge Cov^2(X,Y)$
$\Rightarrow \rho^2 = \frac{Cov^2(X,Y)}{Var(X)Var(Y)} \le 1$
$\Rightarrow -1 \le \rho \le 1$

重申，兩變量的相關係數愈接近零，只代表它們的線性關係不太強，並非說它們「無關係」。除此之外，較多人誤用相關係數，是以為相關係數可推論出因果關係。我們斷不能說，相關係數愈接近 1，則反映變數 X 是變數 Y 的原因（或變數 Y 是變數 X 的原因）。要用什麼統計工具來支持因果關係？對不起，仍不太清楚。

我太清楚還有很多很多，起碼，要有效使用相關變量作分析，兩變量原來要是二元常態分配才可。但比如如何量化地剔除 Outliers？如何運用非參數統計的相關係數方法，諸如 Chi-square, Point biserial correlation, Spearman’s $\rho$ , Kendall’s $\tau$ , Goodman and Kruskal’s $\lambda$ （悲，這些都是抄維基的）？有時真的不敢輕率地運用統計，但往往因為你是數學授課員，就假設你懂得統計學，甚至要使用並解釋統計數字，從而成為設立一些政策的因由。嗯，在下也只能盡力而為。

習題：
1. 設樣本數目只有 2 個，比如 $(a,b)$ 和 $(c,d)$ ，其中， $a \ne c, b \ne d$ ，證明 $r = 1$ 。
2. 請點擊以下連結玩一玩相關係數遊戲。
http://www.math.nsysu.edu.tw/StatDemo/Correlation/Correlation.html
3. (open-ended) 指出以下一篇報導有什麼可質疑的地方：
http://www.renminbao.com/rmb/articles/2007/6/12/44585b.html
4. 數學人問題：
http://www.mathlinks.ro/viewtopic.php?p=1215085#1215085

細說傾聽。技安聚星堂

標籤

2012年4月20日星期五

閒談相關係數 Correlation Coefficient

沒有留言:

張貼留言

標籤

2012年4月20日 星期五

閒談相關係數 Correlation Coefficient

沒有留言:

張貼留言

2012年4月20日星期五