翻開一篇統合分析(meta-analysis),最常見的場景是:摘要寫著「Hedges' g = -0.398, 95% CI: -0.641 to -0.155, p = 0.001」,然後讀者愣住了。這個 -0.398 到底是大是小?比 0.5 大還是小?跟 RR = 0.8 哪個比較有意義?本文以 2022 年發表於《Frontiers in Pharmacology》的一篇 CoQ10 抗疲勞統合分析為例,帶讀者完整解讀效果量(effect size)這個概念。
為什麼需要效果量這個概念?
許多人讀研究時只看 p 值,覺得 p < 0.05 就是有效。但 p 值只回答一個問題:「這個差異是不是運氣造成的?」它不告訴你差異有多大。一項 10,000 人的試驗,即使兩組差異只有 0.1 分,p 值也可能極小;反之,一項 30 人的小型試驗,即使兩組差異很大,p 值也可能不顯著。
效果量則回答另一個問題:「這個差異實際上有多大?」它把差異標準化,讓不同量表、不同樣本、不同研究之間可以互相比較。在統合分析裡,效果量是把多項研究合併運算的共同單位。
Cohen's d 與 Hedges' g 有什麼差別?
最常見的連續變項效果量是 Cohen's d,由心理學家 Jacob Cohen 在 1969 年提出。它的計算方式很直觀:兩組平均值的差,除以合併標準差。直白地說,d = 0.5 代表兩組差距等於半個標準差。
Hedges' g 則是 Cohen's d 的修正版,由 Larry Hedges 於 1981 年提出。當研究樣本數不大時(特別是 n < 20),Cohen's d 會略為高估真實效果量。Hedges' g 加入一個小樣本校正係數,讓估計更為準確。在統合分析裡,因為要合併多項小型研究,Hedges' g 比 Cohen's d 更常被採用。
當樣本數夠大時,Hedges' g 與 Cohen's d 的數值幾乎相同。它們的判讀標準也共用同一套:
- 0.2 左右:小效果(small effect)
- 0.5 左右:中等效果(medium effect)
- 0.8 以上:大效果(large effect)
這套標準是 Cohen 自己提出的經驗法則,並非絕對。在不同研究領域,「大」與「小」的意義也不同。例如教育心理學的介入研究常見 d = 0.2~0.4,而藥物試驗的某些指標可能要 d > 0.8 才被視為臨床有意義。
SMD 又是什麼?
SMD 是 Standardized Mean Difference(標準化平均差)的縮寫,是一個通稱,泛指所有「把平均差除以標準差」的效果量。Cohen's d 與 Hedges' g 都屬於 SMD 家族,差別在於使用哪一種標準差估算法與是否做小樣本校正。
當統合分析納入的多項研究使用「不同的疲勞量表」時(例如有的用 Fatigue Severity Scale,有的用 Brief Fatigue Inventory),分數無法直接相加。研究者就會把每項研究的結果轉換成 SMD,再用統計權重合併。這也是 Tsai 等人 2022 年這篇 CoQ10 統合分析採用 Hedges' g 的原因——納入的 13 項 RCT 涵蓋纖維肌痛、多發性硬化症、Statin 相關疲勞、慢性疲勞症候群等不同族群,疲勞量表不一致,必須用標準化單位才能合併。
RR 與 OR 又怎麼讀?
SMD 處理的是連續變項(如疲勞分數、血壓數值)。但很多研究的結果是「事件有沒有發生」這類二元變項(如是否再次心肌梗塞、是否復發)。這時候用的不是 SMD,而是 RR(Relative Risk,相對風險)或 OR(Odds Ratio,勝算比)。
- RR = 1:兩組事件機率相同,介入沒效果
- RR < 1:介入組事件較少(通常代表保護效果)
- RR > 1:介入組事件較多(通常代表風險增加)
例如 RR = 0.8 代表介入組的事件機率是對照組的 80%,等於降低 20% 風險。OR 的解讀方向類似但數學定義不同,當事件不罕見時,OR 會比 RR 更為極端。
回到 CoQ10:Hedges' g = -0.398 到底意味著什麼?
有了上述基礎,現在來看 Tsai IC 等人 2022 年發表於《Frontiers in Pharmacology》的這篇統合分析(PMID: 36091835)。研究團隊納入 13 項隨機對照試驗、共 1,126 位受試者,劑量範圍 100-300 mg/天,補充期間 4-24 週,對照組為安慰劑。
合併結果為 Hedges' g = -0.398,95% 信賴區間從 -0.641 到 -0.155,p = 0.001。讓我們逐項拆解這個數字:
第一,方向:負號代表 CoQ10 組的疲勞分數比安慰劑組「低」。在疲勞量表上分數越低代表疲勞越輕,所以負號是好消息。
第二,大小:絕對值 0.398 落在 Cohen 標準的 0.2(小)與 0.5(中等)之間,作者群將其描述為「small-to-moderate effect」(小至中等程度效果)。這不是巨大的療效,但對於一個營養補充劑而言是有實質臨床意義的。
第三,信賴區間:95% CI 從 -0.641 到 -0.155,整個區間都在零的左側,而且不跨越 0。這代表合併估計具統計顯著性,且即使取信賴區間的上限(最保守估計),效果量仍是 -0.155,仍屬於可偵測的小效果。
第四,p 值:p = 0.001 強化「這個差異不是隨機」的結論,但如前文所述,p 值不能單獨判讀,必須與效果量、信賴區間並看。
為什麼小效果也值得重視?
讀者可能會問:g = 0.398 才小至中等,這樣的補充劑值得吃嗎?這個問題沒有單一答案,需要從三個面向衡量:
第一,對照基準。在症狀管理研究裡,許多被廣泛使用的介入措施其效果量也僅落在 0.2~0.5 區間。換言之,這個效果量在脈絡中並不算薄弱。
第二,安全性。Tsai 等人的分析顯示,602 名 CoQ10 組受試者中只有 1 例腸胃不適不良事件。當一項介入措施安全性極佳、副作用罕見,即使效果量中等也具實用價值,因為「風險–效益比」相對有利。
第三,劑量–反應關係。該分析也指出,每日劑量越高、補充期間越長,疲勞改善越明顯;單方配方的效果優於複方(複方中 CoQ10 劑量常被稀釋)。這暗示 g = -0.398 是「平均效果」,個別情境下若採用足量單方並維持較長期間,實際效果可能更接近區間下緣的 -0.641。
讀效果量時的常見陷阱是什麼?
第一個陷阱是把 Cohen 的標準當絕對。0.2/0.5/0.8 只是經驗法則,不同領域、不同結果指標、不同臨床場景的「有意義最小差異」(minimum clinically important difference, MCID)都不同。理想做法是同時報告效果量與該領域的 MCID。
第二個陷阱是忽略異質性。統合分析常用 I² 統計量描述各研究結果的不一致程度。當 I² 偏高(如 > 50%),合併出來的單一效果量未必能代表所有族群,需要進一步做次群組分析。
第三個陷阱是混淆效果量與臨床意義。一個 g = 0.8 的大效果量,如果評量的是「自評焦慮量表第 3 題分數」,可能對日常生活影響有限;反之 g = 0.3 但評量的是「住院天數」或「重大心血管事件率」,臨床意義可能極大。讀文獻時,同時看效果量、結果指標的臨床份量、與安全性,才能形成完整判斷。
專家與學會怎麼看?
關於效果量在臨床決策中的角色,國際統計與循證醫學社群有共識性的方法學立場。Cochrane 協作組織在其《Handbook for Systematic Reviews of Interventions》明確建議,統合分析報告應同時呈現效果量點估計、信賴區間與異質性指標,並避免單獨依賴 p 值判讀結果。American Statistical Association(ASA)2016 年發表的「p 值聲明」也強調,p 值不應作為科學結論或政策決定的唯一依據,必須與效果量、研究設計品質與臨床脈絡並看。
在 CoQ10 與粒線體營養素的具體應用上,國際營養精神病學研究學會(International Society for Nutritional Psychiatry Research, ISNPR)等專業團體傾向以「證據等級+效果量+安全性」三維度評估補充劑的臨床位置。對於 CoQ10 抗疲勞,目前的統合分析證據雖屬小至中等效果量,但因研究等級為 A、安全性極高,多被視為「合理的輔助選項」而非主要治療。
結語:與數字共處的能力是什麼?
讀懂效果量不只是學會幾個希臘字母,更是培養一種與科學數字共處的能力。下次看到 Hedges' g、SMD、RR 或 OR,請不要只看 p 值,記得問四個問題:方向是什麼?大小如何?信賴區間在哪?臨床意義為何?當你能對這四個問題提出回答,你就已經比 95% 的健康資訊讀者更接近研究真相了。