翻開一篇統合分析（meta-analysis），最常見的場景是：摘要寫著「Hedges' g = -0.398, 95% CI: -0.641 to -0.155, p = 0.001」，然後讀者愣住了。這個 -0.398 到底是大是小？比 0.5 大還是小？跟 RR = 0.8 哪個比較有意義？本文以 2022 年發表於《Frontiers in Pharmacology》的一篇 CoQ10 抗疲勞統合分析為例，帶讀者完整解讀效果量（effect size）這個概念。

為什麼需要效果量這個概念？

許多人讀研究時只看 p 值，覺得 p < 0.05 就是有效。但 p 值只回答一個問題：「這個差異是不是運氣造成的？」它不告訴你差異有多大。一項 10,000 人的試驗，即使兩組差異只有 0.1 分，p 值也可能極小；反之，一項 30 人的小型試驗，即使兩組差異很大，p 值也可能不顯著。

效果量則回答另一個問題：「這個差異實際上有多大？」它把差異標準化，讓不同量表、不同樣本、不同研究之間可以互相比較。在統合分析裡，效果量是把多項研究合併運算的共同單位。

Cohen's d 與 Hedges' g 有什麼差別？

最常見的連續變項效果量是 Cohen's d，由心理學家 Jacob Cohen 在 1969 年提出。它的計算方式很直觀：兩組平均值的差，除以合併標準差。直白地說，d = 0.5 代表兩組差距等於半個標準差。

Hedges' g 則是 Cohen's d 的修正版，由 Larry Hedges 於 1981 年提出。當研究樣本數不大時（特別是 n < 20），Cohen's d 會略為高估真實效果量。Hedges' g 加入一個小樣本校正係數，讓估計更為準確。在統合分析裡，因為要合併多項小型研究，Hedges' g 比 Cohen's d 更常被採用。

當樣本數夠大時，Hedges' g 與 Cohen's d 的數值幾乎相同。它們的判讀標準也共用同一套：

0.2 左右：小效果（small effect）
0.5 左右：中等效果（medium effect）
0.8 以上：大效果（large effect）

這套標準是 Cohen 自己提出的經驗法則，並非絕對。在不同研究領域，「大」與「小」的意義也不同。例如教育心理學的介入研究常見 d = 0.2~0.4，而藥物試驗的某些指標可能要 d > 0.8 才被視為臨床有意義。

SMD 又是什麼？

SMD 是 Standardized Mean Difference（標準化平均差）的縮寫，是一個通稱，泛指所有「把平均差除以標準差」的效果量。Cohen's d 與 Hedges' g 都屬於 SMD 家族，差別在於使用哪一種標準差估算法與是否做小樣本校正。

當統合分析納入的多項研究使用「不同的疲勞量表」時（例如有的用 Fatigue Severity Scale，有的用 Brief Fatigue Inventory），分數無法直接相加。研究者就會把每項研究的結果轉換成 SMD，再用統計權重合併。這也是 Tsai 等人 2022 年這篇 CoQ10 統合分析採用 Hedges' g 的原因——納入的 13 項 RCT 涵蓋纖維肌痛、多發性硬化症、Statin 相關疲勞、慢性疲勞症候群等不同族群，疲勞量表不一致，必須用標準化單位才能合併。

RR 與 OR 又怎麼讀？

SMD 處理的是連續變項（如疲勞分數、血壓數值）。但很多研究的結果是「事件有沒有發生」這類二元變項（如是否再次心肌梗塞、是否復發）。這時候用的不是 SMD，而是 RR（Relative Risk，相對風險）或 OR（Odds Ratio，勝算比）。

RR = 1：兩組事件機率相同，介入沒效果
RR < 1：介入組事件較少（通常代表保護效果）
RR > 1：介入組事件較多（通常代表風險增加）

例如 RR = 0.8 代表介入組的事件機率是對照組的 80%，等於降低 20% 風險。OR 的解讀方向類似但數學定義不同，當事件不罕見時，OR 會比 RR 更為極端。

回到 CoQ10：Hedges' g = -0.398 到底意味著什麼？

有了上述基礎，現在來看 Tsai IC 等人 2022 年發表於《Frontiers in Pharmacology》的這篇統合分析（PMID: 36091835）。研究團隊納入 13 項隨機對照試驗、共 1,126 位受試者，劑量範圍 100-300 mg/天，補充期間 4-24 週，對照組為安慰劑。

合併結果為 Hedges' g = -0.398，95% 信賴區間從 -0.641 到 -0.155，p = 0.001。讓我們逐項拆解這個數字：

第一，方向：負號代表 CoQ10 組的疲勞分數比安慰劑組「低」。在疲勞量表上分數越低代表疲勞越輕，所以負號是好消息。

第二，大小：絕對值 0.398 落在 Cohen 標準的 0.2（小）與 0.5（中等）之間，作者群將其描述為「small-to-moderate effect」（小至中等程度效果）。這不是巨大的療效，但對於一個營養補充劑而言是有實質臨床意義的。

第三，信賴區間：95% CI 從 -0.641 到 -0.155，整個區間都在零的左側，而且不跨越 0。這代表合併估計具統計顯著性，且即使取信賴區間的上限（最保守估計），效果量仍是 -0.155，仍屬於可偵測的小效果。

第四，p 值：p = 0.001 強化「這個差異不是隨機」的結論，但如前文所述，p 值不能單獨判讀，必須與效果量、信賴區間並看。

為什麼小效果也值得重視？

讀者可能會問：g = 0.398 才小至中等，這樣的補充劑值得吃嗎？這個問題沒有單一答案，需要從三個面向衡量：

第一，對照基準。在症狀管理研究裡，許多被廣泛使用的介入措施其效果量也僅落在 0.2~0.5 區間。換言之，這個效果量在脈絡中並不算薄弱。

第二，安全性。Tsai 等人的分析顯示，602 名 CoQ10 組受試者中只有 1 例腸胃不適不良事件。當一項介入措施安全性極佳、副作用罕見，即使效果量中等也具實用價值，因為「風險–效益比」相對有利。

第三，劑量–反應關係。該分析也指出，每日劑量越高、補充期間越長，疲勞改善越明顯；單方配方的效果優於複方（複方中 CoQ10 劑量常被稀釋）。這暗示 g = -0.398 是「平均效果」，個別情境下若採用足量單方並維持較長期間，實際效果可能更接近區間下緣的 -0.641。

讀效果量時的常見陷阱是什麼？

第一個陷阱是把 Cohen 的標準當絕對。0.2/0.5/0.8 只是經驗法則，不同領域、不同結果指標、不同臨床場景的「有意義最小差異」（minimum clinically important difference, MCID）都不同。理想做法是同時報告效果量與該領域的 MCID。

第二個陷阱是忽略異質性。統合分析常用 I² 統計量描述各研究結果的不一致程度。當 I² 偏高（如 > 50%），合併出來的單一效果量未必能代表所有族群，需要進一步做次群組分析。

第三個陷阱是混淆效果量與臨床意義。一個 g = 0.8 的大效果量，如果評量的是「自評焦慮量表第 3 題分數」，可能對日常生活影響有限；反之 g = 0.3 但評量的是「住院天數」或「重大心血管事件率」，臨床意義可能極大。讀文獻時，同時看效果量、結果指標的臨床份量、與安全性，才能形成完整判斷。

專家與學會怎麼看？

關於效果量在臨床決策中的角色，國際統計與循證醫學社群有共識性的方法學立場。Cochrane 協作組織在其《Handbook for Systematic Reviews of Interventions》明確建議，統合分析報告應同時呈現效果量點估計、信賴區間與異質性指標，並避免單獨依賴 p 值判讀結果。American Statistical Association（ASA）2016 年發表的「p 值聲明」也強調，p 值不應作為科學結論或政策決定的唯一依據，必須與效果量、研究設計品質與臨床脈絡並看。

在 CoQ10 與粒線體營養素的具體應用上，國際營養精神病學研究學會（International Society for Nutritional Psychiatry Research, ISNPR）等專業團體傾向以「證據等級＋效果量＋安全性」三維度評估補充劑的臨床位置。對於 CoQ10 抗疲勞，目前的統合分析證據雖屬小至中等效果量，但因研究等級為 A、安全性極高，多被視為「合理的輔助選項」而非主要治療。

結語：與數字共處的能力是什麼？

讀懂效果量不只是學會幾個希臘字母，更是培養一種與科學數字共處的能力。下次看到 Hedges' g、SMD、RR 或 OR，請不要只看 p 值，記得問四個問題：方向是什麼？大小如何？信賴區間在哪？臨床意義為何？當你能對這四個問題提出回答，你就已經比 95% 的健康資訊讀者更接近研究真相了。

讀懂效果量：CoQ10 抗疲勞 Hedges' g = -0.398 是大是小？

為什麼需要效果量這個概念？

Cohen's d 與 Hedges' g 有什麼差別？

SMD 又是什麼？

RR 與 OR 又怎麼讀？

回到 CoQ10：Hedges' g = -0.398 到底意味著什麼？

為什麼小效果也值得重視？

讀效果量時的常見陷阱是什麼？

專家與學會怎麼看？

結語：與數字共處的能力是什麼？

參考來源

品質保證

延伸閱讀

子群分析怎麼讀？CoQ10 血壓研究的方法學指南

敏感性分析怎麼看？CoQ10 疲勞研究的方法學檢視

CoQ10 劑量反應統計：為何是 U 型而非線性？

Q10 研究還缺什麼？五大空白盤點