為什麼系統性回顧是循證醫學的頂端？

在循證醫學的證據金字塔中，系統性回顧（Systematic Review, SR）與統合分析（Meta-analysis, MA）位居最上層。原因在於它不只是把研究「彙整起來」，而是用嚴謹、可複製、預先註冊的方法學流程，把同一個臨床問題下所有可得的隨機對照試驗（RCT）綜合起來，得出比單一研究更穩健的效應估計。

2023 年發表於《Reproductive Sciences》的 Zhang 等人研究（PMID: 35941510），就是一個典型的範例：作者納入 9 項 RCT、共 1,021 名患者，評估輔酶 Q10（CoQ10）對多囊性卵巢症候群（PCOS）的療效與安全性。本文將以這篇統合分析為案例，逐步拆解 SR/MA 的標準操作流程，讓讀者理解一篇高品質的證據綜合是怎麼產生的。

第一步：PICO 框架如何定義一個可回答的臨床問題？

SR/MA 的起點不是「我想看 CoQ10 對 PCOS 有沒有效」這種模糊問句，而是用 PICO 框架把問題結構化：

P（Population）：成年 PCOS 患者（依 Rotterdam 等診斷標準）
I（Intervention）：CoQ10 補充，劑量 100–200 mg/天，持續 8–12 週
C（Comparator）：安慰劑對照
O（Outcome）：主要結局為胰島素抗性（HOMA-IR）、空腹胰島素、空腹血糖；次要結局為性荷爾蒙（FSH、睪固酮）、血脂（TG、TC、LDL-C、HDL-C）、BMI、腰圍與不良反應

PICO 不只是學術形式主義。它直接決定了後續的檢索字串、納入排除標準、結局萃取與分組分析。一個沒有清楚定義 PICO 的研究，往往會在資料萃取階段陷入「這篇要不要納入」的反覆爭議。

第二步：檢索策略如何做到「全面」與「可複製」？

系統性回顧的「系統性」三個字，最關鍵的就在檢索策略。Zhang 等人遵循標準做法，包含三個原則：

多資料庫並行：典型 SR 至少檢索 PubMed、Embase、Cochrane Central、Web of Science 四大資料庫；中文研究會額外納入 CNKI、Wanfang。單一資料庫會漏掉約 20–30% 的相關研究。
結構化檢索字串：用 MeSH 主題詞（如 "Ubiquinone"、"Polycystic Ovary Syndrome"）配合自由詞（CoQ10、coenzyme Q10、PCOS）並用布林邏輯（AND/OR）組合。每個資料庫的字串都要在論文附錄完整公開，讓他人可以複製。
補充檢索：除了資料庫，還要追蹤已納入研究的參考文獻清單（snowballing）、檢索試驗註冊平台（ClinicalTrials.gov、WHO ICTRP）、聯繫原作者索取未發表資料，以降低發表偏誤。

檢索結果通常用 PRISMA 流程圖呈現：從「初步檢索 N 篇」→「去重後 N 篇」→「標題摘要篩選 N 篇」→「全文評估 N 篇」→「最終納入 N 篇」，每一階段排除的數量與原因都要留下軌跡。

第三步：納入排除標準怎麼設？

納入排除標準必須在研究計畫（protocol）階段就預先註冊到 PROSPERO 等平台，避免事後挑選對自己論點有利的研究。Zhang 等人的標準大致如下：

納入條件：

研究設計為隨機對照試驗（RCT）
受試者為臨床診斷的 PCOS 患者
介入組為 CoQ10 單方補充
對照組為安慰劑
至少報告一項本研究預設的結局指標

排除條件：

非 RCT（觀察性研究、動物實驗、體外試驗）
受試者合併其他重大疾病或使用會干擾結局的藥物
介入組包含其他活性成分混合（無法區分 CoQ10 的獨立效應）
重複發表、會議摘要、無法取得全文
數據不完整且無法聯繫原作者補齊

標準越嚴格，納入研究越同質，但樣本數會減少；標準越寬鬆，外推性越好，但異質性會升高。這是 SR/MA 設計的永恆權衡。

第四步：偏誤風險評估——為什麼 Cochrane RoB 工具是金標準？

納入研究後，下一步是評估每篇 RCT 的偏誤風險（Risk of Bias, RoB）。Cochrane 提出的 RoB 2.0 工具是目前 RCT 評估的金標準，從五個維度檢視：

隨機分配過程：是否使用真正的隨機序列產生？分配是否隱蔽（allocation concealment）？
介入偏誤：是否對受試者與研究人員進行雙盲？
缺失資料：失訪率多少？是否使用意向治療分析（ITT）？
結局測量：評估者是否盲性？測量工具是否客觀？
選擇性報告：是否所有預先設定的結局都報告了？

每個維度評為「低風險、有疑慮、高風險」三級。如果一篇研究多個維度都是高風險，作者通常會在敏感性分析中把它排除，看主要結論是否會改變。

第五步：效應量怎麼合併？固定效應 vs 隨機效應模型

統合分析的核心數學工具，是把多篇研究的效應量（effect size）加權合併成一個總體估計值。對於連續變數（如 HOMA-IR），常用的效應量是「加權平均差」（Weighted Mean Difference, WMD）或「標準化平均差」（Standardized Mean Difference, SMD）；對於二元結局（如不良反應發生率），則用「相對風險」（RR）或「勝算比」（OR）。

合併時必須選擇模型：

固定效應模型：假設所有研究估計的是同一個真實效應，差異純粹來自隨機誤差。適用於同質性高的研究。
隨機效應模型：假設每篇研究的真實效應略有不同（因為人群、劑量、療程不同），合併時要把研究間變異也納入。當異質性中等以上時應使用此模型。

Zhang 等人在主分析中使用隨機效應模型，因為納入的 9 篇 RCT 在劑量（100–200 mg）、療程（8–12 週）與基線特徵上存在合理差異。

第六步：異質性檢驗——I² 統計量怎麼讀？

異質性（heterogeneity）指的是各研究效應量之間的差異程度。判讀工具有兩個：

Cochran's Q test：檢驗各研究效應是否來自同一母體，p 值小於 0.10 表示存在統計上的異質性。
I² 統計量：量化異質性的比例。一般判讀：
- I² < 25%：低異質性
- I² = 25–50%：中度異質性
- I² = 50–75%：實質異質性
- I² > 75%：高度異質性

當異質性偏高時，作者必須進一步追問「為什麼差異這麼大？」常見的處理包括：次群組分析（subgroup analysis，例如依劑量、療程、年齡分層）、統合迴歸（meta-regression，把劑量當連續變項放入模型）、或直接放棄合併、改為敘述性綜合。

第七步：敏感性分析與發表偏誤檢驗是什麼？

一篇可信賴的統合分析還會做兩件事：

敏感性分析（Sensitivity Analysis）：依序排除每一篇研究，重新計算合併效應，看主要結論是否會被某一篇研究主導。如果排除任何一篇後 p 值都仍然顯著、效應方向不變，則結論穩健。

發表偏誤檢驗（Publication Bias）：陽性結果比較容易被發表，這會導致統合分析高估真實效應。常用的檢驗工具包括：

漏斗圖（Funnel plot）：把效應量對標準誤畫散點圖。如果對稱，表示沒有明顯偏誤；不對稱則暗示小型陰性研究可能未被發表。
Egger's test：對漏斗圖不對稱性做統計檢驗，p < 0.05 表示存在發表偏誤。
trim-and-fill：估計被「掩埋」的研究數量並補回，重新計算校正後效應。

案例結果：CoQ10 對 PCOS 的合併效應是什麼？

回到 Zhang 等人的研究結果。經過上述完整流程，9 篇 RCT、1,021 名 PCOS 患者的合併分析顯示：

胰島素抗性：HOMA-IR 顯著降低，達到統計與臨床雙重意義
代謝指標：空腹胰島素、空腹血糖均顯著下降
荷爾蒙：FSH 與睪固酮水平顯著降低
血脂：三酸甘油脂、總膽固醇、LDL-C 顯著下降，HDL-C 顯著上升
體位：BMI 與腰圍未見顯著變化
安全性：僅一項 RCT 報告不良反應監測，整體耐受性良好

作者結論認為，CoQ10 100–200 mg/天、8–12 週的補充，是 PCOS 患者改善胰島素抗性與代謝異常的合理輔助策略。

專家與學會怎麼看？

Cochrane Collaboration 在《Cochrane Handbook for Systematic Reviews of Interventions》中明確指出，SR/MA 的方法學透明度是評估證據可信度的首要條件，所有檢索字串、納入排除流程、偏誤風險評估都應在論文或附錄完整公開。GRADE 工作小組（Grading of Recommendations Assessment, Development and Evaluation）也建議，即使統合分析得出顯著結果，仍需依研究品質、一致性、直接性、精確度與發表偏誤五個維度，將證據等級評為「高、中、低、極低」。本案例的證據等級為 A 級，但因納入研究的偏誤風險與療程仍偏短，臨床應用上建議搭配生活型態介入綜合評估。國際營養與精神病學研究學會（ISNPR）與多個生殖醫學會也指出，營養介入研究在女性健康領域仍需更多長期、大樣本 RCT，以強化證據基礎。

本文小結是什麼？

從 PICO 框架到異質性檢驗，系統性回顧與統合分析的每一步都建立在「可複製、可審查、預先註冊」的原則上。Zhang 等人的 CoQ10–PCOS 統合分析雖然規模不大，但完整呈現了 SR/MA 的標準流程，是學習方法學的良好範例。讀者下次看到「研究顯示 X 有效」的健康資訊時，不妨追問：那是單篇研究還是統合分析？檢索策略涵蓋幾個資料庫？異質性如何？敏感性分析結果為何？這些問題的答案，往往才是判斷一份證據可不可信的關鍵。

9 篇 RCT 統合分析：CoQ10 與 PCOS 的方法學拆解

為什麼系統性回顧是循證醫學的頂端？

第一步：PICO 框架如何定義一個可回答的臨床問題？

第二步：檢索策略如何做到「全面」與「可複製」？

第三步：納入排除標準怎麼設？

第四步：偏誤風險評估——為什麼 Cochrane RoB 工具是金標準？

第五步：效應量怎麼合併？固定效應 vs 隨機效應模型

第六步：異質性檢驗——I² 統計量怎麼讀？

第七步：敏感性分析與發表偏誤檢驗是什麼？

案例結果：CoQ10 對 PCOS 的合併效應是什麼？

專家與學會怎麼看？

本文小結是什麼？

參考來源

品質保證

延伸閱讀

網絡統合分析：為何 Q10 劑量比較需要 NMA

孟德爾隨機化如何檢驗 Q10 的因果效應？

貝氏統計如何改寫 Q10 meta-analysis 的證據詮釋？

Q10 研究還缺什麼？五大空白盤點