為什麼系統性回顧是循證醫學的頂端?
在循證醫學的證據金字塔中,系統性回顧(Systematic Review, SR)與統合分析(Meta-analysis, MA)位居最上層。原因在於它不只是把研究「彙整起來」,而是用嚴謹、可複製、預先註冊的方法學流程,把同一個臨床問題下所有可得的隨機對照試驗(RCT)綜合起來,得出比單一研究更穩健的效應估計。
2023 年發表於《Reproductive Sciences》的 Zhang 等人研究(PMID: 35941510),就是一個典型的範例:作者納入 9 項 RCT、共 1,021 名患者,評估輔酶 Q10(CoQ10)對多囊性卵巢症候群(PCOS)的療效與安全性。本文將以這篇統合分析為案例,逐步拆解 SR/MA 的標準操作流程,讓讀者理解一篇高品質的證據綜合是怎麼產生的。
第一步:PICO 框架如何定義一個可回答的臨床問題?
SR/MA 的起點不是「我想看 CoQ10 對 PCOS 有沒有效」這種模糊問句,而是用 PICO 框架把問題結構化:
- P(Population):成年 PCOS 患者(依 Rotterdam 等診斷標準)
- I(Intervention):CoQ10 補充,劑量 100–200 mg/天,持續 8–12 週
- C(Comparator):安慰劑對照
- O(Outcome):主要結局為胰島素抗性(HOMA-IR)、空腹胰島素、空腹血糖;次要結局為性荷爾蒙(FSH、睪固酮)、血脂(TG、TC、LDL-C、HDL-C)、BMI、腰圍與不良反應
PICO 不只是學術形式主義。它直接決定了後續的檢索字串、納入排除標準、結局萃取與分組分析。一個沒有清楚定義 PICO 的研究,往往會在資料萃取階段陷入「這篇要不要納入」的反覆爭議。
第二步:檢索策略如何做到「全面」與「可複製」?
系統性回顧的「系統性」三個字,最關鍵的就在檢索策略。Zhang 等人遵循標準做法,包含三個原則:
- 多資料庫並行:典型 SR 至少檢索 PubMed、Embase、Cochrane Central、Web of Science 四大資料庫;中文研究會額外納入 CNKI、Wanfang。單一資料庫會漏掉約 20–30% 的相關研究。
- 結構化檢索字串:用 MeSH 主題詞(如 "Ubiquinone"、"Polycystic Ovary Syndrome")配合自由詞(CoQ10、coenzyme Q10、PCOS)並用布林邏輯(AND/OR)組合。每個資料庫的字串都要在論文附錄完整公開,讓他人可以複製。
- 補充檢索:除了資料庫,還要追蹤已納入研究的參考文獻清單(snowballing)、檢索試驗註冊平台(ClinicalTrials.gov、WHO ICTRP)、聯繫原作者索取未發表資料,以降低發表偏誤。
檢索結果通常用 PRISMA 流程圖呈現:從「初步檢索 N 篇」→「去重後 N 篇」→「標題摘要篩選 N 篇」→「全文評估 N 篇」→「最終納入 N 篇」,每一階段排除的數量與原因都要留下軌跡。
第三步:納入排除標準怎麼設?
納入排除標準必須在研究計畫(protocol)階段就預先註冊到 PROSPERO 等平台,避免事後挑選對自己論點有利的研究。Zhang 等人的標準大致如下:
納入條件:
- 研究設計為隨機對照試驗(RCT)
- 受試者為臨床診斷的 PCOS 患者
- 介入組為 CoQ10 單方補充
- 對照組為安慰劑
- 至少報告一項本研究預設的結局指標
排除條件:
- 非 RCT(觀察性研究、動物實驗、體外試驗)
- 受試者合併其他重大疾病或使用會干擾結局的藥物
- 介入組包含其他活性成分混合(無法區分 CoQ10 的獨立效應)
- 重複發表、會議摘要、無法取得全文
- 數據不完整且無法聯繫原作者補齊
標準越嚴格,納入研究越同質,但樣本數會減少;標準越寬鬆,外推性越好,但異質性會升高。這是 SR/MA 設計的永恆權衡。
第四步:偏誤風險評估——為什麼 Cochrane RoB 工具是金標準?
納入研究後,下一步是評估每篇 RCT 的偏誤風險(Risk of Bias, RoB)。Cochrane 提出的 RoB 2.0 工具是目前 RCT 評估的金標準,從五個維度檢視:
- 隨機分配過程:是否使用真正的隨機序列產生?分配是否隱蔽(allocation concealment)?
- 介入偏誤:是否對受試者與研究人員進行雙盲?
- 缺失資料:失訪率多少?是否使用意向治療分析(ITT)?
- 結局測量:評估者是否盲性?測量工具是否客觀?
- 選擇性報告:是否所有預先設定的結局都報告了?
每個維度評為「低風險、有疑慮、高風險」三級。如果一篇研究多個維度都是高風險,作者通常會在敏感性分析中把它排除,看主要結論是否會改變。
第五步:效應量怎麼合併?固定效應 vs 隨機效應模型
統合分析的核心數學工具,是把多篇研究的效應量(effect size)加權合併成一個總體估計值。對於連續變數(如 HOMA-IR),常用的效應量是「加權平均差」(Weighted Mean Difference, WMD)或「標準化平均差」(Standardized Mean Difference, SMD);對於二元結局(如不良反應發生率),則用「相對風險」(RR)或「勝算比」(OR)。
合併時必須選擇模型:
- 固定效應模型:假設所有研究估計的是同一個真實效應,差異純粹來自隨機誤差。適用於同質性高的研究。
- 隨機效應模型:假設每篇研究的真實效應略有不同(因為人群、劑量、療程不同),合併時要把研究間變異也納入。當異質性中等以上時應使用此模型。
Zhang 等人在主分析中使用隨機效應模型,因為納入的 9 篇 RCT 在劑量(100–200 mg)、療程(8–12 週)與基線特徵上存在合理差異。
第六步:異質性檢驗——I² 統計量怎麼讀?
異質性(heterogeneity)指的是各研究效應量之間的差異程度。判讀工具有兩個:
- Cochran's Q test:檢驗各研究效應是否來自同一母體,p 值小於 0.10 表示存在統計上的異質性。
- I² 統計量:量化異質性的比例。一般判讀:
- I² < 25%:低異質性
- I² = 25–50%:中度異質性
- I² = 50–75%:實質異質性
- I² > 75%:高度異質性
當異質性偏高時,作者必須進一步追問「為什麼差異這麼大?」常見的處理包括:次群組分析(subgroup analysis,例如依劑量、療程、年齡分層)、統合迴歸(meta-regression,把劑量當連續變項放入模型)、或直接放棄合併、改為敘述性綜合。
第七步:敏感性分析與發表偏誤檢驗是什麼?
一篇可信賴的統合分析還會做兩件事:
敏感性分析(Sensitivity Analysis):依序排除每一篇研究,重新計算合併效應,看主要結論是否會被某一篇研究主導。如果排除任何一篇後 p 值都仍然顯著、效應方向不變,則結論穩健。
發表偏誤檢驗(Publication Bias):陽性結果比較容易被發表,這會導致統合分析高估真實效應。常用的檢驗工具包括:
- 漏斗圖(Funnel plot):把效應量對標準誤畫散點圖。如果對稱,表示沒有明顯偏誤;不對稱則暗示小型陰性研究可能未被發表。
- Egger's test:對漏斗圖不對稱性做統計檢驗,p < 0.05 表示存在發表偏誤。
- trim-and-fill:估計被「掩埋」的研究數量並補回,重新計算校正後效應。
案例結果:CoQ10 對 PCOS 的合併效應是什麼?
回到 Zhang 等人的研究結果。經過上述完整流程,9 篇 RCT、1,021 名 PCOS 患者的合併分析顯示:
- 胰島素抗性:HOMA-IR 顯著降低,達到統計與臨床雙重意義
- 代謝指標:空腹胰島素、空腹血糖均顯著下降
- 荷爾蒙:FSH 與睪固酮水平顯著降低
- 血脂:三酸甘油脂、總膽固醇、LDL-C 顯著下降,HDL-C 顯著上升
- 體位:BMI 與腰圍未見顯著變化
- 安全性:僅一項 RCT 報告不良反應監測,整體耐受性良好
作者結論認為,CoQ10 100–200 mg/天、8–12 週的補充,是 PCOS 患者改善胰島素抗性與代謝異常的合理輔助策略。
專家與學會怎麼看?
Cochrane Collaboration 在《Cochrane Handbook for Systematic Reviews of Interventions》中明確指出,SR/MA 的方法學透明度是評估證據可信度的首要條件,所有檢索字串、納入排除流程、偏誤風險評估都應在論文或附錄完整公開。GRADE 工作小組(Grading of Recommendations Assessment, Development and Evaluation)也建議,即使統合分析得出顯著結果,仍需依研究品質、一致性、直接性、精確度與發表偏誤五個維度,將證據等級評為「高、中、低、極低」。本案例的證據等級為 A 級,但因納入研究的偏誤風險與療程仍偏短,臨床應用上建議搭配生活型態介入綜合評估。國際營養與精神病學研究學會(ISNPR)與多個生殖醫學會也指出,營養介入研究在女性健康領域仍需更多長期、大樣本 RCT,以強化證據基礎。
本文小結是什麼?
從 PICO 框架到異質性檢驗,系統性回顧與統合分析的每一步都建立在「可複製、可審查、預先註冊」的原則上。Zhang 等人的 CoQ10–PCOS 統合分析雖然規模不大,但完整呈現了 SR/MA 的標準流程,是學習方法學的良好範例。讀者下次看到「研究顯示 X 有效」的健康資訊時,不妨追問:那是單篇研究還是統合分析?檢索策略涵蓋幾個資料庫?異質性如何?敏感性分析結果為何?這些問題的答案,往往才是判斷一份證據可不可信的關鍵。