當你看到一篇統合分析寫著「CoQ10 降低收縮壓 4.77 mmHg（GRADE：中等證據）」，這個「中等」到底是怎麼評出來的？是研究者隨手打的分數，還是有一套國際通用的方法學？答案是後者——GRADE（Grading of Recommendations Assessment, Development and Evaluation）是目前全球臨床指引最廣泛採用的證據評估系統，從 WHO 到美國內科醫師學會都以它為標準。本文以 2023 年 Advances in Nutrition 的 CoQ10 血壓統合分析（PMID: 36130103）與 2022 年 eClinicalMedicine 的 CoQ10 血糖統合分析（PMID: 35958521）為案例，拆解 GRADE 五大降級因素如何把「26 項 RCT、1,831 人」這樣龐大的證據量，最後判定為「中等」而非「高」。

GRADE 是什麼？為什麼不是所有 RCT 都算「高證據」？

GRADE 將證據品質分為四級：高（High）、中等（Moderate）、低（Low）、極低（Very Low）。許多人以為隨機對照試驗（RCT）自動等於高證據，其實這只是「起始等級」。GRADE 的核心邏輯是：RCT 從「高」起跳，但會被五個降級因素往下調；觀察性研究從「低」起跳，但可被三個升級因素往上調。

五個降級因素分別是：偏倚風險（Risk of Bias）、不一致性（Inconsistency）、間接性（Indirectness）、不精確性（Imprecision）、發表偏倚（Publication Bias）。每一項若有「嚴重問題」可降一級，「非常嚴重」可降兩級。也就是說，即使是 26 項 RCT 的統合分析，若多項研究設計存在偏倚、結果異質性高、或樣本量不足以排除臨床無效，最終仍可能落到「中等」甚至「低」。

案例一：CoQ10 降血壓為什麼是「中等」而非「高」？

2023 年 Zamani 團隊發表於 Advances in Nutrition（IF > 10）的劑量效應統合分析，納入 26 項 RCT 共 1,831 名心臟代謝疾病患者。主要發現是 CoQ10 補充顯著降低收縮壓 −4.77 mmHg（95% CI: −6.57, −2.97），且呈現 U 型劑量效應，100–200 mg/天為最佳區間（P_nonlinearity=0.004）。研究者明確報告 GRADE 評估結果：收縮壓為中等證據、舒張壓為低證據、循環 CoQ10 濃度為極低證據。

同樣是同一篇統合分析的同一批研究，為什麼三個結果落在三個不同等級？這就是 GRADE 的精細之處：

收縮壓（中等）：效應方向一致、95% CI 不跨越零、樣本量足夠，但部分原始 RCT 在分配隱藏與盲化上有方法學瑕疵（偏倚風險），降一級。
舒張壓（低）：除上述偏倚外，效應未達統計顯著、研究間異質性較高（不一致性），再降一級。
循環 CoQ10 濃度（極低）：作為「替代終點」（surrogate outcome）而非臨床硬終點，存在間接性問題；加上測量方法異質、發表偏倚疑慮，降三級。

這個案例展示了 GRADE 的價值：它逼研究者把每個結果分開評估，而不是讓「主要結果顯著」的光環掩蓋次要結果的不確定性。

案例二：CoQ10 降血糖的 GRADE 評估如何進行？

2022 年 Liang 團隊發表於 eClinicalMedicine（Lancet 系列子刊）的劑量效應統合分析，納入 40 項 RCT 共 2,424 名糖尿病或代謝異常患者。結果顯示 CoQ10 顯著降低空腹血糖 −5.22 mg/dL、空腹胰島素 −1.32 μIU/mL、HbA1c −0.12%、HOMA-IR −0.69，最佳劑量同樣落在 100–200 mg/天。

這篇研究比前者多了 14 項 RCT、近 600 名受試者，理論上樣本更充足。但 GRADE 評估仍對不同結果給出差異化的等級判讀。原因在於：

HbA1c 的效應量小（−0.12%）：雖然統計顯著（P=0.04），但 95% CI 上限接近零（−0.01），存在不精確性問題。臨床上 HbA1c 下降需達 0.3% 以上才被認為具有意義，這個 −0.12% 屬於「統計顯著但臨床意義有限」。
HOMA-IR 的異質性：胰島素抗性指標在不同族群、不同基線血糖的研究中變異大，異質性檢定（I² 統計量）若高於 50%，GRADE 會以「不一致性」降一級。
劑量範圍寬：60–500 mg/天的劑量跨度大，劑量效應分析雖找到 100–200 mg 為最佳區間，但低劑量與高劑量組的混雜也會引入間接性。

這就是為什麼即便是 Lancet 系列期刊發表、樣本量超過 2,400 人的研究，研究者仍誠實標注每個結果的 GRADE 等級，而非一律宣稱「高證據」。

專家與學會怎麼看 GRADE？

GRADE Working Group 自 2000 年成立以來，已被超過 110 個國際組織採用，包括 WHO、Cochrane Collaboration、英國 NICE、美國 CDC 與 ACP（美國內科醫師學會）。Cochrane 系統性回顧自 2016 年起強制使用 GRADE 評估每個主要結果。BMJ 與 Lancet 系列期刊也鼓勵作者在統合分析中報告 GRADE 評估。

GRADE 的關鍵主張之一是：「證據品質」與「推薦強度」是兩件事。即使證據為「低」，若效益遠大於風險、成本可負擔、患者偏好明確，仍可給出「強推薦」；反之，即使證據為「高」，若效益不確定或副作用顯著，也可僅給「弱推薦」。這個區分讓臨床指引能在不確定性中做出負責任的決策。

看懂 GRADE，讀者能做什麼判斷？

對一般讀者而言，看到一篇宣稱「CoQ10 有效」的報導時，可問三個問題：第一，這是 GRADE 哪一等級的證據？「中等」代表「真實效應可能接近估計值，但仍可能有顯著差異」；「低」代表「真實效應可能與估計值有顯著差異」。第二，研究者報告的是「主要結果」還是「替代終點」？血壓、HbA1c 是硬終點；血液中 CoQ10 濃度只是替代終點。第三，效應量是否具臨床意義？收縮壓降 4.77 mmHg 對心血管風險是有意義的，HbA1c 降 0.12% 則接近邊緣。

對研究者與營養品產業而言，GRADE 提供了誠實揭露不確定性的框架。不必把每個結果都包裝成「強力證據」，而是分層說明：哪些終點較確定、哪些尚需更大型試驗、哪些是替代指標。這種透明度反而有助於建立長期信任。

結語：GRADE 不是打分數，是思考工具是什麼？

GRADE 方法學的真正價值不在於最終那個「高/中/低/極低」的標籤，而在於它強迫研究者與讀者系統性思考：證據從哪裡來？有哪些限制？對應的臨床決策該多保守？兩篇 CoQ10 統合分析示範了同一營養素、同一系統評估法，可以對不同結果給出不同等級——這不是研究的弱點，而是科學透明度的展現。下次看到「GRADE 中等」這類標注，請把它當成一個邀請：邀請你進一步追問效應量、樣本量、研究設計，而不是停留在「有效/無效」的二分法。

GRADE 方法學解讀：CoQ10 證據品質怎麼分等級

GRADE 是什麼？為什麼不是所有 RCT 都算「高證據」？

案例一：CoQ10 降血壓為什麼是「中等」而非「高」？

案例二：CoQ10 降血糖的 GRADE 評估如何進行？

專家與學會怎麼看 GRADE？

看懂 GRADE，讀者能做什麼判斷？

結語：GRADE 不是打分數，是思考工具是什麼？

安全提醒

參考來源

品質保證

本文所屬營養素主題

延伸閱讀

RCT 五大偏差怎麼控制？以 Q-SYMBIO 試驗為例

26 項 RCT × GRADE 評估：Q10 降血壓的完整證據

CoQ10 抗氧化與皮膚老化：兩篇研究的跨研究機轉連結

純素孕婦想補 Q10？安全嗎、要多少