精神科 Meta 分析完整指南：从量表选择到药物疗效的循证综合方法

为什么精神科研究特别需要 Meta 分析
PICO 框架在精神科研究中的应用
精神科 Meta 分析的效应量选择
精神科研究的量表与测量问题
异质性的特殊挑战
亚组与网络 Meta 分析
发表偏倚：精神科的"重灾区"
经典案例解析
用 MetaReview 5 分钟完成精神科 Meta 分析
常见问题

为什么精神科研究特别需要 Meta 分析

精神障碍是全球疾病负担最重的领域之一。根据 GBD（Global Burden of Disease）2019 数据，精神障碍影响全球近 10 亿人，抑郁症和焦虑症分别位居致残原因的第 2 和第 8 位。中国精神障碍的终生患病率约 16.6%，抑郁症患病率约 3.4%，精神分裂症患病率约 0.6%。然而，精神科临床研究面临的方法学挑战比大多数医学领域更为严峻，这使得 Meta 分析在精神科循证医学中的地位不可替代。

效应量普遍较小

与降压药降低 10-15 mmHg 血压或他汀类降低 30-40% LDL-C 这种显而易见的疗效不同，精神科药物的效应量往往较小。以抑郁症为例，多数抗抑郁药 vs 安慰剂的 SMD 仅为 0.3 左右（Cohen's d），对应 HAMD-17 量表约 2 分的差异。这意味着单项 RCT 若样本量不够大（通常需要 300+ 例/组），很容易因统计效力不足而得出阴性结果。Meta 分析通过合并多项试验增加总样本量，是检测这种小效应量的最佳工具。

安慰剂效应显著

精神科是安慰剂效应最强的医学领域之一。抑郁症临床试验中，安慰剂组的响应率通常高达 30-50%，有些试验甚至超过 50%。这不仅削弱了"药物-安慰剂差异"，还导致不同试验之间安慰剂响应率的巨大变异，成为重要的异质性来源。近 30 年来，安慰剂响应率呈逐年上升趋势，使得近期试验比早期试验更难获得阳性结果——这种"年代效应"在 Meta 分析中必须考虑。

量表评估的主观性

精神科疾病不像糖尿病（HbA1c）或高血压（收缩压）那样有客观的生物标志物。疾病严重程度的评估依赖于主观量表，不同量表的分数范围、条目数量和评分标准各不相同。例如抑郁症就有 HAMD-17（0-52 分）、HAMD-21（0-64 分）、MADRS（0-60 分）、PHQ-9（0-27 分）、BDI-II（0-63 分）等十余种量表。不同试验使用不同量表，无法直接以原始分数进行比较——这正是 Meta 分析通过标准化均数差（SMD）统一尺度的核心价值所在。

需要大样本汇总才能得出可靠结论

综合以上三个因素，精神科领域单项 RCT 的证据强度天然受限。一项典型的抗抑郁药 RCT 纳入 200-400 例患者，随访 6-8 周，结果可能受安慰剂响应、评定者偏倚和量表选择的多重影响。只有通过 Meta 分析汇总数十甚至数百项试验的数据，才能：

可靠地估计药物 vs 安慰剂的真实效应量
比较不同药物之间的相对疗效和耐受性
识别对特定亚组（如重度抑郁 vs 轻度抑郁、老年 vs 青壮年）更有效的治疗方案
检测发表偏倚和 industry-sponsored bias 对整体证据的扭曲
为临床指南（如 NICE、APA、中国精神障碍防治指南）提供最高等级的循证依据

Cipriani 等人 2018 年在 Lancet 发表的里程碑研究合并了 522 项 RCT、116,477 例患者的数据，比较了 21 种抗抑郁药的疗效和可接受性，结论是所有抗抑郁药均优于安慰剂（SMD 0.19-0.53），但药物间差异显著——艾司西酞普兰、米氮平和阿米替林疗效最好，氟西汀和文拉法辛可接受性最佳。这种规模的结论不可能从任何单项 RCT 中获得。

PICO 框架在精神科研究中的应用

精神科 Meta 分析的 PICO 框架需要兼顾诊断分类的复杂性、干预手段的多样性（药物 + 心理治疗 + 物理治疗）以及结局评估的主观性。一个精确的 PICO 框架是避免"将苹果和橘子混在一起"的前提。

Population（人群）

精神科的诊断系统本身就是异质性的重要来源。定义目标人群时需明确：

诊断类别	典型诊断标准	核心量表	常见分型/亚型
重性抑郁障碍（MDD）	DSM-5 / ICD-10 / ICD-11	HAMD-17, MADRS, PHQ-9	首发 vs 复发、伴焦虑特征、伴精神病性特征、围产期抑郁
广泛性焦虑障碍（GAD）	DSM-5 / ICD-10	HAM-A, GAD-7	伴/不伴抑郁共病
精神分裂症	DSM-5 / ICD-10	PANSS, BPRS, CGI	首发 vs 慢性、治疗抵抗性（TRS）
双相障碍	DSM-5 / ICD-10	YMRS（躁狂）, HAMD/MADRS（抑郁）	I 型 vs II 型、躁狂期 vs 抑郁期 vs 维持期
创伤后应激障碍（PTSD）	DSM-5 / ICD-11	CAPS-5, PCL-5	急性 vs 慢性、战斗相关 vs 非战斗相关
强迫症（OCD）	DSM-5 / ICD-10	Y-BOCS	治疗抵抗性 OCD
注意缺陷多动障碍（ADHD）	DSM-5 / ICD-10	ADHD-RS, CGI	儿童 vs 成人、注意缺陷为主 vs 多动冲动为主 vs 混合型

DSM-IV 与 DSM-5 的诊断标准存在差异。例如 DSM-5 取消了抑郁症的"丧亲排除"标准，PTSD 从焦虑障碍分类中独立出来成为"创伤和应激相关障碍"。纳入跨越 DSM 版本的试验时，需在方法中说明如何处理诊断标准差异。

Intervention（干预）

精神科干预手段分为三大类：

药物治疗：

SSRIs：氟西汀（fluoxetine）、舍曲林（sertraline）、帕罗西汀（paroxetine）、西酞普兰（citalopram）、艾司西酞普兰（escitalopram）、氟伏沙明（fluvoxamine）
SNRIs：文拉法辛（venlafaxine）、度洛西汀（duloxetine）、去甲文拉法辛（desvenlafaxine）
非典型抗抑郁药：米氮平（mirtazapine）、安非他酮（bupropion）、伏硫西汀（vortioxetine）、阿戈美拉汀（agomelatine）
三环类（TCA）：阿米替林（amitriptyline）、氯米帕明（clomipramine）、丙咪嗪（imipramine）
非典型抗精神病药：利培酮（risperidone）、奥氮平（olanzapine）、喹硫平（quetiapine）、阿立哌唑（aripiprazole）、鲁拉西酮（lurasidone）、卡利拉嗪（cariprazine）
情绪稳定剂：锂盐（lithium）、丙戊酸盐（valproate）、拉莫三嗪（lamotrigine）
抗焦虑药：苯二氮卓类（阿普唑仑、氯硝西泮）、丁螺环酮（buspirone）、普瑞巴林（pregabalin）

心理治疗：

认知行为治疗（CBT） -- 抑郁症、焦虑症、OCD、PTSD 的一线心理治疗
人际治疗（IPT） -- 抑郁症的循证心理治疗
眼动脱敏与再加工（EMDR） -- PTSD 的一线心理治疗
辩证行为治疗（DBT） -- 边缘型人格障碍的标准治疗
接纳承诺治疗（ACT） -- 焦虑和抑郁的第三波 CBT
正念减压疗法（MBSR/MBCT） -- 抑郁复发预防

物理治疗：

电休克治疗（ECT） -- 治疗抵抗性抑郁和紧张症的金标准
经颅磁刺激（rTMS/TMS） -- FDA 批准用于 MDD 和 OCD
深部脑刺激（DBS） -- 难治性 OCD 的探索性治疗

Comparison（对照）

精神科 Meta 分析中对照组的选择极为关键，因为它直接决定了效应量的大小和临床可解读性：

对照类型	含义	效应量影响	适用场景
安慰剂（Placebo）	外观一致的惰性药丸	效应量较小（包含安慰剂效应）	药物疗效评估的金标准
活性对照（Active comparator）	另一种已证实有效的药物	效应量更小（两种有效药比较）	头对头比较，NMA
等待名单（Waitlist）	延迟接受治疗	效应量偏大（无安慰剂效应）	心理治疗试验常用
常规治疗（TAU）	Treatment as usual	效应量中等	实效研究
注意力对照（Attention control）	等量的非特异性关注	控制非特异性因素	心理治疗试验的优质对照

等待名单对照和安慰剂对照不能在同一个 Meta 分析中混合。等待名单组缺乏安慰剂效应（没有治疗期望），使用等待名单对照的试验效应量会系统性地偏大。药物试验和心理治疗试验的对照类型通常不同，合并分析时必须按对照类型分层。

Outcome（结局指标）

结局类型	具体指标	数据类型	效应量
症状严重度变化	HAMD/MADRS/PANSS/Y-BOCS 评分变化	连续变量	SMD (Hedges' g)
响应率	HAMD 评分下降 ≥50%	二分类	OR/RR
缓解率	HAMD ≤7 或 MADRS ≤10	二分类	OR/RR
脱落率（可接受性）	因任何原因提前退出	二分类	OR/RR
因不良反应脱落	因副作用退出	二分类	OR/RR
复发时间	至首次复发事件的时间	时间-事件	HR
特定不良反应	体重增加、性功能障碍、锥体外系反应、QTc 延长	二分类	OR/RR
自杀相关事件	自杀意念、自杀未遂、自杀死亡	二分类	OR/RR (Peto OR)

PICO 示例：SSRIs 治疗成人 MDD 的急性期疗效

PICO 元素	定义	关键考量
P	18-65 岁成人 MDD 患者（DSM-IV/DSM-5/ICD-10），HAMD-17 ≥17 或 MADRS ≥20	排除双相抑郁、精神病性抑郁、产后抑郁？基线严重度如何分层？
I	SSRIs（氟西汀 20-60mg/舍曲林 50-200mg/艾司西酞普兰 10-20mg 等），单药治疗	是否将所有 SSRIs 作为一类合并？不同剂量如何处理？
C	安慰剂	仅纳入双盲 RCT，排除开放标签试验
O	主要：HAMD/MADRS 评分变化（SMD）；次要：响应率（OR）、缓解率（OR）、因不良反应脱落率（OR）	急性期通常为 6-12 周，是否限定最短治疗时间？

在 PROSPERO 注册方案时，必须明确诊断标准版本、量表版本、最短治疗时间、对照类型和主要效应量。精神科 Meta 分析中"P"的精确定义至关重要——一个混合了轻度抑郁、中重度抑郁和治疗抵抗性抑郁的分析可能得出无意义的合并结论。

精神科 Meta 分析的效应量选择

效应量的选择是精神科 Meta 分析最关键的方法学决策之一。与心血管或糖尿病领域不同，精神科的核心挑战在于：几乎所有主要结局指标都依赖于主观评定量表，不同量表的分数不可直接比较。这使得 SMD（标准化均数差）成为精神科 Meta 分析的核心效应量。

SMD（标准化均数差）：精神科的核心效应量

当不同试验使用不同量表测量同一构念（如"抑郁严重度"）时，必须使用 SMD 将效应量标准化到同一尺度：

SMD = (Mean_treatment - Mean_control) / SD_pooled
Hedges' g = SMD × (1 - 3 / (4(n₁+n₂-2) - 1))

SMD 的精神科解读标准（Cohen 1988）：

SMD 范围	效应大小	精神科典型对应
0.2	小效应	多数抗抑郁药 vs 安慰剂（轻度抑郁）
0.5	中效应	CBT vs 等待名单（抑郁症）、抗精神病药 vs 安慰剂（精神分裂症）
0.8	大效应	氯氮平 vs 安慰剂（治疗抵抗性精神分裂症）、ECT vs 假刺激

推荐使用 Hedges' g 而非 Cohen's d。两者区别在于 Hedges' g 对小样本研究进行了偏差校正，更适合精神科常见的中小样本 RCT（n=50-200/组）。当单组样本量 > 50 时，两者差异可忽略不计。

OR/RR：二分类结局

精神科常用的二分类结局指标及其效应量：

响应率 -- 定义为量表评分下降 ≥50%（如 HAMD-17 从基线下降 50%）。使用 OR 或 RR
缓解率 -- 定义为达到症状缓解阈值（如 HAMD-17 ≤7 或 MADRS ≤10）。使用 OR 或 RR
脱落率 -- 因任何原因提前退出（衡量治疗"可接受性"），使用 OR 或 RR
因不良反应脱落 -- 衡量药物耐受性，使用 OR 或 RR
自杀相关事件 -- 罕见事件，推荐使用 Peto OR（对稀少事件更稳健）

NNT = 1 / (CER × (OR - 1) / (OR - 1 + 1/CER))
其中 CER = 对照组事件率（安慰剂组缓解率）

NNT（Number Needed to Treat）是将 OR/RR 转换为临床可理解指标的重要方法。例如，抗抑郁药缓解的 NNT 约为 7-8，意味着每治疗 7-8 个患者有 1 个额外达到缓解。

HR：时间-事件数据

HR 在精神科 Meta 分析中主要用于维持期/预防复发试验：

至复发时间 -- 抗抑郁药维持治疗 vs 安慰剂（停药）的复发率比较
至首次住院时间 -- 抗精神病药长效针剂 vs 口服制剂的住院风险比较
锂盐预防双相复发 -- 至首次躁狂/抑郁发作的时间

效应量选择总结

终点	首选效应量	备选效应量	说明
症状评分变化（多种量表）	SMD (Hedges' g)	--	精神科最核心的效应量
症状评分变化（同一量表）	MD	SMD	仅当所有试验使用同一量表同一版本时
响应率	OR	RR, NNT	HAMD 下降 ≥50%
缓解率	OR	RR, NNT	HAMD ≤7 或 MADRS ≤10
脱落率（可接受性）	OR	RR	Cipriani 2018 以此衡量可接受性
复发时间	HR	--	维持期试验
自杀相关事件	Peto OR	OR	罕见事件，Peto OR 更稳健
体重变化	MD (kg)	--	抗精神病药的重要安全终点

核心原则：不同量表测量的连续变量必须用 SMD 合并，绝对不能用 MD。将 HAMD-17 的分数变化和 MADRS 的分数变化直接以 MD 合并是最常见的初学者错误，因为两个量表的分数范围和单位完全不同。

详细的效应量选择方法请看：OR、RR、MD、SMD 怎么选？Meta 分析效应量完整指南

精神科研究的量表与测量问题

量表选择和测量标准化是精神科 Meta 分析中最棘手的方法学问题。与实验室检查（如 HbA1c、LDL-C）不同，精神科量表的评分受评定者训练水平、患者配合度和文化背景的多重影响。

抑郁症主要评定量表对比

量表	条目数	分数范围	评定方式	缓解阈值	响应定义	优缺点
HAMD-17	17	0-52	医生他评	≤7	下降 ≥50%	最广泛使用，FDA 认可；条目权重不均，躯体症状偏重
HAMD-21	21	0-64	医生他评	≤7（前17项）	下降 ≥50%	增加 4 项非核心抑郁条目；与 HAMD-17 部分兼容
MADRS	10	0-60	医生他评	≤10	下降 ≥50%	对抗抑郁药变化更敏感；条目更均衡
PHQ-9	9	0-27	患者自评	≤4	下降 ≥50%	简短高效，适合大样本筛查；自评可能有偏差
BDI-II	21	0-63	患者自评	≤13	下降 ≥50%	认知症状评估详细；自评量表
CGI-S	1	1-7	医生他评	≤2	--	全局严重度评估，简单直观但不够精细

评定者间信度问题

HAMD 和 MADRS 作为医生他评量表，评定者间信度（inter-rater reliability）直接影响数据质量：

训练有素的评定者之间 HAMD 的组内相关系数（ICC）通常为 0.80-0.95
多中心试验中不同中心的评定标准可能不一致，引入"中心效应"作为异质性来源
结构化访谈工具（如 SIGMA for HAMD、GRID-HAMD）可提高评定者间一致性
部分试验使用中心化评定（centralized raters）通过电话/视频评分，减少中心间差异

患者自评 vs 医生他评

这是精神科 Meta 分析中一个被低估的方法学问题：

医生他评（HAMD、MADRS）往往显示更大的药物-安慰剂差异
患者自评（PHQ-9、BDI-II）的药物-安慰剂差异通常更小
原因可能包括：医生评定受期望效应影响更大（尤其在非盲试验中）、患者自评受健康素养和文化因素影响
Meta 分析中应将医生他评和患者自评结果分开报告，或在敏感性分析中检验评定方式对效应量的影响

基线严重度对效应量的影响——Kirsch 2008 争议

2008 年 Kirsch 等人在 PLoS Medicine 发表的重磅 Meta 分析利用 FDA 注册数据分析了 6 种新一代抗抑郁药的疗效，结论引发了巨大争议：

总体 SMD 约为 0.32，刚好超过 NICE 建议的 0.50 临床显著性阈值的一半
在轻度和中度抑郁患者中，药物-安慰剂差异未达到临床显著性（HAMD 差异 <3 分）
仅在重度抑郁（基线 HAMD ≥28）中，药物-安慰剂差异达到临床显著性
Kirsch 认为"重度患者的效应主要是安慰剂组响应率下降，而非药物组疗效增加"

这一争议的核心方法学启示：

基线严重度是精神科 Meta 分析中最重要的效应修饰因素之一
必须在亚组分析或 Meta-regression 中检验基线严重度对效应量的影响
"临床显著性"的阈值如何定义（SMD 0.50？HAMD 3 分？）本身就有争议
安慰剂组的响应率不是常数——它随基线严重度、试验年代和中心数量变化

Fournier 等人 2010 年在 JAMA 发表的 IPD（个体患者数据）Meta 分析进一步证实了基线严重度效应：在轻度抑郁中（HAMD <19），抗抑郁药的获益微乎其微（d = 0.11）；在重度抑郁中（HAMD ≥25），获益具有临床显著性（d = 0.47）。这提示精神科 Meta 分析若不按基线严重度分层，得出的"平均效应量"可能误导临床实践。

精神分裂症量表的特殊处理

精神分裂症的核心量表 PANSS（阳性和阴性症状量表，30 项，分数范围 30-210）有其独特的分析挑战：

PANSS 总分可以拆分为阳性症状分量表（7 项）、阴性症状分量表（7 项）和一般精神病理分量表（16 项）
Meta 分析时需明确使用总分还是分量表分数——不同抗精神病药对阳性和阴性症状的改善程度可能不同
Leucht 等人 2005 年提出的 PANSS 转换公式允许将 BPRS（简明精神病评定量表）与 PANSS 在同一 Meta 分析中合并
PANSS 的响应定义为总分下降 ≥20%（最低阈值）、≥30%、≥50%（高阈值）或 ≥70%，不同阈值对应不同的临床意义

异质性的特殊挑战

精神科 Meta 分析的异质性问题比大多数医学领域更加突出。安慰剂效应的高度变异、诊断标准的演变、共病的普遍存在以及治疗方案的巨大差异，使得 I² 值经常偏高。理解和解释异质性是精神科 Meta 分析的核心能力。

安慰剂响应率变异（30-50%）

安慰剂组的响应率是精神科 Meta 分析中最重要的异质性来源之一：

抑郁症试验的安慰剂响应率从 20% 到 50% 不等，这种变异直接影响药物-安慰剂差异
影响安慰剂响应率的因素包括：试验中心数量（多中心 > 单中心）、纳入标准严格程度、随访频率、基线严重度、地理区域
近 30 年来安慰剂响应率呈上升趋势（可能与试验设计变化和受试者期望增加有关）
处理方法：在 Meta-regression 中将安慰剂组响应率或发表年代作为协变量

诊断标准差异

跨越不同诊断系统版本的试验合并时需注意：

诊断系统转换	关键变化	对 Meta 分析的影响
DSM-IV → DSM-5	MDD 取消丧亲排除；PTSD 重新分类；SSD 取代躯体化障碍	DSM-5 可能纳入更广泛的抑郁患者，影响基线严重度分布
ICD-10 → ICD-11	抑郁症分类简化；复杂 PTSD 新增；游戏障碍新增	ICD-11 的诊断标准可能与 DSM-5 趋于一致
PANSS vs BPRS	PANSS 30 项 vs BPRS 18 项	需要量表转换或使用 SMD

合并症问题

精神障碍之间的共病率极高，这是精神科 Meta 分析异质性的重要来源：

抑郁+焦虑 -- 50-60% 的 MDD 患者同时满足一种或多种焦虑障碍的诊断标准。部分试验排除焦虑共病，部分不排除，导致人群异质性
精神分裂症+物质使用 -- 约 50% 的精神分裂症患者有物质使用共病，多数 RCT 排除此类患者，限制了结果的外推性
双相+焦虑 -- 约 40-60% 的双相障碍患者有焦虑共病，影响治疗选择和预后
处理方法：在纳排标准中明确是否排除特定共病；按共病状态进行亚组分析；在讨论中说明共病对结论外推性的限制

治疗持续时间差异

精神科急性期 RCT 的治疗持续时间差异显著：

抑郁症试验：4 周到 12 周不等，最常见为 6 周和 8 周
精神分裂症试验：4 周到 26 周不等
焦虑症试验：4 周到 12 周
OCD 试验通常需要更长时间（8-12 周）才能看到效果

处理方法：在纳排标准中设定最短治疗时间（如 ≥6 周）；按治疗时间进行敏感性分析；在 Meta-regression 中检验治疗时间对效应量的影响。

剂量差异

同一药物的不同剂量可能有不同的疗效和耐受性曲线：

多数 SSRIs 的剂量-疗效曲线相对平坦（如艾司西酞普兰 10mg vs 20mg 疗效差异不大，但 20mg 副作用更多）
文拉法辛的疗效可能在高剂量（225-375mg）时更强
抗精神病药通常有更陡峭的剂量-疗效曲线
处理方法：按剂量范围（低/中/高）进行亚组分析；使用"最低有效剂量"作为主要分析

发表年代效应

精神科试验结果存在显著的发表年代效应——近年试验的效应量普遍小于早期试验：

可能原因：安慰剂响应率上升、试验设计更严格（多中心、中心化评定）、"研究参与者综合征"（专业受试者对安慰剂更敏感）
处理方法：在 Meta-regression 中以发表年份为协变量；按发表年代分层（如 2000 年前 vs 2000 年后）

在精神科 Meta 分析中，I² > 50% 是常态而非例外。遇到高 I² 时，不要急于选择固定效应模型"消除"异质性——这只会掩盖问题。正确做法是使用随机效应模型，同时通过亚组分析和 Meta-regression 解释异质性来源。如果异质性无法合理解释，应考虑是否有必要进行合并分析。

亚组与网络 Meta 分析

精神科拥有医学领域中最丰富的亚组分析维度和最成熟的网络 Meta 分析（NMA）应用。从药物类别到疾病严重度，从年龄分层到治疗模式，每一个亚组都可能指向不同的临床决策。

精神科 Meta 分析的核心亚组变量

亚组变量	分组方式	临床意义
药物类别	SSRI vs SNRI vs TCA vs 非典型抗抑郁药	不同类别的疗效-耐受性权衡不同
疾病严重度	轻度（HAMD 8-13）vs 中度（14-18）vs 重度（19-22）vs 极重度（≥23）	Kirsch 争议的核心——轻度患者是否需要药物治疗
年龄分层	儿童青少年（<18 岁）vs 成人（18-65 岁）vs 老年（>65 岁）	FDA 儿童 SSRI 黑框警告；老年人药代动力学差异
治疗模式	单药 vs 药物联合 vs 药物+心理治疗	联合治疗是否优于单一治疗
急性期 vs 维持期	6-12 周急性治疗 vs 6-24 月维持治疗/复发预防	维持期的效应量和研究设计完全不同于急性期
首发 vs 复发	首次发作 vs 多次复发	复发患者可能对药物更敏感，但安慰剂响应率更低
治疗抵抗	治疗抵抗性（TRD/TRS）vs 非治疗抵抗性	治疗抵抗性人群是特殊亚组，效应量通常更小
资助来源	Industry-sponsored vs Investigator-initiated	药企资助试验的效应量可能偏大（Ebrahim 2016 BMJ）

网络 Meta 分析（NMA）：精神科的"杀手级应用"

精神科是网络 Meta 分析应用最广泛、最成功的医学领域。NMA 允许同时比较多种干预措施，即使它们之间没有直接的头对头 RCT，通过"借用"共同对照（通常是安慰剂）的间接比较实现。

为什么精神科特别适合 NMA

药物选择众多 -- 仅抑郁症就有 20+ 种常用抗抑郁药，焦虑症有 10+ 种，精神分裂症有 15+ 种抗精神病药。两两头对头 RCT 不现实
共同对照丰富 -- 绝大多数精神科 RCT 都有安慰剂组，为间接比较提供了良好的"网络连接"
临床需要排名 -- 临床医生需要知道"哪个药最好、哪个药最安全"，NMA 的排名概率（SUCRA/P-score）直接回答这个问题
数据量庞大 -- 精神科 RCT 数量远超大多数领域（抑郁症 500+ 项 RCT），为 NMA 提供了充足的证据网络

Cipriani 2018 Lancet：NMA 的经典范例

Cipriani 等人 2018 年在 Lancet 发表的"21 种抗抑郁药网络 Meta 分析"是精神科 NMA 的里程碑：

纳入 522 项双盲 RCT，116,477 例成人 MDD 患者
同时比较了 21 种抗抑郁药的疗效（响应率 OR）和可接受性（脱落率 OR）
所有 21 种药物均显著优于安慰剂（OR 1.15-2.13）
疗效最好：阿米替林（OR 2.13）、米氮平（OR 1.89）、度洛西汀（OR 1.85）、文拉法辛（OR 1.78）、帕罗西汀（OR 1.75）
可接受性最好：阿戈美拉汀（OR 0.84）、氟西汀（OR 0.88）、伏硫西汀（OR 0.91）
综合疗效和可接受性：艾司西酞普兰、米氮平、帕罗西汀、阿戈美拉汀和舍曲林表现最均衡

NMA 的关键方法学要求

一致性假设（Consistency） -- 直接证据和间接证据的效应量一致。使用 node-splitting 或 SIDE 检验评估局部不一致性
传递性假设（Transitivity） -- 比较的试验在效应修饰因素（基线严重度、年龄、试验年代等）上大致可比
网络连通性 -- 所有药物通过直接或间接比较形成连通网络。孤立节点无法纳入
排名解读 -- SUCRA 值表示每种药物是最优的概率，0% = 最差，100% = 最好。应结合 SUCRA 和点估计值，避免仅依赖排名

MetaReview 目前支持两两比较（pairwise）的 Meta 分析，适合按药物类别（如所有 SSRIs vs 安慰剂）进行分层分析。对于完整的网络 Meta 分析（同时比较 10+ 种药物），推荐使用 R 的 netmeta 包或 Stata 的 network 命令。MetaReview 可用于 NMA 前的数据整理和初步探索。

发表偏倚：精神科的"重灾区"

精神科是发表偏倚最严重、研究最充分的医学领域。从 Turner 2008 年的开创性研究到 Roest 2015 年对苯二氮卓类的分析，大量证据表明仅依赖发表文献进行的 Meta 分析会系统性地高估精神科药物的疗效。

Turner 2008：揭露抗抑郁药的选择性发表

Turner 等人 2008 年在 NEJM 发表的研究堪称发表偏倚研究的里程碑。他们获取了 FDA 注册的所有 74 项新一代抗抑郁药（12 种药物）临床试验数据，将 FDA 判定结果与发表文献进行对比：

FDA 判定结果	试验数	发表数	发表时报告为阳性
阳性（有效）	38	37 (97%)	37 (100%)
阴性/可疑（无效）	36	14 (39%)	11 (79%)

关键发现：

阳性试验几乎全部发表（37/38, 97%），阴性试验大量未发表（22/36, 61% 未发表）
14 项已发表的阴性试验中，11 项通过选择性报告被"包装"为阳性结果
仅根据发表文献：94% 的试验显示抗抑郁药有效；根据 FDA 完整数据：仅 51% 为阳性
仅基于发表文献的效应量高估约 32%（SMD 0.37 vs 0.15-0.31 取决于药物）

FDA 审批数据 vs 发表数据差异

除了 Turner 2008，还有多项研究揭示了精神科药物的 FDA-发表差异：

抗精神病药 -- Turner 2012 分析了 24 项抗精神病药试验，发现类似但较轻的发表偏倚（效应量高估约 8%）
抗焦虑药 -- Roest 2015 分析了 FDA 注册的 57 项抗焦虑药试验（SSRIs/SNRIs 治疗焦虑症），发现 41% 的阴性试验未发表或被重新解读为阳性
ADHD 药物 -- 非兴奋剂类 ADHD 药物也存在选择性发表，但兴奋剂类（哌甲酯）因效应量大，发表偏倚影响较小

Industry-sponsored bias

药企资助的试验在精神科尤为普遍（抗抑郁药和抗精神病药 RCT 中超过 70% 为药企资助），这带来多层面的偏倚：

发表偏倚 -- 药企有动机不发表阴性结果
选择性报告 -- 在多个结局指标中选择性报告最有利的结果
对照组选择 -- 使用低剂量活性对照或不适当的对照药物
Ebrahim 2016 BMJ 系统综述 -- 药企资助的精神科 RCT 比独立研究更可能报告有利于赞助方的结论（OR 4.54）

小样本研究过度乐观

精神科存在大量小样本 RCT（n < 50/组），这些研究更容易产生：

偶然的极端效应量 -- 小样本的效应量估计方差更大，更容易出现偶然的"阳性结果"
漏斗图不对称 -- 小样本阳性研究被选择性发表，大样本研究（无论阳性阴性都会发表）集中在漏斗图中部
Sterne 等人在 Cochrane Handbook 中建议：纳入 ≥10 项研究时才进行漏斗图和 Egger 检验

Cochrane vs 非 Cochrane 综述的差异

Cochrane 系统综述因其严格的方法学标准（必须检索未发表文献、必须评估偏倚风险、必须检索试验注册库），通常比非 Cochrane 综述得出更保守的效应量估计：

Cochrane 抑郁症综述的效应量平均比非 Cochrane 综述低 15-20%
差异主要来自：Cochrane 纳入了更多未发表的阴性试验、使用了 intention-to-treat 分析、排除了高偏倚风险的试验
进行精神科 Meta 分析时，应以 Cochrane 方法学为标杆

发表偏倚的评估方法

方法	适用条件	精神科注意事项
漏斗图	≥10 项研究	精神科 Meta 分析通常有足够多的研究支持漏斗图
Egger 检验	连续型效应量（SMD、MD）	SMD 可能存在 Egger 检验的假阳性（因 SMD 与 SE 的数学关联）
Peter 检验	二分类效应量（OR）	响应率 OR 的发表偏倚评估
Trim-and-fill	漏斗图不对称时	估计"缺失"研究并调整合并效应量
对比分析法	有 FDA 或注册库数据时	最可靠的方法：直接比较发表 vs 未发表试验的效应量
ClinicalTrials.gov 交叉检索	任何 Meta 分析	检索所有注册但未发表的试验

在精神科 Meta 分析中，如果不系统检索 ClinicalTrials.gov、FDA 审批数据和 Cochrane 试验注册库中的未发表数据，你的结论几乎一定会高估药物疗效。Turner 2008 的研究已经给出了明确的证据：仅依赖发表文献会使抗抑郁药效应量高估约 1/3。

经典案例解析

以下四项研究代表了精神科 Meta 分析的方法学巅峰，每一项都改变了临床实践或引发了深远的学术讨论。理解它们的设计、方法和局限性，是做好精神科 Meta 分析的基础。

案例 1：Cipriani 2018 -- 21 种抗抑郁药的网络 Meta 分析（Lancet）

研究背景：这是迄今为止精神科领域规模最大、影响最深远的 Meta 分析。由牛津大学 Andrea Cipriani 领导，合并了截至 2016 年的所有成人 MDD 急性期双盲 RCT。

规模：522 项 RCT，116,477 例患者，21 种抗抑郁药 + 安慰剂
主要终点：疗效（响应率 OR）和可接受性（全因脱落率 OR）
核心结论：所有 21 种抗抑郁药均显著优于安慰剂（OR 1.15-2.13）。头对头比较中，阿戈美拉汀、阿米替林、艾司西酞普兰、米氮平、帕罗西汀、文拉法辛和伏硫西汀疗效相对最好；可接受性最好的是阿戈美拉汀、西酞普兰、艾司西酞普兰、氟西汀、舍曲林和伏硫西汀
被引次数：超过 5000 次（精神科引用最高的 Meta 分析之一）

方法学亮点：

使用贝叶斯网络 Meta 分析框架，允许 21 种药物的同时比较和排名
进行了严格的一致性检验（node-splitting），确认直接和间接证据一致
按 industry-sponsored vs 独立研究、基线严重度、发表偏倚风险进行了预设亚组分析
提供了所有成对比较的 OR、95% CrI 和 SUCRA 排名

局限性和争议：纳入的 RCT 中约 82% 为药企资助，可能存在系统性偏倚；未区分首发 vs 复发抑郁；未分析不同剂量的效应差异；头对头试验数量较少，间接比较的不确定性较大。

案例 2：Leucht 2013 -- 15 种抗精神病药的网络 Meta 分析（Lancet）

研究背景：Stefan Leucht 领导的这项 NMA 首次全面比较了 15 种抗精神病药在精神分裂症急性期的疗效和副作用谱。

规模：212 项 RCT，43,049 例精神分裂症患者
主要终点：总体症状改善（PANSS/BPRS 总分变化，SMD）、全因脱落率、体重增加、锥体外系反应（EPS）、催乳素升高、QTc 延长、镇静
核心发现：氯氮平（clozapine）疗效最好（SMD -0.88）但副作用最多；奥氮平（SMD -0.59）和利培酮（SMD -0.56）综合表现较好；所有抗精神病药的"疗效-副作用"权衡各不相同

方法学贡献：同时报告了 7 个维度的效应量（疗效、脱落、体重、EPS、催乳素、QTc、镇静），使临床医生可以根据患者的具体情况权衡利弊。这种"多维度比较"成为后续精神科 NMA 的标准模式。

案例 3：Cuijpers 2019 -- 心理治疗 vs 药物治疗 Meta 分析

研究背景：Pim Cuijpers 是心理治疗 Meta 分析领域最多产的研究者。他系统比较了心理治疗（主要是 CBT）与药物治疗（主要是抗抑郁药）在成人抑郁症中的疗效。

核心发现：急性期 CBT 和抗抑郁药疗效相当（直接比较 SMD 接近 0），但两者联合优于单一治疗（SMD -0.30 到 -0.50）
长期获益：CBT 的长期复发预防效果优于药物（停药后复发率：药物 50-60% vs CBT 30-40%）
等待名单偏倚：当对照组为等待名单时，CBT 的 SMD 约 0.8-1.0（大效应）；当对照组为"积极安慰剂"（支持性治疗）时，SMD 降至 0.2-0.3（小效应）。Cuijpers 反复强调等待名单对照会严重高估心理治疗疗效

方法学启示：心理治疗 Meta 分析面临独特挑战——治疗师技能差异（therapist effects）、治疗忠实度（treatment fidelity）、无法实现双盲——这些都是药物试验中不存在的异质性来源。

案例 4：Kirsch 2008 -- 抗抑郁药 vs 安慰剂争议（PLoS Medicine）

研究背景：Irving Kirsch 利用信息自由法案（FOIA）获取了 FDA 注册的 35 项新一代抗抑郁药（氟西汀、文拉法辛、奈法唑酮、帕罗西汀）RCT 数据，分析了药物-安慰剂差异。

核心发现：总体加权 SMD = 0.32，低于 NICE 建议的 0.50 临床显著性阈值
基线严重度效应：轻度和中度抑郁中药物-安慰剂差异不显著；仅在极重度抑郁（基线 HAMD ≥28）中达到临床显著性
Kirsch 的解读：重度患者的"显著差异"主要是因为安慰剂组响应率下降（而非药物疗效增加），暗示"抗抑郁药的临床获益主要是增强的安慰剂效应"

争议和反驳：

NICE 的 0.50 SMD 阈值缺乏经验基础，为什么 0.32 就不具临床意义？
Kirsch 仅分析了 4 种药物的 FDA 数据，不代表所有抗抑郁药
Gibbons 2012 在 Archives of General Psychiatry 使用 IPD 分析反驳：在中重度患者中抗抑郁药确实有临床获益
Cipriani 2018 的大规模 NMA 证实所有抗抑郁药均显著优于安慰剂，但同时承认效应量"modest"

方法学遗产：Kirsch 2008 虽然结论有争议，但其方法学贡献巨大——它开创了使用 FDA 注册数据进行 Meta 分析的先河，揭示了发表偏倚的严重性，并将"基线严重度作为效应修饰因素"推到了精神科 Meta 分析方法学的核心位置。

引用这些经典研究时注意：（1）Cipriani 2018 和 Leucht 2013 的数据截止到 2016 和 2012 年，近年获批的新药（如 esketamine、brexanolone、pimavanserin）未纳入；（2）Kirsch 2008 仅分析了 4 种药物，不能推广到所有抗抑郁药；（3）Cuijpers 的心理治疗 Meta 分析多次更新，引用时注意使用最新版本。

用 MetaReview 5 分钟完成精神科 Meta 分析

以"SSRIs 治疗成人 MDD 的急性期疗效（HAMD/MADRS 评分变化）"为例，演示在 MetaReview 中完成一次完整精神科 Meta 分析的全过程。

第 1 步：准备数据

从文献中提取以下 6 项 SSRI vs 安慰剂 RCT 的数据（示例数据）：

研究	药物	量表	N (药物/安慰剂)	Mean change (药物)	SD (药物)	Mean change (安慰剂)	SD (安慰剂)
Study A (2015)	艾司西酞普兰 10mg	MADRS	150/148	-14.2	9.5	-10.8	9.8
Study B (2016)	舍曲林 100mg	HAMD-17	120/118	-10.5	7.2	-8.1	7.5
Study C (2017)	氟西汀 20mg	HAMD-17	180/175	-9.8	7.8	-8.0	7.6
Study D (2018)	艾司西酞普兰 20mg	HAMD-17	200/198	-11.2	8.1	-8.9	8.3
Study E (2019)	帕罗西汀 30mg	MADRS	140/135	-13.5	10.2	-10.0	9.9
Study F (2020)	舍曲林 50mg	MADRS	160/158	-12.8	9.0	-10.5	9.3

注意：6 项研究使用了 3 种不同量表（MADRS 和 HAMD-17），因此必须使用 SMD 而非 MD。

第 2 步：打开 MetaReview 并输入数据

访问 MetaReview 主页，效应量类型选择 SMD（Hedges' g）
数据输入模式选择均数和标准差（Mean ± SD）
逐行输入：Study 名称、Treatment N、Treatment Mean、Treatment SD、Control N、Control Mean、Control SD
MetaReview 自动计算每项研究的 Hedges' g 和标准误

第 3 步：选择模型并运行分析

选择随机效应模型（不同 SSRI 药物、不同剂量、不同量表、不同人群）
点击 Run Meta-Analysis
查看合并 SMD（Hedges' g）、95% CI、p 值和异质性统计量（I²、Q、τ²）

预期结果：合并 Hedges' g 约 -0.30 到 -0.35 (95% CI: -0.45 to -0.20)，表明 SSRIs 相对安慰剂有小到中等的疗效优势（0.3 SD 单位）。这与大规模 Meta 分析的结论一致。

第 4 步：生成森林图和漏斗图

MetaReview 自动生成森林图，展示每项研究的 Hedges' g 和 95% CI 以及合并效应菱形
切换到漏斗图视图 -- 检查是否存在漏斗图不对称（小样本阳性研究偏多）
查看逐一剔除敏感性分析：排除效应量最大/最小的研究后合并 SMD 变化多大？

第 5 步：扩展 -- 响应率的二分类分析

在 MetaReview 中新建一个分析，使用 OR 或 RR 分析响应率（HAMD/MADRS 下降 ≥50%）：

研究	药物组响应	药物组总数	安慰剂组响应	安慰剂组总数
Study A	75	150	52	148
Study B	55	120	38	118
Study C	72	180	58	175
Study D	98	200	69	198
Study E	63	140	44	135
Study F	72	160	55	158

预期结果：合并 OR 约 1.5-1.7，对应 NNT 约 7-8，意味着每治疗 7-8 个 MDD 患者有 1 个额外达到治疗响应。

整个流程从数据输入到两张森林图（SMD + 响应率 OR）生成只需 5 分钟。MetaReview 的所有计算在浏览器本地完成，数据不会上传至服务器，保护你的未发表数据安全。精神科 Meta 分析建议同时报告连续变量（SMD）和二分类（响应率/缓解率 OR）两组结果，以提高临床可解读性。

开始你的精神科 Meta 分析

MetaReview 支持 SMD、MD、OR、RR、HR 等全部效应量，从数据输入到森林图只需 5 分钟。免费、无需安装、无需编程。

打开 MetaReview

查看在线示例：阿司匹林 vs 安慰剂 Meta 分析（7 篇 RCT）→

获取更新通知

留下邮箱，第一时间获取新功能通知和 Meta 分析技巧。

我们不会发送垃圾邮件，随时可退订。

常见问题

精神科 Meta 分析为什么首选标准化均数差（SMD）而不是均数差（MD）？

精神科 Meta 分析中不同试验经常使用不同的评定量表（如 HAMD-17、MADRS、PHQ-9），这些量表的分数范围和单位完全不同，无法直接用 MD 合并。SMD 通过将效应量除以标准差来消除量表差异。推荐使用 Hedges' g（对小样本有偏差校正）。SMD 0.2 为小效应，0.5 为中效应，0.8 为大效应。多数抗抑郁药 vs 安慰剂的 SMD 约 0.3。

精神科 Meta 分析中安慰剂效应为什么这么大？如何处理？

精神科疾病的安慰剂响应率异常高（30-50%），原因包括主观量表的期望效应、临床试验中的额外关注具有治疗作用、均值回归和自然波动。处理方法：始终使用安慰剂校正后的效应量；在 Meta-regression 中将安慰剂响应率或发表年代作为协变量；注意等待名单对照和安慰剂对照的区别。

HAMD-17、HAMD-21 和 MADRS 在 Meta 分析中如何统一处理？

首选方案是使用 SMD（Hedges' g）将所有量表标准化后合并。次选方案是选择报告最多的量表（通常 HAMD-17）作为主要分析。HAMD-17 和 HAMD-21 虽然都是 HAMD，但总分范围不同（52 vs 64），不能直接以 MD 合并。在方法部分必须明确说明量表统一策略。

什么是网络 Meta 分析（NMA），为什么精神科特别需要？

NMA 可以同时比较多种干预措施，即使它们之间没有直接的头对头试验。精神科同类药物众多（20+ 种抗抑郁药），两两头对头 RCT 不现实，且临床决策需要排名。Cipriani 2018 在 Lancet 发表的 21 种抗抑郁药 NMA（522 项 RCT，116,477 例患者）是经典范例。NMA 需要满足一致性假设和传递性假设。

抗抑郁药 Meta 分析中发表偏倚有多严重？

Turner 2008 NEJM 研究揭示：FDA 注册的 74 项抗抑郁药试验中，阳性结果 97% 发表，阴性结果仅 39% 发表（且多被包装为阳性）。仅基于发表文献，94% 的试验显示有效；根据 FDA 完整数据，仅 51% 为阳性。发表文献的效应量高估约 32%。必须检索 ClinicalTrials.gov 和 FDA 审批数据。

儿童青少年和老年人群的精神科 Meta 分析有什么特殊考量？

儿童青少年：药物数据远少于成人，不应外推；FDA 黑框警告 SSRI 可能增加自杀意念风险；氟西汀是唯一获批用于儿童抑郁的 SSRI；安慰剂响应率更高（50-60%）。老年人：需考虑多药联用和跌倒风险；老年抑郁常合并认知下降；量表可能不同（如 GDS）。两个人群都应独立分析。

MetaReview 能做精神科相关的 Meta 分析吗？

完全可以。MetaReview 支持 SMD（Hedges' g）、MD、OR/RR、HR 等全部效应量类型，提供固定效应和随机效应模型，自动生成森林图和漏斗图，支持按药物类别或疾病严重度进行亚组分析，以及逐一剔除敏感性分析。免费使用，无需安装，无需编程。

精神科 Meta 分析完整指南：从量表选择到药物疗效的循证综合方法

目录

为什么精神科研究特别需要 Meta 分析

效应量普遍较小

安慰剂效应显著

量表评估的主观性

需要大样本汇总才能得出可靠结论

PICO 框架在精神科研究中的应用

Population（人群）

Intervention（干预）

Comparison（对照）

Outcome（结局指标）

PICO 示例：SSRIs 治疗成人 MDD 的急性期疗效

精神科 Meta 分析的效应量选择

SMD（标准化均数差）：精神科的核心效应量

OR/RR：二分类结局

HR：时间-事件数据

效应量选择总结

精神科研究的量表与测量问题

抑郁症主要评定量表对比

评定者间信度问题

患者自评 vs 医生他评

基线严重度对效应量的影响——Kirsch 2008 争议

精神分裂症量表的特殊处理

异质性的特殊挑战

安慰剂响应率变异（30-50%）

诊断标准差异

合并症问题

治疗持续时间差异

剂量差异

发表年代效应

亚组与网络 Meta 分析

精神科 Meta 分析的核心亚组变量

网络 Meta 分析（NMA）：精神科的"杀手级应用"

为什么精神科特别适合 NMA

Cipriani 2018 Lancet：NMA 的经典范例

NMA 的关键方法学要求

发表偏倚：精神科的"重灾区"

Turner 2008：揭露抗抑郁药的选择性发表

FDA 审批数据 vs 发表数据差异

Industry-sponsored bias

小样本研究过度乐观

Cochrane vs 非 Cochrane 综述的差异

发表偏倚的评估方法

经典案例解析

案例 1：Cipriani 2018 -- 21 种抗抑郁药的网络 Meta 分析（Lancet）

案例 2：Leucht 2013 -- 15 种抗精神病药的网络 Meta 分析（Lancet）

案例 3：Cuijpers 2019 -- 心理治疗 vs 药物治疗 Meta 分析

案例 4：Kirsch 2008 -- 抗抑郁药 vs 安慰剂争议（PLoS Medicine）

用 MetaReview 5 分钟完成精神科 Meta 分析

第 1 步：准备数据

第 2 步：打开 MetaReview 并输入数据

第 3 步：选择模型并运行分析

第 4 步：生成森林图和漏斗图

第 5 步：扩展 -- 响应率的二分类分析

开始你的精神科 Meta 分析

获取更新通知

常见问题

精神科 Meta 分析为什么首选标准化均数差（SMD）而不是均数差（MD）？

精神科 Meta 分析中安慰剂效应为什么这么大？如何处理？

HAMD-17、HAMD-21 和 MADRS 在 Meta 分析中如何统一处理？

什么是网络 Meta 分析（NMA），为什么精神科特别需要？

抗抑郁药 Meta 分析中发表偏倚有多严重？

儿童青少年和老年人群的精神科 Meta 分析有什么特殊考量？

MetaReview 能做精神科相关的 Meta 分析吗？

相关指南