精神科荟萃分析的效应量选择、HAMD/MADRS/PANSS 量表处理、安慰剂效应控制、SSRI/SNRI/非典型药物比较、网络 Meta 分析经典案例与发表偏倚评估。适合精神科研究生和临床研究者。
精神障碍是全球疾病负担最重的领域之一。根据 GBD(Global Burden of Disease)2019 数据,精神障碍影响全球近 10 亿人,抑郁症和焦虑症分别位居致残原因的第 2 和第 8 位。中国精神障碍的终生患病率约 16.6%,抑郁症患病率约 3.4%,精神分裂症患病率约 0.6%。然而,精神科临床研究面临的方法学挑战比大多数医学领域更为严峻,这使得 Meta 分析在精神科循证医学中的地位不可替代。
与降压药降低 10-15 mmHg 血压或他汀类降低 30-40% LDL-C 这种显而易见的疗效不同,精神科药物的效应量往往较小。以抑郁症为例,多数抗抑郁药 vs 安慰剂的 SMD 仅为 0.3 左右(Cohen's d),对应 HAMD-17 量表约 2 分的差异。这意味着单项 RCT 若样本量不够大(通常需要 300+ 例/组),很容易因统计效力不足而得出阴性结果。Meta 分析通过合并多项试验增加总样本量,是检测这种小效应量的最佳工具。
精神科是安慰剂效应最强的医学领域之一。抑郁症临床试验中,安慰剂组的响应率通常高达 30-50%,有些试验甚至超过 50%。这不仅削弱了"药物-安慰剂差异",还导致不同试验之间安慰剂响应率的巨大变异,成为重要的异质性来源。近 30 年来,安慰剂响应率呈逐年上升趋势,使得近期试验比早期试验更难获得阳性结果——这种"年代效应"在 Meta 分析中必须考虑。
精神科疾病不像糖尿病(HbA1c)或高血压(收缩压)那样有客观的生物标志物。疾病严重程度的评估依赖于主观量表,不同量表的分数范围、条目数量和评分标准各不相同。例如抑郁症就有 HAMD-17(0-52 分)、HAMD-21(0-64 分)、MADRS(0-60 分)、PHQ-9(0-27 分)、BDI-II(0-63 分)等十余种量表。不同试验使用不同量表,无法直接以原始分数进行比较——这正是 Meta 分析通过标准化均数差(SMD)统一尺度的核心价值所在。
综合以上三个因素,精神科领域单项 RCT 的证据强度天然受限。一项典型的抗抑郁药 RCT 纳入 200-400 例患者,随访 6-8 周,结果可能受安慰剂响应、评定者偏倚和量表选择的多重影响。只有通过 Meta 分析汇总数十甚至数百项试验的数据,才能:
精神科 Meta 分析的 PICO 框架需要兼顾诊断分类的复杂性、干预手段的多样性(药物 + 心理治疗 + 物理治疗)以及结局评估的主观性。一个精确的 PICO 框架是避免"将苹果和橘子混在一起"的前提。
精神科的诊断系统本身就是异质性的重要来源。定义目标人群时需明确:
| 诊断类别 | 典型诊断标准 | 核心量表 | 常见分型/亚型 |
|---|---|---|---|
| 重性抑郁障碍(MDD) | DSM-5 / ICD-10 / ICD-11 | HAMD-17, MADRS, PHQ-9 | 首发 vs 复发、伴焦虑特征、伴精神病性特征、围产期抑郁 |
| 广泛性焦虑障碍(GAD) | DSM-5 / ICD-10 | HAM-A, GAD-7 | 伴/不伴抑郁共病 |
| 精神分裂症 | DSM-5 / ICD-10 | PANSS, BPRS, CGI | 首发 vs 慢性、治疗抵抗性(TRS) |
| 双相障碍 | DSM-5 / ICD-10 | YMRS(躁狂), HAMD/MADRS(抑郁) | I 型 vs II 型、躁狂期 vs 抑郁期 vs 维持期 |
| 创伤后应激障碍(PTSD) | DSM-5 / ICD-11 | CAPS-5, PCL-5 | 急性 vs 慢性、战斗相关 vs 非战斗相关 |
| 强迫症(OCD) | DSM-5 / ICD-10 | Y-BOCS | 治疗抵抗性 OCD |
| 注意缺陷多动障碍(ADHD) | DSM-5 / ICD-10 | ADHD-RS, CGI | 儿童 vs 成人、注意缺陷为主 vs 多动冲动为主 vs 混合型 |
精神科干预手段分为三大类:
药物治疗:
心理治疗:
物理治疗:
精神科 Meta 分析中对照组的选择极为关键,因为它直接决定了效应量的大小和临床可解读性:
| 对照类型 | 含义 | 效应量影响 | 适用场景 |
|---|---|---|---|
| 安慰剂(Placebo) | 外观一致的惰性药丸 | 效应量较小(包含安慰剂效应) | 药物疗效评估的金标准 |
| 活性对照(Active comparator) | 另一种已证实有效的药物 | 效应量更小(两种有效药比较) | 头对头比较,NMA |
| 等待名单(Waitlist) | 延迟接受治疗 | 效应量偏大(无安慰剂效应) | 心理治疗试验常用 |
| 常规治疗(TAU) | Treatment as usual | 效应量中等 | 实效研究 |
| 注意力对照(Attention control) | 等量的非特异性关注 | 控制非特异性因素 | 心理治疗试验的优质对照 |
| 结局类型 | 具体指标 | 数据类型 | 效应量 |
|---|---|---|---|
| 症状严重度变化 | HAMD/MADRS/PANSS/Y-BOCS 评分变化 | 连续变量 | SMD (Hedges' g) |
| 响应率 | HAMD 评分下降 ≥50% | 二分类 | OR/RR |
| 缓解率 | HAMD ≤7 或 MADRS ≤10 | 二分类 | OR/RR |
| 脱落率(可接受性) | 因任何原因提前退出 | 二分类 | OR/RR |
| 因不良反应脱落 | 因副作用退出 | 二分类 | OR/RR |
| 复发时间 | 至首次复发事件的时间 | 时间-事件 | HR |
| 特定不良反应 | 体重增加、性功能障碍、锥体外系反应、QTc 延长 | 二分类 | OR/RR |
| 自杀相关事件 | 自杀意念、自杀未遂、自杀死亡 | 二分类 | OR/RR (Peto OR) |
| PICO 元素 | 定义 | 关键考量 |
|---|---|---|
| P | 18-65 岁成人 MDD 患者(DSM-IV/DSM-5/ICD-10),HAMD-17 ≥17 或 MADRS ≥20 | 排除双相抑郁、精神病性抑郁、产后抑郁?基线严重度如何分层? |
| I | SSRIs(氟西汀 20-60mg/舍曲林 50-200mg/艾司西酞普兰 10-20mg 等),单药治疗 | 是否将所有 SSRIs 作为一类合并?不同剂量如何处理? |
| C | 安慰剂 | 仅纳入双盲 RCT,排除开放标签试验 |
| O | 主要:HAMD/MADRS 评分变化(SMD);次要:响应率(OR)、缓解率(OR)、因不良反应脱落率(OR) | 急性期通常为 6-12 周,是否限定最短治疗时间? |
效应量的选择是精神科 Meta 分析最关键的方法学决策之一。与心血管或糖尿病领域不同,精神科的核心挑战在于:几乎所有主要结局指标都依赖于主观评定量表,不同量表的分数不可直接比较。这使得 SMD(标准化均数差)成为精神科 Meta 分析的核心效应量。
当不同试验使用不同量表测量同一构念(如"抑郁严重度")时,必须使用 SMD 将效应量标准化到同一尺度:
SMD 的精神科解读标准(Cohen 1988):
| SMD 范围 | 效应大小 | 精神科典型对应 |
|---|---|---|
| 0.2 | 小效应 | 多数抗抑郁药 vs 安慰剂(轻度抑郁) |
| 0.5 | 中效应 | CBT vs 等待名单(抑郁症)、抗精神病药 vs 安慰剂(精神分裂症) |
| 0.8 | 大效应 | 氯氮平 vs 安慰剂(治疗抵抗性精神分裂症)、ECT vs 假刺激 |
精神科常用的二分类结局指标及其效应量:
NNT(Number Needed to Treat)是将 OR/RR 转换为临床可理解指标的重要方法。例如,抗抑郁药缓解的 NNT 约为 7-8,意味着每治疗 7-8 个患者有 1 个额外达到缓解。
HR 在精神科 Meta 分析中主要用于维持期/预防复发试验:
| 终点 | 首选效应量 | 备选效应量 | 说明 |
|---|---|---|---|
| 症状评分变化(多种量表) | SMD (Hedges' g) | -- | 精神科最核心的效应量 |
| 症状评分变化(同一量表) | MD | SMD | 仅当所有试验使用同一量表同一版本时 |
| 响应率 | OR | RR, NNT | HAMD 下降 ≥50% |
| 缓解率 | OR | RR, NNT | HAMD ≤7 或 MADRS ≤10 |
| 脱落率(可接受性) | OR | RR | Cipriani 2018 以此衡量可接受性 |
| 复发时间 | HR | -- | 维持期试验 |
| 自杀相关事件 | Peto OR | OR | 罕见事件,Peto OR 更稳健 |
| 体重变化 | MD (kg) | -- | 抗精神病药的重要安全终点 |
详细的效应量选择方法请看:OR、RR、MD、SMD 怎么选?Meta 分析效应量完整指南
量表选择和测量标准化是精神科 Meta 分析中最棘手的方法学问题。与实验室检查(如 HbA1c、LDL-C)不同,精神科量表的评分受评定者训练水平、患者配合度和文化背景的多重影响。
| 量表 | 条目数 | 分数范围 | 评定方式 | 缓解阈值 | 响应定义 | 优缺点 |
|---|---|---|---|---|---|---|
| HAMD-17 | 17 | 0-52 | 医生他评 | ≤7 | 下降 ≥50% | 最广泛使用,FDA 认可;条目权重不均,躯体症状偏重 |
| HAMD-21 | 21 | 0-64 | 医生他评 | ≤7(前17项) | 下降 ≥50% | 增加 4 项非核心抑郁条目;与 HAMD-17 部分兼容 |
| MADRS | 10 | 0-60 | 医生他评 | ≤10 | 下降 ≥50% | 对抗抑郁药变化更敏感;条目更均衡 |
| PHQ-9 | 9 | 0-27 | 患者自评 | ≤4 | 下降 ≥50% | 简短高效,适合大样本筛查;自评可能有偏差 |
| BDI-II | 21 | 0-63 | 患者自评 | ≤13 | 下降 ≥50% | 认知症状评估详细;自评量表 |
| CGI-S | 1 | 1-7 | 医生他评 | ≤2 | -- | 全局严重度评估,简单直观但不够精细 |
HAMD 和 MADRS 作为医生他评量表,评定者间信度(inter-rater reliability)直接影响数据质量:
这是精神科 Meta 分析中一个被低估的方法学问题:
2008 年 Kirsch 等人在 PLoS Medicine 发表的重磅 Meta 分析利用 FDA 注册数据分析了 6 种新一代抗抑郁药的疗效,结论引发了巨大争议:
这一争议的核心方法学启示:
精神分裂症的核心量表 PANSS(阳性和阴性症状量表,30 项,分数范围 30-210)有其独特的分析挑战:
精神科 Meta 分析的异质性问题比大多数医学领域更加突出。安慰剂效应的高度变异、诊断标准的演变、共病的普遍存在以及治疗方案的巨大差异,使得 I² 值经常偏高。理解和解释异质性是精神科 Meta 分析的核心能力。
安慰剂组的响应率是精神科 Meta 分析中最重要的异质性来源之一:
跨越不同诊断系统版本的试验合并时需注意:
| 诊断系统转换 | 关键变化 | 对 Meta 分析的影响 |
|---|---|---|
| DSM-IV → DSM-5 | MDD 取消丧亲排除;PTSD 重新分类;SSD 取代躯体化障碍 | DSM-5 可能纳入更广泛的抑郁患者,影响基线严重度分布 |
| ICD-10 → ICD-11 | 抑郁症分类简化;复杂 PTSD 新增;游戏障碍新增 | ICD-11 的诊断标准可能与 DSM-5 趋于一致 |
| PANSS vs BPRS | PANSS 30 项 vs BPRS 18 项 | 需要量表转换或使用 SMD |
精神障碍之间的共病率极高,这是精神科 Meta 分析异质性的重要来源:
精神科急性期 RCT 的治疗持续时间差异显著:
处理方法:在纳排标准中设定最短治疗时间(如 ≥6 周);按治疗时间进行敏感性分析;在 Meta-regression 中检验治疗时间对效应量的影响。
同一药物的不同剂量可能有不同的疗效和耐受性曲线:
精神科试验结果存在显著的发表年代效应——近年试验的效应量普遍小于早期试验:
精神科拥有医学领域中最丰富的亚组分析维度和最成熟的网络 Meta 分析(NMA)应用。从药物类别到疾病严重度,从年龄分层到治疗模式,每一个亚组都可能指向不同的临床决策。
| 亚组变量 | 分组方式 | 临床意义 |
|---|---|---|
| 药物类别 | SSRI vs SNRI vs TCA vs 非典型抗抑郁药 | 不同类别的疗效-耐受性权衡不同 |
| 疾病严重度 | 轻度(HAMD 8-13)vs 中度(14-18)vs 重度(19-22)vs 极重度(≥23) | Kirsch 争议的核心——轻度患者是否需要药物治疗 |
| 年龄分层 | 儿童青少年(<18 岁)vs 成人(18-65 岁)vs 老年(>65 岁) | FDA 儿童 SSRI 黑框警告;老年人药代动力学差异 |
| 治疗模式 | 单药 vs 药物联合 vs 药物+心理治疗 | 联合治疗是否优于单一治疗 |
| 急性期 vs 维持期 | 6-12 周急性治疗 vs 6-24 月维持治疗/复发预防 | 维持期的效应量和研究设计完全不同于急性期 |
| 首发 vs 复发 | 首次发作 vs 多次复发 | 复发患者可能对药物更敏感,但安慰剂响应率更低 |
| 治疗抵抗 | 治疗抵抗性(TRD/TRS)vs 非治疗抵抗性 | 治疗抵抗性人群是特殊亚组,效应量通常更小 |
| 资助来源 | Industry-sponsored vs Investigator-initiated | 药企资助试验的效应量可能偏大(Ebrahim 2016 BMJ) |
精神科是网络 Meta 分析应用最广泛、最成功的医学领域。NMA 允许同时比较多种干预措施,即使它们之间没有直接的头对头 RCT,通过"借用"共同对照(通常是安慰剂)的间接比较实现。
Cipriani 等人 2018 年在 Lancet 发表的"21 种抗抑郁药网络 Meta 分析"是精神科 NMA 的里程碑:
精神科是发表偏倚最严重、研究最充分的医学领域。从 Turner 2008 年的开创性研究到 Roest 2015 年对苯二氮卓类的分析,大量证据表明仅依赖发表文献进行的 Meta 分析会系统性地高估精神科药物的疗效。
Turner 等人 2008 年在 NEJM 发表的研究堪称发表偏倚研究的里程碑。他们获取了 FDA 注册的所有 74 项新一代抗抑郁药(12 种药物)临床试验数据,将 FDA 判定结果与发表文献进行对比:
| FDA 判定结果 | 试验数 | 发表数 | 发表时报告为阳性 |
|---|---|---|---|
| 阳性(有效) | 38 | 37 (97%) | 37 (100%) |
| 阴性/可疑(无效) | 36 | 14 (39%) | 11 (79%) |
关键发现:
除了 Turner 2008,还有多项研究揭示了精神科药物的 FDA-发表差异:
药企资助的试验在精神科尤为普遍(抗抑郁药和抗精神病药 RCT 中超过 70% 为药企资助),这带来多层面的偏倚:
精神科存在大量小样本 RCT(n < 50/组),这些研究更容易产生:
Cochrane 系统综述因其严格的方法学标准(必须检索未发表文献、必须评估偏倚风险、必须检索试验注册库),通常比非 Cochrane 综述得出更保守的效应量估计:
| 方法 | 适用条件 | 精神科注意事项 |
|---|---|---|
| 漏斗图 | ≥10 项研究 | 精神科 Meta 分析通常有足够多的研究支持漏斗图 |
| Egger 检验 | 连续型效应量(SMD、MD) | SMD 可能存在 Egger 检验的假阳性(因 SMD 与 SE 的数学关联) |
| Peter 检验 | 二分类效应量(OR) | 响应率 OR 的发表偏倚评估 |
| Trim-and-fill | 漏斗图不对称时 | 估计"缺失"研究并调整合并效应量 |
| 对比分析法 | 有 FDA 或注册库数据时 | 最可靠的方法:直接比较发表 vs 未发表试验的效应量 |
| ClinicalTrials.gov 交叉检索 | 任何 Meta 分析 | 检索所有注册但未发表的试验 |
以下四项研究代表了精神科 Meta 分析的方法学巅峰,每一项都改变了临床实践或引发了深远的学术讨论。理解它们的设计、方法和局限性,是做好精神科 Meta 分析的基础。
研究背景:这是迄今为止精神科领域规模最大、影响最深远的 Meta 分析。由牛津大学 Andrea Cipriani 领导,合并了截至 2016 年的所有成人 MDD 急性期双盲 RCT。
方法学亮点:
局限性和争议:纳入的 RCT 中约 82% 为药企资助,可能存在系统性偏倚;未区分首发 vs 复发抑郁;未分析不同剂量的效应差异;头对头试验数量较少,间接比较的不确定性较大。
研究背景:Stefan Leucht 领导的这项 NMA 首次全面比较了 15 种抗精神病药在精神分裂症急性期的疗效和副作用谱。
方法学贡献:同时报告了 7 个维度的效应量(疗效、脱落、体重、EPS、催乳素、QTc、镇静),使临床医生可以根据患者的具体情况权衡利弊。这种"多维度比较"成为后续精神科 NMA 的标准模式。
研究背景:Pim Cuijpers 是心理治疗 Meta 分析领域最多产的研究者。他系统比较了心理治疗(主要是 CBT)与药物治疗(主要是抗抑郁药)在成人抑郁症中的疗效。
方法学启示:心理治疗 Meta 分析面临独特挑战——治疗师技能差异(therapist effects)、治疗忠实度(treatment fidelity)、无法实现双盲——这些都是药物试验中不存在的异质性来源。
研究背景:Irving Kirsch 利用信息自由法案(FOIA)获取了 FDA 注册的 35 项新一代抗抑郁药(氟西汀、文拉法辛、奈法唑酮、帕罗西汀)RCT 数据,分析了药物-安慰剂差异。
争议和反驳:
方法学遗产:Kirsch 2008 虽然结论有争议,但其方法学贡献巨大——它开创了使用 FDA 注册数据进行 Meta 分析的先河,揭示了发表偏倚的严重性,并将"基线严重度作为效应修饰因素"推到了精神科 Meta 分析方法学的核心位置。
以"SSRIs 治疗成人 MDD 的急性期疗效(HAMD/MADRS 评分变化)"为例,演示在 MetaReview 中完成一次完整精神科 Meta 分析的全过程。
从文献中提取以下 6 项 SSRI vs 安慰剂 RCT 的数据(示例数据):
| 研究 | 药物 | 量表 | N (药物/安慰剂) | Mean change (药物) | SD (药物) | Mean change (安慰剂) | SD (安慰剂) |
|---|---|---|---|---|---|---|---|
| Study A (2015) | 艾司西酞普兰 10mg | MADRS | 150/148 | -14.2 | 9.5 | -10.8 | 9.8 |
| Study B (2016) | 舍曲林 100mg | HAMD-17 | 120/118 | -10.5 | 7.2 | -8.1 | 7.5 |
| Study C (2017) | 氟西汀 20mg | HAMD-17 | 180/175 | -9.8 | 7.8 | -8.0 | 7.6 |
| Study D (2018) | 艾司西酞普兰 20mg | HAMD-17 | 200/198 | -11.2 | 8.1 | -8.9 | 8.3 |
| Study E (2019) | 帕罗西汀 30mg | MADRS | 140/135 | -13.5 | 10.2 | -10.0 | 9.9 |
| Study F (2020) | 舍曲林 50mg | MADRS | 160/158 | -12.8 | 9.0 | -10.5 | 9.3 |
注意:6 项研究使用了 3 种不同量表(MADRS 和 HAMD-17),因此必须使用 SMD 而非 MD。
预期结果:合并 Hedges' g 约 -0.30 到 -0.35 (95% CI: -0.45 to -0.20),表明 SSRIs 相对安慰剂有小到中等的疗效优势(0.3 SD 单位)。这与大规模 Meta 分析的结论一致。
在 MetaReview 中新建一个分析,使用 OR 或 RR 分析响应率(HAMD/MADRS 下降 ≥50%):
| 研究 | 药物组响应 | 药物组总数 | 安慰剂组响应 | 安慰剂组总数 |
|---|---|---|---|---|
| Study A | 75 | 150 | 52 | 148 |
| Study B | 55 | 120 | 38 | 118 |
| Study C | 72 | 180 | 58 | 175 |
| Study D | 98 | 200 | 69 | 198 |
| Study E | 63 | 140 | 44 | 135 |
| Study F | 72 | 160 | 55 | 158 |
预期结果:合并 OR 约 1.5-1.7,对应 NNT 约 7-8,意味着每治疗 7-8 个 MDD 患者有 1 个额外达到治疗响应。
留下邮箱,第一时间获取新功能通知和 Meta 分析技巧。
我们不会发送垃圾邮件,随时可退订。
精神科 Meta 分析中不同试验经常使用不同的评定量表(如 HAMD-17、MADRS、PHQ-9),这些量表的分数范围和单位完全不同,无法直接用 MD 合并。SMD 通过将效应量除以标准差来消除量表差异。推荐使用 Hedges' g(对小样本有偏差校正)。SMD 0.2 为小效应,0.5 为中效应,0.8 为大效应。多数抗抑郁药 vs 安慰剂的 SMD 约 0.3。
精神科疾病的安慰剂响应率异常高(30-50%),原因包括主观量表的期望效应、临床试验中的额外关注具有治疗作用、均值回归和自然波动。处理方法:始终使用安慰剂校正后的效应量;在 Meta-regression 中将安慰剂响应率或发表年代作为协变量;注意等待名单对照和安慰剂对照的区别。
首选方案是使用 SMD(Hedges' g)将所有量表标准化后合并。次选方案是选择报告最多的量表(通常 HAMD-17)作为主要分析。HAMD-17 和 HAMD-21 虽然都是 HAMD,但总分范围不同(52 vs 64),不能直接以 MD 合并。在方法部分必须明确说明量表统一策略。
NMA 可以同时比较多种干预措施,即使它们之间没有直接的头对头试验。精神科同类药物众多(20+ 种抗抑郁药),两两头对头 RCT 不现实,且临床决策需要排名。Cipriani 2018 在 Lancet 发表的 21 种抗抑郁药 NMA(522 项 RCT,116,477 例患者)是经典范例。NMA 需要满足一致性假设和传递性假设。
Turner 2008 NEJM 研究揭示:FDA 注册的 74 项抗抑郁药试验中,阳性结果 97% 发表,阴性结果仅 39% 发表(且多被包装为阳性)。仅基于发表文献,94% 的试验显示有效;根据 FDA 完整数据,仅 51% 为阳性。发表文献的效应量高估约 32%。必须检索 ClinicalTrials.gov 和 FDA 审批数据。
儿童青少年:药物数据远少于成人,不应外推;FDA 黑框警告 SSRI 可能增加自杀意念风险;氟西汀是唯一获批用于儿童抑郁的 SSRI;安慰剂响应率更高(50-60%)。老年人:需考虑多药联用和跌倒风险;老年抑郁常合并认知下降;量表可能不同(如 GDS)。两个人群都应独立分析。
完全可以。MetaReview 支持 SMD(Hedges' g)、MD、OR/RR、HR 等全部效应量类型,提供固定效应和随机效应模型,自动生成森林图和漏斗图,支持按药物类别或疾病严重度进行亚组分析,以及逐一剔除敏感性分析。免费使用,无需安装,无需编程。