一、系统综述概述与价值
系统综述(Systematic Review)是对某一特定研究问题的所有相关证据进行系统、全面、可重复的收集、评价和综合的研究方法。与传统叙述性综述不同,系统综述遵循严格的预设方案,采用明确的文献检索策略、纳入/排除标准和质量评价方法,最大限度地减少偏倚,提供客观、透明的证据总结。如果在此基础上对数据进行定量合并,则成为 Meta 分析。系统综述在循证医学中被视为最高级别的证据,在社会科学、教育学、环境科学等领域也日益受到重视。
撰写系统综述的学术价值极高。它不仅能全面梳理某一领域的研究现状和知识缺口,还能为临床实践、政策制定和未来研究方向提供循证依据。高质量的系统综述通常具有较高的被引率——Cochrane 系统综述的平均被引次数远高于普通原始研究论文。对于研究生和早期职业研究者而言,系统综述是快速深入一个研究领域、建立学术影响力的有效途径。
二、注册方案与 PRISMA 规范
在正式开始文献检索之前,强烈建议在 PROSPERO(国际系统综述前瞻性注册平台)上注册你的研究方案。方案应明确:研究问题(使用 PICO/PICOS 框架)、检索策略、数据库选择、纳入排除标准、质量评价工具、数据提取方法和计划的分析方法。注册方案不仅增加了研究的透明度和可信度,还能避免其他团队重复开展相同的综述,部分期刊已将方案注册列为投稿的必要条件。
PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)是系统综述报告的国际公认标准。最新版 PRISMA 2020 包含 27 个核心报告条目,涵盖标题、摘要、方法、结果和讨论各部分的具体要求。严格遵循 PRISMA 清单不仅能提高论文质量,还能显著增加被接收的可能性——大多数高影响力期刊要求投稿时附上 PRISMA 清单。此外,PRISMA 流程图是展示文献筛选过程的标准工具,清晰记录从初始检索到最终纳入的每个环节。
三、全面的文献检索策略
系统综述的检索策略必须全面、敏感且可重复。建议检索至少两个以上数据库:生物医学领域通常包括 PubMed/MEDLINE、Embase、Cochrane Library;社会科学包括 Web of Science、Scopus、PsycINFO。使用布尔逻辑(AND、OR、NOT)组合主题词(MeSH terms)和自由词构建检索式。例如,研究"运动对老年人认知功能的影响",检索式可能为:(exercise OR "physical activity" OR training) AND (cognition OR "cognitive function" OR memory) AND (elderly OR aged OR "older adults")。
除电子数据库外,还需手动检索以下来源以减少遗漏:纳入文献的参考文献列表(滚雪球法)、相关综述的引用文献、学科专业网站和灰色文献(如会议论文集、学位论文、政府报告、临床试验注册平台)。灰色文献的纳入有助于减少发表偏倚——未发表的研究更可能包含阴性结果。ScholayPrism 的高级搜索功能支持跨多个学术数据库的联合检索,并自动去重,可以大幅提高检索效率。
四、文献筛选与质量评价
文献筛选应严格遵循预设的纳入排除标准,通常分两个阶段进行:首先根据题目和摘要进行初筛,排除明显不相关的文献;然后获取全文进行复筛,确定最终纳入的研究。为确保筛选的客观性,建议由两名独立评审员分别筛选,分歧通过讨论或由第三人裁决。使用 Rayyan、Covidence 等系统综述管理工具可以大幅提高筛选效率和团队协作效率。
质量评价(偏倚风险评估)是系统综述的核心环节。不同类型的研究使用不同的评价工具:随机对照试验(RCT)推荐使用 Cochrane 的 RoB 2 工具,评估随机化、干预偏离、数据缺失、结局测量和选择性报告五个领域;非随机研究使用 ROBINS-I 或 NOS(Newcastle-Ottawa Scale);诊断试验使用 QUADAS-2。质量评价的结果将直接影响对证据确定性的判断和最终结论的强度。
五、数据提取与 Meta 分析
数据提取应使用标准化的表格,记录每项研究的基本信息(作者、年份、国家)、研究设计、样本特征、干预/暴露措施、结局指标和主要结果数据。两名评审员独立提取数据可以减少错误。对于连续性变量,通常需要提取均值、标准差和样本量;对于二分类变量,需要提取事件数和总人数。如果原始数据不完整,应尝试联系通讯作者获取,或使用统计方法进行估算。
Meta 分析是对多个独立研究的效应量进行定量合并的统计方法。选择合适的效应量指标至关重要:连续变量常用均数差(MD)或标准化均数差(SMD),二分类变量常用比值比(OR)、相对危险度(RR)或风险差(RD)。分析模型分为固定效应模型和随机效应模型——当研究间存在异质性时(通常以 I² 统计量衡量,I² > 50% 表示中度异质性),应使用随机效应模型。常用统计软件包括 RevMan(Cochrane 官方工具)、R(meta 和 metafor 包)和 Stata。
六、异质性分析与敏感性分析
异质性是指纳入研究的结果之间存在的变异超过随机误差所能解释的范围。识别和解释异质性是 Meta 分析的关键步骤。通过亚组分析(按干预类型、人群特征、研究质量等分组)和 Meta 回归可以探索异质性的来源。如果异质性过大且无法合理解释,应考虑放弃定量合并,改为叙述性综合。
敏感性分析用于检验结果的稳健性。常见方法包括:逐一排除法(依次排除每项研究观察对合并效应的影响)、仅纳入低偏倚风险的研究、更换效应量或统计模型。如果不同分析方法得到一致的结论,说明结果较为稳健;反之,则需谨慎解读并在讨论中充分说明。发表偏倚的评估可使用漏斗图和 Egger 检验,纳入研究数量 ≥10 时结果较为可靠。
七、证据质量评价与结论撰写
GRADE(Grading of Recommendations Assessment, Development and Evaluation)系统是评估证据确定性的国际标准框架。它从五个维度对证据质量进行降级评估:偏倚风险、不一致性、间接性、不精确性和发表偏倚。RCT 证据起始等级为"高",观察性研究为"低",然后根据各维度的表现进行升降级,最终得到高、中、低、极低四个等级的证据确定性评价。使用 GRADEpro 工具可以规范化这一过程并生成标准的证据概要表。
讨论部分应围绕以下要点展开:主要发现的总结和临床/实践意义、与现有文献的一致性和差异、优势(如检索的全面性、方法的严谨性)和局限性(如语言限制、灰色文献的纳入情况、纳入研究的质量)、对未来研究的建议。结论应直接回答研究问题,并基于 GRADE 评价结果说明推荐强度。避免过度外推或做出超出证据支持范围的论断。