重要性:急性重要器官功能障碍是危重症的标志。序贯器官衰竭评估(SOFA)评分是应用最广泛的器官功能障碍描述方法,但已有30年未更新,因此可能无法恰当反映当前的临床实践和患者结局。
目标:在通过改良德尔菲法获得专家意见(阶段1-5)后,旨在为不同地理和资源环境下更新评分(SOFA-2)的数据驱动部分(阶段6-8)提供依据。
设计、设置与参与者:对2014年至2023年间入住9个国家(澳大利亚、奥地利、巴西、法国、意大利、日本、尼泊尔、新西兰、美国)1319个重症监护病房的成年患者收集的数据进行了联邦分析。使用四个具有代表性的多中心队列(包含2,098,356名患者的数据)进行数据驱动的评分开发和内部验证。外部验证在包含1,241,114名患者数据的6个队列中进行。
主要结局与指标:通过改良德尔菲法确定的器官功能障碍内容效度,应通过使用ICU第一天测得的评分(评分越高表明器官功能障碍越严重)的受试者工作特征曲线下面积(AUROC)所显示的预测效度来反映。
结果:在334万例患者就诊中,有270,108例(8.1%)在ICU内死亡(10个队列的死亡率范围为4.5%至20.5%)。SOFA-2修改了原始SOFA评分的6个器官系统(脑、呼吸、心血管、肝脏、肾脏、凝血功能),包括新的变量和修订的阈值,以更好地描述0至4分的器官功能障碍分布及其相关死亡率(SOFA-2 AUROC为0.79;95% CI,0.76-0.81;SOFA-1 AUROC为0.77;95% CI,0.74-0.81)。对ICU第1天至第7天的序贯SOFA-2数据评估显示其保持了预测效度。由于数据不足和内容效度缺乏,胃肠道和免疫功能障碍评分未被纳入SOFA-2。
结论与相关性:SOFA-2评分经过更新,纳入了当代的器官支持治疗和新的评分阈值,在一个地理和社会经济背景多样化的大型危重症成人群体中描述了器官功能障碍情况。
全文翻译如下:
过去30年间,重症监护的提供方式发生了诸多变化。高级生命支持的新方法、对医源性伤害的规避以及更密切的监测,都影响了我们对危重病患者器官功能障碍的理解与治疗[1]。然而,自1996年以来,用于评估器官功能障碍的序贯器官衰竭评估(SOFA)评分(现称为SOFA-1)却未作任何更新[2,3]。
SOFA-1评分通过20世纪90年代临床常规使用的临床和生化指标,描述了六个器官系统——神经系统、心血管系统、呼吸系统、肝脏系统、肾脏系统和凝血系统,总评分范围为0至24分(分数越高表示器官功能障碍越严重)。但它未能捕捉到当前用于支持衰竭器官的干预措施(如药物和设备)[4-6]。此外,器官支持的启动阈值也可能受到无创治疗趋势、疾病进程早期介入以及ICU病例组合变化的影响[4,5,7-9]。在此背景下,亟需对危重病患者器官功能障碍的评估方式进行新的更新,尤其是一种能同时适用于高收入国家及中低收入国家的评估工具[10]。
一篇伴随发表的文章描述了一个改良德尔菲法(mDelphi)流程,用以构建概念框架和提出新评分方案[11]。本文则阐述了最终版SOFA-2评分的数据驱动开发与验证过程。

要点
问题:更新的序贯器官衰竭评估(SOFA)-2评分是否能够描述危重病患者的器官功能障碍,并反映其与重症监护病房(ICU)死亡率之间的关联?
研究结果:SOFA-2评分是在10个国际多中心队列、共330万例成年ICU患者中开发和验证的。SOFA-2保留了原有的6个器官系统(神经、心血管、呼吸、肝脏、肾脏和凝血),总分范围为0至24分(分数越高表示器官功能障碍越严重)。研究曾探讨将免疫系统和胃肠道系统纳入评分,但最终未加入。更新的评分现在纳入了1996年原始版本发布时很少使用或未使用的常用药物和机械器官支持手段。部分评分阈值也经过调整,以提高对ICU死亡率的预测效度。
意义:更新后的SOFA-2评分纳入了当代器官支持治疗手段并采用了新的评分阈值,在一个地理分布广泛、社会经济背景多样的危重成年患者群体中,能够有效描述器官功能障碍,并具有良好的预测效度。
方法
SOFA-2更新流程概述
SOFA评分的更新共分为8个阶段(见图1)。这些阶段包括:专家遴选以参与德尔菲(Delphi)多轮讨论、系统评价,以及内部与外部数据验证。整个工作围绕以下6个维度展开评估:可靠性(reliability)、内容效度(content)、结构效度(construct)、标准效度(criterion)、预测效度(predictive validity),以及清晰性、测量负担和时效性(clarity, measurement burden, and timeliness)。前5个阶段已在伴随发表的手稿中完成并进行了描述[11]。本文报告的是数据驱动阶段(第6至第8阶段)的结果。所有研究发现均按照《加强流行病学中观察性研究报告》(Strengthening the Reporting of Observational Studies in Epidemiology, STROBE)指南进行报告。

第1至第5阶段研究结果概要
由60名重症医学专家组成的专家小组参与了2轮改良德尔菲法(mDelphi)讨论,旨在制定器官功能障碍的更新定义,并提出那些常规可测量或具有临床与实验室意义的变量,以反映当代对器官功能障碍的识别与管理方式(对应第1至第3阶段)。该多元化的专家小组致力于填补证据空白,并确保所提出的内容具有临床相关性。这些讨论基于为“脓毒症-3”(Sepsis-3)所建立的理论框架[12,13]。在此框架下,器官功能障碍被视为一个可通过操作性标准(而非精确的生物学定义)来评分的构念。
遵循原始SOFA评分[2,4]的基本原则,此次更新优先考虑简洁性、临床实用性、广泛适用性以及内容效度。由此确保该评分能够反映出具有临床意义的器官功能障碍严重程度分类,并且随着严重程度增加,死亡风险呈阶梯式上升(详见补充材料1)[12]。
在第4阶段,利用系统评价匹配了在无法获取动脉血气测量值时,动脉氧分压(PaO₂)与吸入氧浓度(FiO₂)比值,以及动脉血氧饱和度(SpO₂)与FiO₂比值的相应阈值;明确了启动肾脏替代治疗的指征标准;并描述了去甲肾上腺素剂量、总白细胞计数、淋巴细胞计数以及腹内压与死亡风险之间的关联。
第5阶段则包含第二轮改良德尔菲法讨论,旨在就初步拟定的SOFA-2评分的代理指标与可行性达成共识。在该阶段,提出了包括脑、呼吸、心血管、肝脏、肾脏、凝血、胃肠道和免疫在内的八个器官系统,供后续内部与外部验证阶段进行评估。
第6至第8阶段的研究设计、研究环境与研究对象
本研究采用联合分析(federated analysis)方法,使用了来自10个国际多中心队列的数据,涵盖分布于9个国家(澳大利亚、奥地利、巴西、法国、意大利、日本、尼泊尔、新西兰、美国)的1319个重症监护病房(ICU)中的病例资料。
数据提取自8个国家级的ICU登记数据库[10,14],以及2个符合预先设定标准(数据完整性、可行性与方案依从性)的多中心电子健康记录(EHR)数据集(详见补充材料2中的方法部分)。单中心数据集被排除在外。
我们纳入了2014年1月1日至2023年12月31日期间,入住ICU的年龄在18岁及以上的危重成年患者。排除了同一急性住院期间内的ICU再入院患者、首次于ICU住院但缺失出院状态信息的患者,以及仅因器官捐献而入院的病例。
在内部验证阶段,分析了4个队列,分别为:澳大利亚与新西兰重症医学会(ANZICS)[15]、奥地利重症监护文档与质量保证中心(ASDI)[16]、凯撒医疗北加州(KPNC)[17],以及重症监护组织特征研究(ORCHESTRA)[18]。
外部验证则使用了另外6个队列,包括:eICU(电子重症监护协作研究数据库)[19]、GiViTI-PROSAFE(意大利重症干预评估组–欧洲产品安全论坛)[20]、JIPAD(日本重症患者数据库)[21]、GiViTI–Margherita Tre[22]、尼泊尔重症监护登记基金会(NICRF)[23],以及OutcomeRea(复苏结局数据库)[24]。
各数据库均需包含每个器官系统的关键变量(例如:格拉斯哥昏迷评分[GCS];PaO₂/FiO₂比值;平均动脉压与血管活性药物剂量;胆红素、肌酐和血小板数值,详见补充材料2中的表1)。对于连续型变量,若其数值超出了由专家组共同认定的合理范围(详见补充材料2中的表2),则视为缺失值。
第6至第8阶段的方法
首先,对拟定的SOFA-2评分各领域(即器官系统)进行了内部验证,评估候选变量的分布情况、SOFA评分切点的阈值设定,以及其对ICU死亡率的预测效度。经专家组共识,选择ICU死亡率作为主要结局指标,因为该指标在所有登记数据库中均可一致获得[14,25]。对于连续型变量,采用广义加性模型(GAMs)评估其分布情况,所用工具为R语言中的mgcv程序包,并使用惩罚平滑样条方法[26]。针对连续变量(如格拉斯哥昏迷评分[GCS]、PaO₂/FiO₂比值、胆红素、肌酐和血小板水平)所提出的阈值,与通过分类与回归树(CART)模型生成的阈值进行了比较[27]。在CART模型中,尽可能为每个连续变量获取四个切点,并采用十折交叉验证方法(详见补充材料2中的方法部分[eMethods])[27]。
接下来,在第7阶段,由第三轮改良德尔菲法(mDelphi)对内部验证所得结果进行了审议。当数据驱动得出的结果与专家共识出现分歧时,通过结构化委员会讨论做出决策,决策依据为SOFA评分制定的既定规则(例如,优先考虑内容效度而非预测效度;详见补充材料1)。
最后,进行了最终版SOFA-2评分的外部验证(第8阶段)。该阶段的分析重点包括:对ICU死亡率的预测效度、ICU住院头7天内的纵向测量表现,以及一系列敏感性分析(更多细节请参见补充材料1)。
统计分析
描述性统计量通过均值(标准差)、中位数(四分位距)和比例生成。针对每个SOFA-1和SOFA-2评分以及每个SOFA领域,展示了ICU死亡比例。数据采用多水平荟萃分析模型进行汇总,应用logit转换、为每个数据库设置随机截距,并将分类点作为协变量[28,29]。从该荟萃分析模型中推导出用于估计边际均值的汇总比例及其95%置信区间(CI),针对每个分类点。当某个队列中至少有2个器官系统具备连续2个分类点的数据时,这些队列会被纳入对应器官系统的模型分析(补充材料1)。对于总SOFA评分,仅纳入具有完整评分数据的队列。
为评估预测效度,通过以下两种方式估算受试者工作特征曲线下面积(AUROC):(1) 单阶段方法——在混合效应逻辑回归模型中结合给定评分的患者数量与相关死亡数,每个队列设置随机截距;(2) 双阶段方法——使用随机效应荟萃分析模型汇总各队列提取的估计值,并对AUROC及其标准误进行logit转换[30]。各队列曲线下面积的标准误采用DeLong法估算[31]。荟萃分析采用限制性最大似然法。采用logit连接函数的一般化混合模型评估总SOFA评分每增加1分与ICU死亡率之间的关联,其中包含每个数据库的随机截距。
进行了多项敏感性分析:首先,检验仅使用完整病例数据的分析结果是否与采用正常值填补法的发现一致;其次,测试关于器官功能障碍时间窗(第1天)的假设,比较记录ICU入院后24小时内最差值的队列与同时记录第1小时和前24小时最差值的队列;第三,检验各系统部分或完整数据可用性是否影响汇总结果——随后利用10个队列的数据进行荟萃分析;第四,评估每个器官功能障碍评分每增加1分与ICU死亡率之间关联强度在不同队列间是否存在差异——这包括在荟萃分析和混合模型中为评分点设置随机斜率。
为理解SOFA-2评分相较于SOFA-1如何将患者重新分类至不同评分类别,使用来自开放获取数据库eICU的患者层面数据绘制了重新分类热图[19]。
在纵向分析中,测量了ICU第1至7天的每日、特定领域及总SOFA-2评分,报告了平均值和最大值(若可获得)。
缺失数据主要通过正常值填补法[3,4,32-34]及补充材料1、补充材料2的电子方法部分与电子表3中描述的其他替代方法处理。
所有分析均使用R 4.2.1版本(R基金会)完成。
结果
患者情况
在内部验证数据中(4个队列,共 n = 2,098,356 名患者;平均年龄 63.1 岁 [标准差 SD = 18],女性占 44.6%),大多数 ICU 入院是因为内科诊断(n = 1,129,428,占 53.9%),ICU 死亡率介于 4.5% 至 10.1% 之间(见图 2 和表 1)。外部验证数据(6 个队列,n = 1,241,114 名患者)情况类似,但注意到患者年龄更大(平均年龄 65.1 岁 [SD = 16],女性占 40.7%),ICU 死亡率范围为 4.0% 至 20.5%。在 ICU 入院后第 1 天的病情严重程度分布方面,不同数据库(共 7 个)之间存在差异(范围为 12.4%–31.2% 的预测院内死亡率,使用了不同的评分系统;见补充材料 2 中的电子表 4)。


第 6 阶段:内部验证
用于构建 SOFA-2 评分 的候选变量在各队列中的分布具有一致性(见补充材料 2 中的电子图 1–6)。在使用广义加性模型(GAM)和分类与回归树模型(CART)进行评估时,候选变量的阈值与第二次 Delphi 共识过程提出的阈值相一致(见补充材料 2 中的电子表 5)。例如,在呼吸系统方面,新的 PaO₂:FIO₂ 比值阈值设定为 300、225、150 和 75。在肝脏系统方面,基于胆红素水平的阈值被调整为 1.2、3、6 和 12 mg/dL(如需将胆红素从 mg/dL 转换为 μmol/L,请乘以 17.104)。其他器官系统的阈值变化详见补充材料 2 中的电子表 6。
在其中一个队列(ASDI,n = 406,469)中对新提出的 胃肠道系统评分 进行了评估,未观察到其与 ICU 死亡率之间存在关联(见补充材料 2 中的电子图 7)。对于免疫系统,总白细胞计数和淋巴细胞计数与 ICU 死亡率之间均呈现 U 型关联(见补充材料 2 中的电子图 8)。
第 7 阶段:第三次 Delphi 共识
在对内部验证结果进行审查后,专家们达成共识认为:胃肠道评分缺乏预测效度,而免疫评分未满足内容效度的要求。因此,这两项评分均被排除在最终的 SOFA-2 评分 之外[11]。
第 8 阶段:外部验证
在 6 个独立队列 中开展的外部验证,证实了内部验证的研究发现,包括 完整病例分析 以及其他 敏感性分析(见图 3;补充材料 2 中的电子图 9–14)。随着 SOFA-2 评分从 0 分上升至 4 分,每一个独立的器官系统均与 ICU 死亡率的逐步增加 相关联(见补充材料 2 中的电子图 15–22)。

来自 内部和外部验证的汇总结果 涵盖了 9 个(呼吸系统、肾脏系统)或 10 个(脑部系统、心血管系统、肝脏系统、凝血系统)队列,每个系统至少包含 250 万例患者诊疗记录(见图 2;补充材料 2 中的电子表 7)。针对 总 SOFA 评分 的分析汇总了来自 5 个队列(其中 2 个来自内部验证,3 个来自外部验证)的数据,共涉及 1,002,956 名患者,其中 94,937 人死亡(死亡率为 9.5%)。在对所有可用数据进行的 荟萃分析 中,也观察到了相同的 评分分布模式 以及与之相关的 死亡率趋势(见补充材料 2 中的电子图 23–26)。
关于 总 SOFA 评分的完整病例数据,共包含 116,481 名患者,其中 22,476 人死亡(死亡率为 19.3%)。在仅使用完整病例数据的分析中,评分分布向 更高分值方向偏移(见补充材料 2 中的电子图 27–30),不过 ICU 死亡风险的变化模式仍然相似。假设 总 SOFA 评分与 ICU 死亡率之间存在线性关系,则 SOFA-2 评分每增加 1 分,ICU 死亡的比值比(OR)为 1.378,95% 置信区间(CI)为 1.375–1.381,说明每增加 1 分,死亡风险显著升高。敏感性分析也得到了相似的结果(见补充材料 2 中的电子表 8)。
最终的 SOFA-2 评分标准展示在表 2 中,其脚注部分描述了保持评分一致性的重要规则。

SOFA-1 与 SOFA-2 的对比
总体而言,在采用正常值填补法的情况下,总 SOFA-1 评分(中位数为 3,四分位距 IQR 为 1–6)与总 SOFA-2 评分(中位数为 3,IQR 为 1–5)相近(见补充材料 2 中的电子表 9)。在 不完整病例数据 的情况下,两个评分的 总分都较高(SOFA-1 的中位数评分为 8,IQR 为 5–11;SOFA-2 的中位数评分为 7,IQR 为 4–10)。SOFA-1 与 SOFA-2 在各个器官系统中的患者分布存在差异(见图 4)。例如,在心血管系统中,SOFA-1 评分为 2 分的患者仅占 0.9%,而 SOFA-2 评分为 2 分的患者占 8.9%(见图 4A 与补充材料 2 中的电子图 31–34)。对于 总 SOFA 评分,更多患者在 SOFA-2 中获得了较低的分数(见图 4B)。
针对 eICU 数据库,我们对 289,000 名患者(占总数的 72%) 进行了 心血管系统、总 SOFA 评分以及纵向评估,这部分分析 排除了未报告血管活性药物或正性肌力药物使用情况的医院。

重新分类分析 发现:
- 49% 的患者其 SOFA-1 与 SOFA-2 总分相同;
- 11% 的患者 SOFA-2 评分更高(中位数差异为 2 分,IQR 为 1–3 分);
- 40% 的患者 SOFA-2 评分更低(中位数差异为 –3 分,IQR 为 –4 至 –1 分)(见图 5A 与补充材料 2 中的电子图 35–41)。

当 SOFA-1 与 SOFA-2 评分相同时,ICU 死亡率为 4.7%;当 SOFA-2 评分更高时,ICU 死亡率为 13.5%;当 SOFA-2 评分更低时,ICU 死亡率为 8.6%。
预测效度(Predictive Validity)
SOFA-2 与 SOFA-1 在预测 ICU 死亡率方面的预测效度相似:
- 综合(合并)单阶段估计:SOFA-2 的 AUROC(受试者工作特征曲线下面积)为 0.81(95% 置信区间 CI:0.81–0.81),SOFA-1 为 0.80(95% CI:0.79–0.80)。
- 双阶段荟萃分析估计 同样显示两者相近:SOFA-2 的 AUROC 为 0.79(95% CI:0.76–0.81),SOFA-1 为 0.77(95% CI:0.74–0.81)(见图 5B,补充材料 2 中的电子图 42–43 与电子表 10)。
这些数据在 单个队列、完整病例分析、敏感性分析以及各个器官系统 中均保持一致(见补充材料 2 中的电子图 44–46 与电子表 11)。
纵向数据(Longitudinal Data)
在 553,901 名患者 中测量了 每日 SOFA-2 评分(其中包括 eICU 289,000 名,KPNC 258,515 名,OutcomeRean 6,386 名),总计 2,072,285 个患者-日数据。大约 80% 的患者提供了第 2 天的数据,60% 的患者提供了第 3 天的数据(见补充材料 2 中的电子图 47)。
- ICU 第 1 天的 SOFA-2 评分中位数为 6(IQR:4–9)
- 第 2 天为 5(IQR:3–8)
- 第 3 天为 5(IQR:3–8)
在 ICU 中死亡的患者,其 SOFA-2 评分普遍更高(死亡患者的中位数评分为 9,IQR:6–13;存活患者为 5,IQR:3–7;P< .001)(见补充材料 2 中的电子图 48)。不同器官系统的评分随时间变化的趋势各不相同(见补充材料 2 中的电子图 49)。就预测 ICU 死亡率而言,使用 ICU 住院期间 SOFA-2 评分的“平均值”具有最高的预测效度(AUROC 为 0.87,95% CI:0.80–0.92),优于任意一天所取得的“最高分”(AUROC 为 0.84,95% CI:0.79–0.87)(见补充材料 2 中的电子图 50)。此外,采用其他方法来处理纵向缺失数据,并未对结果产生显著影响(见补充材料 2 中的电子图 51)。
讨论
经过通过改良版德尔菲法(modified Delphi)和数据驱动分析方法更新后的 SOFA 评分,使其与当前重症患者器官支持的实际临床实践相一致,该评分保留了 6 个器官系统,总分范围为 0 至 24 分。在来自 9 个国家、涵盖多种地理和经济区域、超过 300 万例 ICU 入院患者 的数据中,SOFA-2 评分与 ICU 死亡率相关联。
更新SOFA-1的需求早已被重症医学医师和临床研究者所认识。4,6,7由于药物和器官支持设备的进步,SOFA-1对某些器官系统已经过时。正如我们也观察到的,这一局限性在心血管、呼吸和肾脏系统中尤为明显。5,8此外,解释上的模糊性导致了评分的不一致。6SOFA-2通过纳入当前使用的药物和设备、提供明确的说明、并将适用范围扩展至治疗上限和资源有限的环境,解决了这些不足,其目标是提高标准化程度和普适性。
SOFA-1与SOFA-2之间最显著的差异出现在呼吸、心血管和肾脏系统。这些变化使得中间分数(例如,呼吸功能障碍为0-2分,心血管功能障碍为2分)的分布更加合理。近一半的患者在总体SOFA-1和SOFA-2之间发生了重新分类。相关的ICU死亡率梯度(即当SOFA-2较高时为13.5%,当SOFA-2较低时为8.6%)表明SOFA-2更符合器官功能障碍情况。通过在关键系统中重新分配分数,SOFA-2提高了内容效度,并增强了与当代临床实践的一致性,满足了推动SOFA更新的两项优先目标。
对第一天数据进行正常值插补,提供了在所有ICU患者中更真实的分数分布表现。11在完整病例数据中观察到的ICU死亡率为19.3%,高于插补版本中的9.5%。这可能与在最严重疾病患者中进行了更全面的数据收集有关。对于纵向缺失值,预测效度在最多7天内各种插补方法间相似。对于床边使用,我们推荐采用末次观测值结转法作为最佳折中方案。对于研究目的,包括综合征标准或试验结果,可能更倾向于使用多重插补等方法。8,35,38
SOFA-2在使用第一天数据和纵向分析的数据时,对ICU死亡率显示出良好的预测效度。这些数据与先前一项关于SOFA-1在ICU入院时(1999-2008年,约30000名患者)的18项研究的系统综述一致,其中短期死亡率的AUROC范围为0.61至0.88。43最重要的是,预测效度在不同国家和队列中保持一致,表明其可推广至不同地理经济、病例组合和管理策略的情况。
该研究具有显著优势。首先,多元化的工作组由来自多个地区(包括资源有限环境)的重症医学、流行病学和数据科学专家组成。其次,真实世界分析(包括地理分布广泛的中低收入国家,来自9个国家1319个ICU)支持了其普适性。先前验证SOFA-1的步骤所依赖的患者数量要少得多。2,44第三,当前过程是多轮改良德尔菲法和数据分析的合作成果,使得开发出的评分既基于证据,又适用于不同ICU的床边应用。
局限性
该研究存在若干局限性。首先,仅使用ICU死亡率进行预测效度评估,因为所有参与队列中仅收集了ICU结局。重要的是,我们并不一定旨在提高SOFA-1的预测能力,也不旨在与现有预后评分(如急性生理与慢性健康评估)竞争,而是为了增强分数分布以更好地描述一般ICU人群中的器官功能障碍。ICU死亡率与其他危重病结局(如ICU住院时间、费用、工作人员倦怠、家属满意度和医院死亡率)密切相关。45-48其次,尽管早期改良德尔菲讨论中推荐纳入,但胃肠道和免疫系统功能障碍并未包含在最终的SOFA-2评分中。候选变量无法同时满足内容效度和预测效度的要求,因此未能纳入。11第三,SOFA-2的阈值决策基于ICU入院第一天的数据。在危重病病程后期,其他阈值可能更为理想。第四,SOFA-2评分仅在重症患者中开发和验证;对于ICU之外的患者(例如急诊科患者或儿科患者)的普适性,需要未来进一步研究。
结论
SOFA-2评分经过更新,纳入了当代器官支持治疗和新评分阈值,能够描述一大群地理和社会经济背景多样化的危重成人患者的器官功能障碍,并具有良好的预测效度支持。
原创文章(本站视频密码:66668888),作者:xujunzju,如若转载,请注明出处:https://zyicu.cn/?p=20984
微信扫一扫
支付宝扫一扫