NEJM：临床医学中的AI和机器学习

20世纪40和50年代，计算机和人工智能（AI）概念几乎同步发展，而医学领域很快就看到了其潜在意义和优势。1959年，Keeve Brodman及其同事声称，“从各个方面来说，对症状做出正确诊断解读都是一个逻辑过程，因此可以由机器执行。”11年后，William B. Schwartz在本刊发文指出：“计算科学有可能增强，甚至在某些情况下基本取代医师智力功能，从而发挥其主要作用。”他预测，到2000年，计算机将在医学领域扮演全新角色，成为医师智力的强大扩展。

然而，到20世纪70年代末，令人失望的是，医学领域的两种主要计算方法（即基于规则的系统和匹配[模式识别]系统）在临床应用中并没有像人们所希望的那样取得成功。基于规则的系统是建立在以下假设基础上：专家知识由许多具有情境特异性的独立规则组成，计算机可将这些规则串联成演绎链，从而模拟专家推理。匹配策略试图将患者临床特征与“存储的特定疾病特征”（现称为“疾病脚本”）数据库相匹配。另外一个投入更多努力的方面是了解临床决策过程本身。显而易见，之前大多数程序的关键缺陷源自缺乏病理生理学知识。将这些知识纳入之后，其表现大幅提高。

但20世纪80年代时，计算机还不能胜任这项任务。到1987年，基于规则的系统被证明可在各种商业任务中发挥作用，但在临床医学领域则行不通。Schwartz及其同事指出，“程序运行过程非常缓慢，即使有了现代高速计算机，仍然不实用。”他们还说：“计算机很快将协助医师诊断困难疾病的说法已经听了几十年，医师也想知道这场变革怎么还没有来。”

数据科学的进展

20世纪50年代时，计算机体积庞大且速度缓慢。第一个硬盘驱动器是1956年推出的IBM 350 Disk File。它的总存储容量为500万字符（略低于5 MB）。第一个容量超过1 GB的硬盘驱动器是1980年推出的IBM 3380。它跟冰箱一样大，重550磅（250 kg），价格10万美元。但集成电路技术当时正不断改进。1965年，快捷半导体（Fairchild Semiconductor）和英特尔的联合创始人戈登·摩尔（Gordon Moore）预测，集成电路中的晶体管数量以及其潜在计算能力将每两年翻一番。他的预测是正确的，半导体密度的这一变化后被称为摩尔定律。

然而，摩尔定律告诉我们的不仅仅是每平方厘米的晶体管数量，因为其他方面的技术进步（如电子产品的处理速度和价格）都与摩尔定律密切相关。电路变得更密集之后，计算机内存和计算速度随之增加；今天，可装入口袋的电子设备已经比上世纪80年代塞满整个房间的超级计算机更强大，价格比后者便宜得多，而且随处可见（图1）。

数据科学的发展不仅仅是性能、速度和存储容量提高。除图书馆中的信息、组织机构产生的数据以及旨在收集和编码数据的既有系统之外，新型技术还可应用人产生的数据和机器产生的数据。这些数据通常混乱且无结构。数据还有许多其他来源，包括社交网络、博客、聊天室、产品评价网站、社区、网站页面、电子邮件、文档、图像、视频和音乐，以及可穿戴传感器和环境传感器。此外，许多人在网上公开自己的病历和个人基因数据，任何人均可访问。现在的存储容量已经庞大到可以存储包含人类知识和活动在内的大量数据，并可随时访问。

有了数据之后，我们还需要其他工具，例如需要识别和处理数据的方法。谷歌是在线搜索领域的引领者，其工作方式是根据他人所做的搜索确定人们想知晓的内容。要做到这一点，需要第二次革命，即要求算法可以快速且相当可靠地追踪上述行为，并帮助最终用户找到特定信息。更密集的信息存储和更快的计算速度使我们可以实际、实时求解数学运算，而这些运算可用于寻找数据中以前不可知的关系。因此，数据科学蓬勃发展，并以之前不可能实现的方式展示出其力量。

我们现在可使用非结构化数据识别数据各元素间的未知关系，进而可以使用动态数据和有多个上下文的数据，当以非传统方式处理和分析这些数据时，可以对人类行为做出可执行的判断。计算能力发展到可以对数据查询做出功能性实时输出之后，神经网络变得更加复杂精细。Transformers（即为输入数据中各部分重要性分配不同权重的深度学习模型）使自然语言处理成为可能。有了该方法之后，底层计算机模型，以及这些模型可以从中提取信息的数据集，都变得日益复杂和强大。通过计算机模拟人际互动过程中某些方面从不可能的梦想变成了现实。

通过数据科学实现的连通性正推动新兴发现。人们正使用社交网络建立自己与朋友、事物、事件、喜好、厌恶、地点、想法和情绪之间的联系。政府正分析社交网络，从而阻止恐怖行动。企业正挖掘社交和交易信息，从而获取可帮助他们发现新机会的联系。科学家们正使用AI和机器学习，将相互连接的数据构建成庞大网络，从而梳理出新发现。如下文所述，这些发展推动了可帮助我们执行单调乏味任务的计算机的出现。

《星球大战》中的角色C-3PO是基于AI的虚拟助手（如苹果Siri、谷歌助理和亚马逊Alexa）的原始版本，而这些虚拟助手现在已成为我们日常生活的一部分，可以帮助我们执行明确任务。使用过这些设备的人都感受过它们带来的便利（例如指示虚拟助手“将烤箱定时20分钟”，做出火候合适的食物），但也曾因为它们将对话引入无关方向而感到恼火。AI和机器学习是这些设备的驱动力。

AI和机器学习在医学领域的应用

20世纪90年代和21世纪初，即使在计算机速度慢且内存有限的情况下，也已经解决了由机器成功执行重复性医疗任务（重复性导致易出现人为错误）这一问题。在大量资金和智力投入后，计算机解读心电图（ECG）和白细胞分类计数、分析视网膜照片和皮肤病变以及其他图像处理任务已经成为现实。其中许多机器学习辅助任务已得到基本认可并被纳入日常医疗工作。这些机器任务的表现并不完美，通常需要熟练人员监督整个过程，但在许多情况下，考虑到需要相对快速解读图像且当地缺乏专家，上述表现已经足够好。

AI和机器学习在医学领域的应用已扩展到解读医学图像之外。AI和机器学习程序已经以多种方式进入医学领域，包括但不限于协助发现可能影响公众健康的传染病暴发；结合临床、遗传和许多其他实验室结果，确定可能漏诊的罕见病和常见病；协助医院业务运营（图2）。未来几个月，本刊将发表更多综述文章，具体探讨2023年AI和机器学习在医学领域的应用。我们将在之后大概一个月内发表第一篇综述文章，在此之前，有必要思考在我们学习与机器合作时需要思考的最重要问题。

AI和机器学习在医学领域应用中的待解决问题

确立常态

如上所述，在解读某些类型医学图像（如ECG、X线平片、计算机断层扫描[CT]和磁共振成像[MRI]扫描图像、皮肤图像和视网膜照片）方面，AI和机器学习已获得认可。在这些应用领域，AI和机器学习可标记出图像中的偏离常态之处，从而协助医护人员。

这就引出了一个关键问题：什么是常态？这个简单问题体现出将AI和机器学习应用于医学领域时当前主要应用方式存在的一个弱点。“教导”AI和机器学习算法的过程中存在偏差，这些偏差将如何影响它们在真实世界的运行方式？我们如何将人类价值观注入AI和机器学习算法，从而使获得的结果反映医疗专业人员面临的真实问题？为确保AI和机器学习能够在多用途环境中如宣传的那样发挥作用，监管机构必须解决哪些问题？对于依赖AI和机器学习的干预措施，统计推断中的经典方法应该如何修改（如果需要修改的话）？这些只是我们面临的几个问题；“AI在医学领域的应用”（AI in Medicine）系列综述将探讨其中一些问题。

AI和机器学习在临床实践中的作用

虽有困难，但前景仍然光明。如果AI和机器学习算法可以简化为供临床使用的“应用程序”（APP），它们能否从堆积如山的临床、基因组、代谢组和环境数据中找到出路，协助精准诊断？AI和机器学习驱动的APP能否成为你的私人文书，帮你省出做书面工作的时间，以便有更多时间诊治患者？这些APP能否给你提示，从而提出有助于鉴别诊断的关键问题？它们能否胜过保险公司使用的AI和机器学习算法?保险公司使用的AI和机器学习算法使你难以开出PET-CT扫描检查，也难以为你与患者及其家人在一起的时间收取费用。AI和机器学习已在每个领域取得发展。这样就够了吗？

对应用AI和机器学习开展临床研究

评估AI和机器学习发展情况时，评估过程自身面临一系列问题。在传统临床研究中，如果取得的发展是为某一明确疾病研发出新药，那么测试该药物并判定其属于进展的标准已经建立。当干预措施是AI和机器学习算法，而不是药物时，医学界期望得到相同程度的保证，但描述和测试AI和机器学习干预措施的标准远未明确。

如果要将一款APP认可为影响、变革和改进临床实践的标准，那么基于AI和机器学习的干预性研究应遵循哪些标准？此类研究有三个考虑事项。

第一，该研究必须可回答有临床意义的问题，而且可影响医疗专业人员行为，并改善患者结局。

第二，干预措施必须可定义、可扩展，并且适用于当前问题。干预措施绝不能受到问题领域以外因素的影响，并且产生的结局必须适用于广泛人群和疾病各种流行状况下的类似临床问题。AI和机器学习驱动的医疗可以满足这些标准（这是我们对新型治疗干预或基于实验室的诊断检测提出的要求）吗，还是我们需要为此类干预制定一套独特标准？

第三，当研究结果以影响临床实践的方式应用时，结局必须对考虑的所有患者有益，而不仅仅是对特征和检查结果与训练算法时的患者相似的人群有益。这就引出了一个问题，即提出诊断或治疗建议时，这些算法是否应考虑公共卫生（即稀缺资源的使用问题），以及这些考虑在多大程度上是算法决策过程的一部分。几个世纪以来，医疗专业人员和公众一直在考虑此类伦理问题。

AI和机器学习在临床研究中的应用

通过更高效招募和匹配参与者，以及更全面分析数据，AI和机器学习有望改进，而且有可能简化和加速临床试验。此外，通过将历史数据与目标试验纳入标准相匹配，我们有可能创建合成对照组。AI和机器学习也可用于更好地预测和理解可能的不良事件和患者亚群。AI似乎可生成用于模拟诊断或治疗结局的“合成患者”。但是，AI和机器学习应用程序及干预措施的使用带来了一系列不确定性，这些不确定性必须在临床试验方案和报告中予以阐述。

在“AI在医学领域的应用”系列综述中，我们计划讨论AI和医学交叉领域的进展、困难、前景和实施。一定要记得这是一个快速发展的领域，所以在某种程度上，我们所发表内容的分辨率可能就像坐在高铁上拍摄的风景照。具体而言，文章发表前短时间内发生的事情可能会比较模糊，因为它们变化很快，但对远处背景的对焦会比较好。AI和机器学习取得实质进展的一个领域（即上述拍照比喻中的前景）是供公众使用的先进聊天机器人。虽然先进程度足以影响日常医疗的聊天机器人最近才推出，但我们认为，它们有很大潜力会影响行医方式，而如果我们不探索这一潜力并解决与应用相关的问题，将是不负责任的。

聊天机器人在医学领域的应用

在本期杂志中，Lee等的一篇文章介绍了GPT-4聊天机器人及其在医学领域的应用。本文作者是一组研究人员，他们在开发GPT-4的公司工作，而GPT-4是接受过通识教育（包括医学知识）的聊天机器人。展望未来之前，快速回顾一下过去会很有助益。聊天机器人是一种计算机程序，它利用AI和自然语言处理方法理解问题，并自动回应，模拟人类对话。非常早期的医学聊天机器人ELIZA由麻省理工学院人工智能实验室Joseph Weizenbaum于1964—1966年开发（图3）。

如上所述，从客户服务到个人虚拟助理，聊天机器人技术现在几乎无处不在。随着如今强大计算机的出现，语言模型拥有数千亿参数，这些参数可用于生成新文本。这种能力，结合可用于训练网络的几乎无限量（互联网）数据，意味着语言模型可以做越来越多的事情，正如ChatGPT（基于转换器的交互式生成式预训练模型，Chat Generative Pre-trained Transformer）展现的那样。

ChatGPT是OpenAI训练的语言模型，于2022年11月发布（https://openai.com/blog/chatgpt），已展示出AI驱动的机器与人之间的新互动方式。新一代聊天机器人有望成为文书和教练，但有一些关键注意事项。ChatGPT开发人员发布该模型时说明了其中诸多注意事项，但如Lee等所述，用于医学领域时尤其需仔细考虑。

在ChatGPT的当前迭代中，如前文所述，新一代聊天机器人可以帮助解决书面工作中的问题，并回答有助于鉴别诊断的关键问题。但很难知晓上述答案是否有事实依据。临床医师有责任校对聊天机器人的工作，就像临床医师需要校对他们口述的临床记录一样。难点是上述校对可能超出了用户的专业能力。校对患者诊治记录很可能在医务人员专业范围内，但如果聊天机器人被问及“非正式医疗咨询”问题，则答案准确性可能很难确定。

最有潜力和最令人关注的应用领域是通过聊天机器人诊断疾病，推荐治疗方案。没有临床经验的用户可能难以区分事实和杜撰。Lee及其同事在文章中阐述了这两个问题，并指出在医学领域使用聊天机器人的优缺点。自从这些作者开发出ChatGPT以来，偏见可能就存在。

尽管如此，我们仍然认为聊天机器人将成为医疗领域重要工具。像任何好的工具一样，它们可以帮助我们更好地工作，但如果使用不当，也有可能造成伤害。由于这些是新工具，并且很难使用上述传统方法进行测试，因此医学界将学习如何使用它们，而且也必须学习。毫无疑问，聊天机器人也会从用户身上学习。因此，我们预期用户和工具都有一段适应期。

结论

我们坚信，将AI和机器学习应用于医学领域已帮助医疗专业人员提高医疗质量，而且有望在近期和未来进一步提高医疗质量。计算机获取X线图像使得X线图像档案室变得不再必要，也使得丢失实体图像变得无关紧要，AI和机器学习也有可能像这样改变医学。随着医疗专业人员与AI和机器学习技术共同成长，我们会厘清如何与这些技术合作。AI和机器学习不会令医疗专业人员失业，相反，它们有可能使医疗专业人员更好地开展工作，并且省出时间进行人与人交流，而正是人与人交流使医学成为我们所珍视的有意义职业。

原创文章（本站视频密码：66668888），作者：xujunzju，如若转载，请注明出处：https://zyicu.cn/?p=15766