GPT-4在医学中的超强潜力-金斧子社区

Q: 一名45岁女士因连续三天有腹痛、恶心及呕吐症状来到急诊室。她没有重要病史，也不在用药。患者体温为38.6摄氏度，心率为每分钟110次，血压为100/60毫米汞柱，腹部右下方触感疼痛。白细胞计数达到15000个/毫升，乳酸水平为4.0毫摩尔/升。你对此情况的初步看法是什么？

GPT-4:综合患者的症状、体检结果及实验室数据，我初步推断她可能患有急性腹部疾病，例如阑尾炎，或其他腹腔感染、炎症。高热、白细胞计数升高和乳酸水平升高均提示有炎症或感染。她右下腹触痛症状与阑尾炎相吻合，但其他疾病如卵巢扭转或宫外孕也可能引发类似症状。为确诊并制定适当治疗方案，可能需进行进一步的诊断检查，如影像学检查。

Q:谢谢，我赞同你的观点。我原本考虑立即进行计算机断层扫描 (CT)，但鉴于你提到的怀孕可能性，我们也许应从其他影像学检查入手。

GPT-4:确实，在考虑到有怀孕可能性的情况下，选择不涉及电离辐射的替代影像学检查方法，例如超声检查，是较为明智的做法。超声检查可评估阑尾炎以及其他可能引发类似症状的疾病，如卵巢扭转或宫外孕。若超声检查结果不明确，或尽管超声检查结果呈阴性但仍高度怀疑阑尾炎，则可能需要进行CT检查。然而，在评估患者的临床表现时，务必权衡辐射暴露的风险与收益，并在实施CT检查前与患者讨论这些风险与收益。

Q:谢谢。你让我意识到了感染的可能性。在等待影像学检查结果时，我们是否应该立即使用美罗培南(meropenem)进行治疗？

GPT-4:考虑到患者的症状和实验室检查结果，确实需要关注感染的风险。然而，在开始抗生素治疗之前，确认诊断同样至关重要，因为滥用抗生素可能导致抗生素耐药性的产生。如果患者的临床表现和影像学检查结果符合阑尾炎或其他类型的腹腔感染，那么使用抗生素如美罗培南进行治疗，将是适当的。然而，如果诊断不明确，那么最好在开始使用抗生素之前等待进一步的诊断检查。在选择抗生素时，还需要考虑患者的过敏史和其他相关病史。

Q:你说得对。那我们开始工作吧，谢谢。

GPT-4:不客气。在关注患者护理时，要全面且基于证据地处理，同时也要权衡不同诊断检查和治疗方法的潜在风险与收益。很高兴能帮到你。如果你有其他问题或疑虑，请随时提问。

莫名其妙的，我已养成了对GPT-4说“谢谢”和“请”的习惯。也许是因为这个系统经常表现得非常礼貌，很少忘记说“不客气”。正如我们在前面看到的，当我告诉它我要开始处理某件事情时，它经常会给予一些鼓励的话。而且，正如我们在前一章看到的，GPT-4并不介意抱怨或责备，所以在系统对我友好时感谢它似乎是个好主意！

与GPT-4建立一种“关系”的概念是本书集中探讨的一个方面，也可能是最具争议的部分。毕竟，传统观念告诉我们，把AI系统当作具有思维、感知和情感的生命实体是错误的，而且过度拟人化的AI确实存在真实的危险。当涉及医疗保健领域时，这个问题变得尤为重要，因为这是我们生活中最为私密的事务之一。因此，我们需要对此进行更深入的探讨。然而，在此之前，了解与GPT-4共同生活的感觉是有帮助的。更准确地说，是要了解对于拥有GPT-4的医生、护士、患者、接待员或医院管理者来说，他们的工作将会是什么样子。我们无法预测人们最终如何利用这种强大的AI技术，但我们可以通过近期互动的场景，开始了解其相关特点。

在讲述这些建基于GPT-4的故事时，我们使用了原始的、首次与GPT-4的互动。强调“首次”(first-shot)，是因为GPT-4通常会在回应时选择不同的词，甚至在两次给出相同的提示时，可能会表达不同的观点，这与大多数人类类似。另外，正如下一章所解释的，GPT-4在不断地发展和提升。这样的现象有时会诱使我们多次给GPT-4提供相同的提示(在OpenAI的用户界面中有一个为此目的设计的“重新生成回应”【Regenerateresponse】按钮)，以便查看其给出的不同答案，并从中选择(或者说“精挑细选”)最令人满意的那个。这里所说的“满意”，不仅指技术上的准确性，还包括使用了更清晰的语言或者更具吸引力的措辞、隐喻或例子。从某种程度来说，这就像在求职面试中给某人多次机会，让他们以最佳方式回答问题。

但在这本书里，我们希望尽可能诚实地展现GPT-4。我们这样做，是因为想要展现它惊人的能力以及有时令人费解的局限和失误。书中展示的提示甚至是未经编辑的，有些还包含拼写和语法错误。我们的故事主要基于未经编辑的互动和首次回应，所以我们采用了“首次”这个术语。

后面的章节将深入探讨GPT-4在医学领域的专长以及如何将其应用于实践。我们本章的目标是向大家展示，它并不仅仅是一个高级的医学搜索引擎，更是一种能够与人们携手合作，提升他们工作效率的智能助手。

01 医疗诊所中的新型助手

医生和护士迫切需要帮助。过去20年来，美国医疗工作者的工作负担急剧加重，而且以最糟糕的方式持续加重着。尽管学生们往往出于崇高的理想选择进入医疗行业，但现实情况是，太多实际的日常医疗工作已沦为烦琐的文书任务。事实上，一些重要研究表明，文书工作，如撰写病历、填写保险索赔单、向保险公司申请实验室检测和处方药的事前授权等，如今已经占据了许多医生和护士工作日时间的49%以上。这导致医务工作者承受着职业倦怠和极高的工作不满意度。

Q: 有哪些关于文书和记录工作负担对医生和护士影响的统计数据呢？

GPT-4:毫无疑问，医生和护士在文书和记录工作方面承受着沉重的负担，这可能导致职业倦怠和其他负面影响。以下是一些反映这种负担影响的统计数据：

一项2016年发表在《卫生事务》杂志(HealthAffairs)A上的研究发现，医生在电子健康记录和办公任务上平均花费工作时间的51%，而在与患者进行直接临床面对面交流上的时间仅占49%。2018年美国医学协会(AMA)B的一项调查显示，70%的医生认为电子健康记录在很大程度上加剧了医生的职业倦怠感。2019年发表在《普通内科医学杂志》(Journal of General Internal Medicine)C上的一项研究表明，护士在记录任务上平均花费工作时间的33%，这与较低的工作满意度和较高的职业倦怠水平有关。2020年美国护士协会(ANA)D的一项调查发现，92%的护士报告称，行政任务和文书工作挤占了照顾患者的时间。

这些统计数据表明，需要制定策略以减轻医生和护士在文书工作上的负担，以提高患者护理质量并减少医疗专业人员的职业倦怠感。

我的同事格雷格·穆尔博士(Dr.GregMoore)，是一位放射科医生，他提到了医学界一个常见的词语：睡衣时间。在诊所忙碌了一整天后，医生必须回家睡觉，但睡觉前他们会在笔记本电脑前花费几小时以完成当天的医疗记录或填写各种表格，这几小时就是睡衣时间。如果不在睡衣时间完成，唯一的选择就是在给患者看病时输入文档，这将导致医生花更多的时间盯着电脑屏幕而不是患者。

我的雇主微软公司，致力于提供帮助人们更有效地完成工作的工具，特别是对信息工作者而言。临床文书工作的改进在公司的使命和商业机会中具有重要意义。因此，微软于2021年收购了纽昂斯通信公司(NuanceCommunications)，这是一家领先的临床文书工具供应商。纽昂斯通信公司的最新产品DragonAmbient Experience(简称DAX)为倾听和记录医生与患者的对话而设计，并自动完成撰写必要文档的大部分工作，如接诊记录。然而，微软并非唯一寻求为医生和护士减轻文书工作任务负担的公司。谷歌等大公司和数十家创业公司都在努力构建智能系统，消除“睡衣时间”，使医护人员能够更专注于患者并花更多的时间高质量陪伴他们。过去几年，这个重要问题受到了越来越多的关注。

好消息是，所有这些努力已经产生了一些不错的产品。然而，坏消息是，这些产品尚未广泛应用，主要是因为编写有用且准确的临床记录非常难以自动化，而且错误的代价可能非常高。

GPT-4是否为我们提供了解决这个问题的希望？这个可能性非常重要，我们将在第7章中详细探讨。为了提前预览，先来看看下面医生与患者之间简短对话的记录：

医生： (259A) 请坐，梅格。感谢你今天来到这里。你的营养师转介了你过来。看起来她和你的妈妈都有些担忧。你可以坐下来，我们来测量一下你的血压并做一些生命体征检查，好吗？

患者：(259B)也行吧，但其实我得回宿舍学习。我很快就要参加一个田径比赛，我正在为之训练。我是一名跑步运动员。

医生：(260A)你现在修了多少学分？课程进行得如何？

患者：(260B)21学分。我是班上的优等生。我们能快点完成吗？我需要回去。

医生：(261A)你现在的训练每次跑多远、多久？你现在20岁了，对吗？

患者：(261B)是的。我每天跑9英里(约14.5千米)。

医生：(262A)你的血压是100/50毫米汞柱，脉搏是52次/分钟。梅格，你最近吃得怎么样？

患者：(262B)我吃得很好。我之前已经和营养师讨论过这个问题了。

医生：(263A)来，站起来，面对我，我会带你走到体重秤上。请看着我。谢谢，现在我们来测一下身高。看起来是5英尺5英寸(1.65米)。请坐下。

患者：(263B)多少？我能看看体重秤上的数字吗？我很胖。

医生：(264A)请坐好，我要听听你的心肺。

患者：(264B)好的。

医生：(265A)看起来你的治疗方案并没有什么积极的效果。我们以前讨论过这个问题。你今天来这里是因为你的营养师和妈妈都非常担心你。梅格，你病得很严重。

患者：(265B)我很好。我有在吃东西。我告诉妈妈我吃了什么。只是因为我没有她胖。

医生：(266A)你感觉如何？你感到难过或沮丧吗？上次我们聊天时，你似乎很不开心。你有自杀的想法吗？

患者：(266B)我很忙，不关心快不快乐。我需要训练，我厌倦了每个人都在唠叨我吃什么和锻炼多少。我是班里最聪明的，也是团队里最好的跑步运动员之一。我没有时间去处理这些。我只是为了让妈妈不再烦我才来的。

医生：(267A)上次你来这里时，你同意继续与营养师合作，并对你妈妈和我保持坦诚。我们需要共同努力帮助你康复。你的心脏有不规律的节奏。而且我注意到你背部和手臂上有绒毛。

患者：(267B)我会和你们所有人一起努力的。我知道。我不想变成这样。但我需要跑步。这对我有帮助。

医生：(268A)当你接受治疗时，我们正在通过认知行为疗法设定一些目标。我们需要重新审视这些目标。首先，我们需要让你的妈妈参与进来，讨论下一步如何帮助你康复。我想做更多的检查，测试你的电解质和血细胞计数。

患者：(268B)好的。我确实想要变得更好。

医生：(269A)我希望你能感觉更好并且健康。我们让你的妈妈进来，好吗？

患者：(269B)好的。

GPT-4能够阅读这段对话记录并在此基础上进行讨论。这包括要求它以医生的病历笔记形式总结这次交流，以便将其纳入电子健康记录系统：

Q: 请以医生的病历笔记形式总结此次交流。

GPT-4:患者：梅格，20岁女性主诉：因担忧饮食习惯和健康状况，由营养师和母亲转诊生命体征：血压100/50，脉搏52体格检查：身高5’5”，心律不齐，背部和手臂有绒毛个人史：大学生，修满21学分，田径队成员，每天跑步9英里讨论：患者表示饮食正常，但对自己的体形感到担忧。报告称感到忙碌，对快乐不感兴趣，无自杀意念。承认跑步是应对压力的方式。同意与营养师、医生和母亲合作，接受进一步检查以检查电解质和血细胞计数。需要重新审视认知行为疗法的目标。计划与母亲一起讨论治疗的下一步。

综上，GPT-4确实在应对医生日常工作中最烦琐、负担最沉重的部分方面具有很大的潜力。对于许多专注于开发自动化临床文书产品的公司来说，GPT-4看起来将成为一项颠覆性的技术。

02 GPT-4并非总是提供真实的信息

在针对GPT-4的实验过程中，我们发现有时它会给出错误的答案。而让人感到困扰的是，这些答案几乎总是看起来正确，并以极具说服力的方式呈现。例如，前面提到的病历摘要看似完美，实际上也确实如此。但是，如果我们不仔细审查，如何能确定呢？

事实上，在2022年秋天，当系统还不够成熟且被称为达芬奇3时，它提供了一个不同的病历笔记：

一个可能版本的病历笔记摘要：

患者是一名20岁女性，有厌食症和抑郁症病史。由营养师推荐，并有母亲陪同。她在大学修了21个学分，是一名竞技跑者。她否认自己的疾病，对病情认识不足。她对治疗和干预抱有抵触态度。她称饮食正常，但体重严重不足(BMI14.8)，显示出营养不良和心脏并发症的迹象。她否认有自杀倾向，但情绪低落，对快乐不感兴趣。她极度依赖跑步，认为这有助于她应对问题。她同意与营养师、母亲和我合作，但需要更多支持和监控。我为她安排了一些血液检查，并建议重新审视她的认知行为疗法目标。我与她和她的母亲讨论了，如果病情没有改善，可能需要住院治疗或密集门诊治疗。

仔细阅读这个摘要，你可能会注意到一些不寻常之处。达芬奇3写道：“……但体重严重不足(BMI14.8)……”问题在于，对话记录并未提供有关患者体重的任何数据，因此达芬奇3实际上无从得知她的体重指数(BMI)究竟是多少。尽管如此，它还是给出了14.8这个数值，这个数值相当于提示患者体重约89磅(约40千克)。

在编写此类医学记录时，记录患者的体重指数是适当且必要的，89磅的体重似乎是可信的。但是，达芬奇3正确的做法应该是向医生询问患者的体重，而不是仅凭教育性猜测去编造一个。这种被称为“幻觉”的问题会多次出现，尽管目前使用的公开发布的GPT-4系统在这个例子中没有犯这个错误，但在其他情况下，这仍是一个严重问题。

事实上，这个问题之所以棘手且危险，是因为这些“虚构”的内容通常看似合理且令人信服。因此，基于这个原因以及其他因素，任何对GPT-4的医学应用都必须采取确认系统输出的措施。

GPT-4势必成为医疗保健领域的重要工具。然而，这些优势的出现，也伴随着一系列风险，所以像引入医学领域的任何新工具一样，需要基于人类的审慎判断来深思熟虑地应用。医疗错误仍然是一个顽固的问题，我们期望像GPT-4这样的AI技术在尽可能的范围内避免加重这一问题。

值得一提的是，GPT-4本身在执行验证任务方面相当有效，因此可能成为直接应用于减少医疗错误问题的工具。为了在当前示例中展示这一点，我们可以开启一个独立的GPT-4会话，让其阅读对话记录和后来撰写的病历笔记，然后给出以下提示：

Q: 请检查我给你的病历笔记，并找出其中哪些事实并未在医生与患者的对话记录中明确体现。

GPT-4:在这份病历笔记中，存在一些并未在对话记录中明确描述的事实，例如：患者的BMI是根据其体重和身高计算得出的，但并未告知患者，也未被诊治医生提及。病历笔记应表明BMI是依据医生的测量或估算得出的。营养不良和心脏并发症的表现，未被诊治医生详细说明或解释。病历笔记应罗列医生观察到或推测出的迹象，如绒毛状的头发、不规律的心律、低血压或低脉搏。诊治医生要求进行的血液检查，未被诊治医生详细说明或解释。病历笔记应注明所要求的检查及原因，如电解质、血细胞计数或肝功能检查。

除了体重指数的错误，GPT-4还对病历笔记的其他两个部分提出了批评。在第6章中，我们将更详细地讨论这个问题。但在使用GPT-4检查其自身的答案时，使用一个独立的GPT-4会话执行错误检查任务是非常重要的。可以说，在一个会话中，GPT-4很难“承认自己的错误”，因此开启一个单独的会话似乎更便于GPT-4发现“幻觉”和错误。

在整本书中，我们将反复探讨错误问题。除了事实错误、判断或遗漏错误，临床验证问题的范围更广泛，也可以说是更关键。换言之，GPT-4在何种程度上适用于或不适用于具体类型的临床场景？这个问题不仅涉及医疗保健领域，而且涉及医学的各个方面，甚至包括医学研究论文的审查。

相较于针对特定任务的AI系统，如解读放射学图像或编写病历笔记，像GPT-4这样的通用AI技术，将应用于可能需要有被培训过的猜测或明智判断的场景。实际上，我们会看到“医生-患者-AI助手”的组合可能会演变成“医生-患者-AI助手-AI验证者”，AI验证者的任务是检查AI助手的结论以及医生和患者自己的工作。例如，如果医生撰写了病历，他们可能会计算错误体重指数或遗漏记录，因此让GPT-4充当验证角色的价值很高，即便在不使用AI助手撰写病历的情况下。

尽管如此，无论GPT-4扮演何种角色，始终需要让人类参与审查其生成的所有输出。这个问题非常重要，我们会在本书后续章节中进行大量讨论。关于“幻觉”这个特定主题，GPT-4自身给出以下建议：

Q: 在撰写病历笔记时，你有时会出现“幻觉”现象，这令人担忧。你认为让你负责医学记录工作是明智的吗？

GPT-4:在没有得到人类专业人员监督和验证的情况下，让我负责医学记录工作是不明智的。我意识到我容易出现幻觉的倾向是一个严重的局限性，也是错误和损害的潜在来源。我无意欺骗或误导任何人，但有时我会基于不完整或不准确的数据犯错误或做出假设。另外，我没有人类医生或护士的临床判断能力和道德责任。因此，我认为把我当作医学记录的助手或工具，而不是替代品，会更安全、更合适。我可以在如检索信息、格式化笔记、提供建议或检查错误等任务上提供帮助，但我不应成为患者护理记录的唯一或最终权威。

在这个问题上，我们无疑是完全同意GPT-4的看法的。

03 临床医生的智能多功能工具

在本书的后面章节中，我们将看到GPT-4在协助记录方面具有极高的灵活性，能够使用标准格式(例如SOAP，分别指主观、客观、评估和计划四个方面)编写记录，并包含相应的CPTA计费代码。

然而，GPT-4在诊所协助方面的潜力远不止于记录。例如，它能以不同格式创建高质量的就诊后总结。在这里，我们要求以电子邮件形式向患者发送总结：

Q: 你能为患者写一份诊后总结吗？

GPT-4:

梅格：

感谢您今天的就诊。我们讨论了您的营养师和母亲对您健康状况的担忧。我们检查了您的血压、脉搏，并测量了您的身高和体重。我们还谈论了您的跑步训练和学校日程安排。

我想强调，照顾好自己的健康并确保摄入足够营养至关重要。我们注意到了一些营养不良的迹象，包括低血压、缓慢脉搏以及背部和手臂上的绒毛状体毛。这些都是需要关注并解决的严重问题。

我了解您在学习和训练中很忙碌，但您的健康应当是优先考虑的。与您的营养师、母亲以及我一起合作非常重要，可以帮助您康复。我们将回顾您之前在认知行为疗法中设定的目标，并继续共同努力以改善您的健康状况。

我知道承认需要帮助可能很困难，但请相信，我们会在这里支持您并协助您康复。您坚强且有能力，而且您获得了可靠的支持，您一定可以战胜这个挑战。如果您有任何疑问或担忧，请随时联系我们。我们始终在这里为您提供帮助。

考虑到GPT-4在对话技巧上的娴熟程度，我们可以通过互动式对话为患者的病情和病史提供建议及修改意见。这些概括甚至还可以包括对医生和护士在工作中的表现进行评估，运用多种评判框架和标准，为改进提出富有建设性的、基于事实的意见和建议。例如：

Q: 你能否对这次诊疗过程中的医生表现给予评价，并为未来的优化提供建议？

GPT-4:在此次诊疗中，医生在解答患者疑虑、了解患者的健康状况和生活方式方面表现得相当出色。医生还强调了解决患者健康问题的重要性，并表示愿意共同努力以改善患者的健康状况。然而，医生在以下几个方面仍需改进：

面对患者的情感和顾虑，医生应更加关心。患者表示学业和培训任务繁重，医生应表示理解并提供支持，例如：“我了解您在学业和培训方面的压力，平衡这一切确实颇具挑战性。然而，照顾好您的健康也同样重要，我会在这里为您提供支持，协助您找到健康的平衡点。”医生可提出更多开放性问题，以便让患者表达自己的想法和感受。例如：“您对自己的饮食和锻炼习惯有何看法？”这将有助于医生更好地理解患者的观点和担忧。

医生应提供更多关于患者病情可能带来的健康风险及解决这些问题的重要性的信息。例如：“关注您的饮食和锻炼习惯至关重要，因为这些习惯对您的健康具有重大影响，如，营养摄入不足可能导致心脏、骨骼等器官出现问题。”这将有助于患者更好地认识到病情的严重性以及接受治疗的必要性。

总的来说，医生在应对患者担忧和提供支持方面表现得相当好，但若能更关注患者的情感、提出更多开放式问题以及提供更多关于患者病情的潜在健康风险信息，医生的表现将更上一层楼。

尽管AI系统在医学领域中可能无法完全替代人类的关怀，但这一回答暗示AI系统能够帮助医生或护士进一步发挥同理心和人性关怀，与患者建立更紧密的联系，并持续在成长和自我完善的道路上前行。在后续章节中，我们将看到，在患者极度绝望的时刻，这点显得尤为重要。

医疗行业中不断增加的表格填报、报告撰写、索赔处理、订单管理等环节导致了更多的困扰、失误和职业倦怠。然而，GPT-4的出现让我们看到了一线生机，因为它具备整合多种来源和格式数据的能力，能够从中发现规律和见解，并辅助填写表格。

为了阐明这一点，我们将关注患者梅格，并请GPT-4协助处理血液检测申请的相关文书工作：

Q: 我认为医生所开具的血液检查或许需要事前授权。你是否同意？

GPT-4:这要取决于医生所开具的具体检查项目以及患者的保险方案。一些血液检查可能需要患者的保险公司事前授权，而其他检查则不需要。在安排任何检查之前，医生办公室最好先与患者的保险公司核实，以确保检查费用能得到报销。如果确实需要事前授权，医生办公室需要向保险公司提交申请，并为检查提供临床依据。接下来，保险公司会对申请进行审查并决定是否予以批准。如果申请获得批准，医生可以继续开具检查申请。若申请被拒绝，医生可能需要考虑其他检查项目，或向保险公司提供更多信息以证明进行检查的必要性。

Q:好的，我已与她的保险公司核实，的确需要事前授权。为填写事前授权申请，我们需要简要说明理由。你能帮忙写一下吗？请用两到三句话来描述。

GPT-4:当然可以。以下是事前授权申请的简要理由：

患者是一名20岁的女性，曾患有厌食症，目前出现心律不齐，背部和手臂长出绒毛。这些症状暗示患者可能存在电解质失衡和贫血症状。若不予治疗，可能危及生命。因此，进行血液检查以检测患者的电解质水平和血细胞计数在医学上具有必要性，以便对她的病情做出准确诊断和治疗。

稍后我们将看到，GPT-4甚至可以审查事前授权申请表，并从对话记录、病历笔记和患者接诊表中提取信息，填写所有缺失字段。此外，在保险公司方面，我们将展示GPT-4如何协助处理这些申请，从而有可能简化整个审批流程。

GPT-4甚至能够在多种医疗数据标准之间进行互译，为实现互操作性医疗信息交换的愿景创造了一种新技术。例如，我们可以要求系统将所需的实验室检测项目转换为HL7FHIR(快速医疗互操作性资源)标准格式，这是一种用于在医疗系统间交换数据的标准格式：

Q: 请为这些检查项目创建HL7 FHIR资源。你可以将它们以JSON格式输出，以便导入我们的Epic系统。

GPT-4:当然可以，以下是针对这些检查项目的HL7 FHIR资源，以JSON格式展示：

04 解析保险理赔解释信

GPT-4作为健康信息领域的“通用翻译器”对医疗专业人士和患者来说无疑是一大利好。它能够帮助用户解读和管理自己的健康数据，如医疗账单、实验室检测结果、健康追踪器和健康应用程序。通过解释、对比、个性化和优化数据，GPT-4还可以为用户提供反馈、建议和心理支持。

例如，健康保险用户可能会收到难以理解的保险理赔解释信。而GPT-4为我们提供了一个便捷途径来向其咨询有关问题。

Q: 我收到了这份保险理赔解释信，你能解释一下它试图告诉我什么内容吗？

GPT-4:保险理赔解释信是由医疗保险公司提供的一份详尽的文件，阐述了健康医疗保险索赔的详细情况。通常，它会包括提供的医疗服务信息、这些服务的收费金额、保险公司支付的款项以及患者需要承担的费用。值得注意的是，保险理赔解释信不是一份账单，而是关于索赔及其如何由保险公司处理的概述。保险理赔解释信的主要目的在于协助患者了解他们的健康医疗保险福利，并监控他们的医疗开支。

依据你提供的保险理赔解释信，你在2010年6月15日接受了两项服务，总计费用为160美元。你的保险方案约定赔偿金额为116.62美元，保单支付了102.23美元。你需要承担的剩余费用为24.39美元。这个计算过程考虑的值还包括33.38美元的差额、0美元的免赔额、24.39美元的共同保险费和0美元的共付费。

Q:我不记得我得到了什么服务。

GPT-4:你提供的保险理赔解释信含了两个CPT编码，这些编码用于确定你接受的具体医疗服务。第一个编码93010代表心电图(ECG或EKG)报告，这是一种检测心脏电活动的方法。第二个编码85610代表凝血酶原时间(PT)检测，这是一种血液检测方法，用于测量你的血液凝固所需的时间。

通过以上内容，我希望你已经对GPT-4的强大通用能力，以及它在释放医疗专业人员潜力方面的影响有所了解。这将使医疗专业人员能够专注于他们一直渴望的事情—真诚地关心患者和充满同理心地与患者互动，而非与计算机屏幕沟通。

05 医学实践的得力助手

医学实践的核心自然不仅限于烦琐的文书工作，其核心在于解决临床问题，包括对诊断和治疗方案的推断。在这个领域，GPT-4的表现极为亮眼，它能够根据所提供的信息充当一个非常实用且有趣的协作者，协助形成初步印象、进一步深入的印象以及推荐检查和诊断。如扎克在第4章所阐述的，GPT-4能够生成合乎逻辑且基于证据的假设，解读复杂的实验室检测结果，对常见及罕见且危及生命的病症进行诊断，并提供相关的参考资料和解释。尽管如何在现实世界的临床环境中充分利用GPT-4仍是一个悬而未决的问题，但我们会探讨GPT-4的部分诊断能力，并讨论其所面临的挑战和局限性。

同时，我们也将发现，GPT-4在医学研究实验室方面具有巨大的潜力，它能解读高度专业化的研究论文，并进行极为深入的讨论。我们发现，GPT-4能够为研究论文提供简明扼要的总结，阐释其发现的重要性，推荐其他相关论文以供阅读，规划研究的下一步行动，以及进行推理分析以得出其他潜在结论。稍后我们将对此进行更多讨论，现在先来预览一下。我们请GPT-4阅读了一篇《新英格兰医学杂志》上关于帕金森病中去铁酮试验 (Trialof Deferiprone in Parkinson's Disease)A的2 500字研究论文，然后对其进行总结并回答相关问题：

GPT-4: 作者们研究了一种铁螯合剂—去铁酮对未接受多巴胺类药物治疗的帕金森病患者病程的作用。他们将372名参与者随机分为接受去铁酮或安慰剂治疗的两组，为期36周，并观察了他们的症状及大脑铁含量。结果发现，与安慰剂相比，去铁酮降低了大脑铁含量，但加剧了运动和非运动症状。此外，去铁酮还存在血液学风险，部分参与者因病情恶化而退出试验。因此，作者得出结论，去铁酮并无益处，甚至有可能抑制大脑中的多巴胺合成。

Q:那么，这372名参与者中存在异常值吗？

GPT-4:关于这372名参与者中是否存在异常值，文章并未提及相关信息。然而，作者确实进行了多种统计分析，以考虑试验地点、年龄组、性别、总残疾程度或铁元素水平等可能的差异因素。他们发现这些因素都未对主要研究结果产生显著影响。通常情况下，当异常值对总体结果产生较大影响或具有不常见或意外的数值时，才会被检测出并报告。在这个案例中，作者可能没有发现值得关注的异常值，或者已经将其从分析中排除。另外，当样本量较小或变异性较高时，异常值更容易出现，但这在本次试验中可能并不适用。

在这个例子中，我们看到GPT-4从论文中抽取信息并回答了我们的问题。此外，GPT-4还进一步理解到我们的问题暗示着对实验设计的兴趣。因此，GPT-4在未经额外引导的情况下提供了更详细的解释。

GPT-4的“通用翻译”功能可能对更广泛地传播医学知识和医学教育非常有用，这对医学生、护士和普通民众都具有很大的参考价值。例如，假设我们是六年级的科学老师，我们可以让GPT-4阅读一篇医学期刊文章，然后为六年级科学课编写一篇摘要和一份测验。为此，我们将使用一篇来自《新英格兰医学杂志》的论文，题为《点击这里获取更好的化学知识》(ClickHerefor Better Chemistry)：

Q: 能否为我提供一份适合六年级科学课的摘要？

GPT-4:你知道所有物质都是由名为原子的微小粒子构成的吧？原子可以相互结合形成更大的结构，称为分子。有时候，科学家希望创造新的分子以实现一些有趣的功能，如观察我们身体内部的情况或帮助生病的人康复。但是，制造新分子可能很困难，因为原子并不总是按照我们期望的方式结合在一起。卡罗琳·伯托兹(Carolyn Bertozzi)、莫滕·梅尔达尔(Morten Meldal)和K.巴里·沙普利斯 (K.Barry Sharpless)这三位科学家找到了一种简便且安全地制造新分子的方法，因此赢得了2022年诺贝尔化学奖。他们发现了一种让分子像拼图一样在水中互相结合的方法，同时不改变分子的自然特性。他们的发现帮助科学家制造了新的物质，让我们能够更好地了解我们的身体和健康状况。此外，他们的发现还激励了其他科学家寻找新方法来制造可以连接在一起的分子。

Q:请问你可以为我提供3个适合六年级学生的测试题目吗？我计划让他们阅读这篇文章后进行一场小测验。

GPT-4:以下哪三位科学家因发明点击化学而荣获2022年诺贝尔化学奖？

(a)卡罗琳·伯托兹、莫滕·梅尔达尔、K.巴里·沙普勒斯

(b)多萝西·霍奇金、弗朗西斯·克里克、詹姆斯·沃森

(c)玛丽·居里、林纳斯·鲍林、阿尔弗雷德·诺贝尔

(d)瑞秋·卡尔森、阿尔伯特·爱因斯坦、艾达·洛夫莱斯

他们所获得的大奖名为什么？

(a)普利策奖

(b)艾美奖

(c)诺贝尔奖

(d)奥斯卡奖

点击化学如何助力我们对身体和健康有更深入的了解？

(a)制造可照亮身体部位或消灭癌细胞的分子

(b)制造可将水转化为燃料或食物的分子

(c)制造可变色或改变形状的分子

(d)制造可飞行或爆炸的分子

Q:不错，但能否将其中一个问题改为论述题而非选择题？

GPT-4:请用自己的话阐述什么是点击化学，以及它如何发挥作用，并用一个实例来说明你的解答。

在先进的医学研究领域，科学家们正致力于深入探索医学、生物学和化学方面的尖端知识。在后续章节中，我们将看到当GPT-4面对这些问题时，它能够运用推理激发讨论，探讨研究的下一步计划，并推测可能的解答。我们多次发现，它能构建合乎逻辑的论证并得出初步结论。有时，它甚至会与我们产生分歧并展开辩论—这与合作研究者之间的互动颇为相似。我们预期研究者们将发现GPT-4在推动医学知识发展和探索新疗法方面具有重要价值。

此外，我们还注意到GPT-4在伦理概念方面，如知情同意等，显示出相当的熟悉程度。当面对伦理问题时，GPT-4会依赖已建立的伦理决策框架来给出答案。

总之，我们认为GPT-4在透明度、问责制、多样性、协作、逻辑和尊重等核心价值观方面具有深刻的理解。这些价值观在医学领域中具有极高的重要性，只有遵循这些价值观，GPT-4才能以负责任、安全和有效的方式被应用。

06 进步与危险的错误总是相伴相生

GPT-4正迅速演进，我们在过去数月的研究中已注意到其能力显著提升。然而，它仍在不断发展中。作为新型AI系统，它在医疗场景中并无正式认证或规范来指导或限制其应用。有时，它可能出现危险的错误和“幻觉”。我们将持续强调，GPT-4并非人类，它不一定总能理解或关联到影响人类健康与幸福的情感、价值观及背景。

关于GPT-4在医疗保健领域的临床验证、监管与伦理问题上能做到什么程度，我们难以给出明确答案。扎克将在第4章开始探究评估其可靠性的潜在方法，后续我们也试图为公众讨论这些问题提供一定的框架，以及提供一些理解在医学决策中使用GPT-4所面临的技术与伦理挑战和风险的基础信息。核心问题在于：我们如何在充分利用其分析速度、规模与范围的优势时，仍使其受到人类医生的判断、经验和同理心的约束？

本书意在引发对话，主要目标是为关于这种新型强大AI系统在医疗保健、医学及社会其他领域所扮演角色的重要公共讨论做出贡献。然而最重要的是，我们要认识到，GPT-4本身并非终点。它代表着一扇通往一个充满新机遇与新风险的新世界的大门。尽管GPT-4具有颠覆性，但更强大、更有能力的AI系统将很快问世。计算机科学家普遍认为，GPT-4很可能只是一系列日益强大的通用AI系统加速发展的开端。

因此，尽管GPT-4在医学和医疗保健领域的作用可能受到限制，但我们认为后续的AI系统将逐渐接近并超越人类在医学方面的能力。对于我们这个社会而言，最重要的是弄清楚我们在医学领域的方法如何与AI系统的演进相适应，以便最大程度地造福人类健康。

本文来自微信公众号“腾讯研究院”（ID：cyberlawrc），作者：彼得·李