首页 > 资讯 > 科技 > 正文
2023-07-15 08:28

谷歌AI健康聊天机器人通过美国体检:研究|商业标准

Photo: Collected

周三公布的一项同行评议研究显示,谷歌的人工智能医疗聊天机器人在美国一项严格的医疗执照考试中取得了及格成绩,但它的答案仍不及人类医生。

去年,ChatGPT的发布拉开了科技巨头在新兴人工智能领域的一场竞赛的序幕。ChatGPT的开发者OpenAI得到了谷歌的竞争对手微软的支持。

尽管人们对人工智能未来的可能性和危险做了很多讨论,但健康是人工智能技术已经取得切实进展的一个领域,其算法能够像人类一样读取某些医学扫描。

谷歌在去年12月的一项预印本研究中首次公布了其用于回答医学问题的人工智能工具Med-PaLM。与ChatGPT不同,它还没有向公众发布。

这家美国科技巨头表示,Med-PaLM是第一个通过美国医疗执照考试(USMLE)的大型语言模型,这是一种人工智能技术,通过大量人工生成的文本进行训练。

在美国,医学生和实习医师参加该考试的通过率约为60%。

今年2月,一项研究表明,ChatGPT已经取得了及格或接近及格的成绩。

在周三发表在《自然》杂志上的一项同行评议研究中,谷歌的研究人员表示,Med-PaLM在usmle风格的多项选择题上取得了67.6%的成绩。

该研究称:“Med-PaLM的表现令人鼓舞,但仍不如临床医生。”

为了识别和减少“幻觉”(指人工智能模型提供虚假信息的情况),谷歌表示,它已经开发了一种新的评估基准。

谷歌研究员、这项新研究的主要作者卡兰·辛格尔告诉法新社,该团队已经使用该基准测试了他们的新版本模型,结果“非常令人兴奋”。

根据5月份发布的一项未经同行评议的预印本研究,Med-PaLM 2在USMLE考试中取得了86.5%的成绩,比之前的版本高出近20%。

“房间里的大象”

没有参与这项研究的英国巴斯大学(University of Bath)计算机科学家詹姆斯•达文波特(James Davenport)表示,对于这些由人工智能驱动的医疗聊天机器人来说,“房间里有一头大象”。

他说,回答“医学问题”和实际医学“有很大的不同,”实际医学包括诊断和治疗真正的健康问题。

英国利兹大学(Leeds University)的人工智能专家安东尼·科恩(Anthony Cohn)表示,由于这种大型语言模型的统计性质,幻觉可能一直是一个问题。

因此,这些模型“应该一直被视为助手,而不是最终的决策者,”科恩说。

Singhal说,在未来,Med-PaLM可以用来支持医生提供可能没有考虑过的替代方案。

《华尔街日报》本周早些时候报道称,自4月以来,Med-PaLM 2一直在美国著名的梅奥诊所研究医院进行测试。

辛格哈尔说,他不能谈论具体的合作伙伴关系。

但他强调,任何检测都不会是“临床的、面向患者的,也不会对患者造成伤害”。

他补充说,它将用于“相对容易自动化的、风险较低的更多管理任务”。