当前位置:首页>网络 >内容

GPT4在眼部评估方面表现接近专家医生的水平

2024-04-19 09:24:23网络自然的汉堡

随着学习语言模型(LLM)的不断发展,关于它们如何在医学领域等领域造福社会的问题也在不断发展。据《金融时报》首先报道,剑桥大学临床医学

随着学习语言模型(LLM)的不断发展,关于它们如何在医学领域等领域造福社会的问题也在不断发展。据《金融时报》首先报道,剑桥大学临床医学院最近的一项研究发现,OpenAI 的 GPT-4 在眼科评估中的表现几乎与该领域的专家一样好。

GPT4在眼部评估方面表现接近专家医生的水平

在《PLOS Digital Health》发表的这项研究中,研究人员用 87 道多项选择题测试了 LLM、其前身GPT-3.5、Google 的 PaLM 2 和Meta 的 LLaMA 。五名专家眼科医生、三名见习眼科医生和两名非专业初级医生接受了相同的模拟考试。这些问题来自一本教科书,用于对受训者进行从光敏感性到病变等各个方面的试验。这些内容不公开,因此研究人员认为法学硕士以前不可能接受过这些内容的培训。配备 GPT-4 或 GPT-3.5 的 ChatGPT 有 3 次机会明确回答,否则其回答被标记为空。

GPT-4 的得分高于学员和初级医生,答对了 87 个问题中的 60 个问题。虽然这明显高于初级医生 37 个正确答案的平均水平,但仅超过了三名实习生 59.7 个的平均水平。虽然一位眼科医生只准确回答了 56 个问题,但五位专家的平均答对分数为 66.4,击败了机器。PaLM 2得分为 49,GPT-3.5 得分为 42。LLaMa 得分最低,为 28,低于初级医生。值得注意的是,这些试验发生在 2023 年中期。

虽然这些结果具有潜在的好处,但也存在不少风险和担忧。研究人员指出,该研究提供的问题数量有限,特别是在某些类别中,这意味着实际结果可能会有所不同。法学硕士也有“产生幻觉”或编造事实的倾向。如果这是一个无关紧要的事实,那是一回事,但声称患有白内障或癌症则是另一回事。与法学硕士使用的许多情况一样,该系统也缺乏细微差别,从而进一步产生不准确的机会。

声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们

Top