宾夕法尼亚州立大学计算与数据科学研究所 (ICDS)科学家和工程师研究创新 (RISE) 人工智能和机器学习团队负责人贾斯汀·佩图奇 (Justin
宾夕法尼亚州立大学计算与数据科学研究所 (ICDS)科学家和工程师研究创新 (RISE) 人工智能和机器学习团队负责人贾斯汀·佩图奇 (Justin Petucci) 领导并参与宾夕法尼亚州立大学正在进行的跨学科研究,以支持该大学和 ICDS 的使命。
佩图奇第一次接触到使用高性能计算 (HPC) 进行计算建模和模拟是在印第安纳大学宾夕法尼亚分校攻读物理学硕士学位期间。他所在的团队获得了资金,在物理系地下室建造了一个小型 HPC 集群。在丹佛大学攻读博士学位期间,他使用 HPC 研究了不同碳纳米材料对气体(特别是温室气体)的吸收。
毕业后,他回到了州立学院,开始在 ICDS 的 i-ASK 服务台工作,该服务台支持宾夕法尼亚州立大学最大的 HPC 系统。2019 年,Petucci 加入 RISE 团队,并于 2023 年 7 月成为 AI/ML 团队负责人。
Petucci 目前与 ICDS 相关的工作涉及利用大型语言模型 (LLM)(一种可以理解和处理文本的人工智能)为 HPC 用户提供支持。
该项目由 RISE 工程师 Simon Delattre、系统工程师 Lindsay Wells、研究计算促进专家 Emery Etter 和高级计算副主任 Amit Amritkar 参与,旨在使用检索增强生成 (RAG) 方法创建一个聊天机器人,为 ICDS 设施用户解答问题。RAG 方法是一个旨在优化 LLM 输出的框架。
“简而言之,RAG 方法利用现代 LLM 的零样本/上下文学习能力,通过从精选知识库中为其提供相关背景,以提高对用户的响应质量,”Petucci 说。“如果你给它 [模型] 一个可能没有经过训练的任务,但你提供了足够的信息和说明,很多时候,模型可以很好地完成任务。”
研究人员整理了一个本地知识库,其中包含旧票证数据、服务台出现的重复主题和问题以及软件用户指南和手册。
当用户带着问题来到聊天机器人时,他们的查询将被转换成数字表示,用于在本地知识库中搜索与问题相关的文档。然后,该信息被提供给语言模型,以根据已识别的资源回答初始问题。
“我们正在整理知识库,希望它(模型)能够更准确地回答问题,”Petucci 说。“有很多方法可以调整和改进 RAG,但从本质上讲,这是简单的 RAG。这一切都在聊天机器人的背景下,我们希望向用户展示它,以回答有关我们系统或如何使用或安装软件的一般问题。如果我们能够整理一个足够好的知识库,并在简单的 RAG 方法的基础上进行微调,那么这对我们的用户群来说可能是一个很好的资源。”
由 Delattre 领导的研究摘要“利用大型语言模型为 HPC 用户提供支持:基于 RAG 的聊天机器人”由 Wells 在 7 月的高级研究计算实践与专业知识会议上发表。
该团队还致力于将生成式 AI 服务引入ICDS Roar Collab HPC 集群。据 ICDS 网站称,这是该研究所管理的最新集群,设计时充分考虑了协作。Roar Collab“允许更频繁地进行软件更新和硬件升级,以满足研究人员不断变化的需求。”
Petucci 和研究团队表示,他们希望向 Roar Collab 用户提供开源生成模型和框架,他们将能够测试聊天机器人,不仅可以生成文本,还可以生成图像和视频。
Petucci 表示,该团队还旨在提供基于定制 RAG 的聊天机器人、模型微调和模型部署的服务。
作为众多合作的一部分,Petucci 是宾夕法尼亚州立大学临床和转化科学研究所 (CTSI) 的一名研究员,并与领导信息学核心的 ICDS 副主任 Vasant Honavar 一起开展各种项目。
最近,CTSI 种子基金被授予生物医学和临床研究人员,以利用人工智能和机器学习来改善健康结果。Petucci 正在研究各种资助项目,其中一个项目由他与宾夕法尼亚州立大学医学院医学副教授 Monali Vasekar 共同领导。
该研究团队旨在应用深度学习人工智能算法,根据临床和放射学特征预测全身性癌症治疗诱发肺炎患者的发病率。
“癌症患者接受不同类型的免疫疗法和化疗,”佩图奇说。“最终,这些疗法可能会导致一系列问题,我们计划建立一个可用于预测目的的模型,并更好地了解各种结果的潜在风险因素。”
研究人员正在利用多模式电子健康记录数据,其中包括放射图像。该团队设想使用经过训练的模型来区分肺炎病例,作为临床决策支持系统 (CDSS) 的一部分。
声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们