今天你很难找到一个不以某种能力使用数据的行业。无论是医护人员使用数据报告某个州的流感感染率,制造商使用数据更好地了解平均生产时间,
今天你很难找到一个不以某种能力使用数据的行业。无论是医护人员使用数据报告某个州的流感感染率,制造商使用数据更好地了解平均生产时间,甚至是小咖啡店老板翻阅销售数据以了解上个月最畅销的拿铁咖啡,数据可以揭示模式并提供对我们日常行为的见解。
所有这些数据在人工智能 (AI) 决策中起着至关重要的作用。此外,它使人们迫切需要首先了解数据的价值。通过了解各个数据源如何为基于技术的决策过程做出贡献,我们可以为所有 AI 用户创造更有效和改进的体验。
例如,研究表明,与白人男性相比,流行的面部识别软件在识别女性和有色人种方面的可靠性较低,反映出代表不同人群的面部数据不平衡。衡量数据的价值使我们能够消除可能导致模型偏差的输入。此外,了解数据的价值使我们能够为数据源分配适当的定价,从而促进数据共享。这对于某些数据难以获取的行业或数据访问受限的小型企业尤为重要。
弗吉尼亚理工大学布拉德利电气与计算机工程系助理教授 Ruoxi Jia获得了国家科学基金会 (NSF) 教师早期职业发展 (CAREER) 奖,以研究衡量数据价值所需的基础理论和计算工具。
为期五年的 500,000 美元拨款将使 Jia 和她的团队能够开发可扩展且可靠的数据评估技术,以支持战略数据采集并改进基于机器学习的数据分析。
“现在,机器学习和人工智能令人兴奋,尤其是在 ChatGPT 出现之后,”贾说。“但隐藏在幕后的是大量数据。这就是使这种机器成为可能的原因,这就是我们的目标是改进。”
今年秋天推出的人工智能聊天机器人 ChatGPT 允许用户在撰写论文、起草商业计划、生成代码甚至作曲等方面寻求帮助。截至 12 月 4 日,ChatGPT 已经拥有超过 100 万用户。
Open AI 在一个名为 GPT 3 的模型上构建了它的自动生成系统,该模型接受了数十亿个令牌的训练。这些用于自然语言处理的标记类似于段落中的单词。为了便于比较,小说《哈利波特与凤凰社》大约有 250,000 字和 185,000 个令牌。从本质上讲,ChatGPT 已经接受了数十亿个数据点的训练,使这种智能机器成为可能。
Jia 指出了数据质量的重要性及其对机器学习结果的影响。
“如果你将错误的数据输入机器学习,你将得到糟糕的结果,”贾说。“我们称之为‘垃圾进,垃圾出’。” 为了数据选择的目的,我们希望了解,尤其是定量了解哪些数据更有价值,哪些数据价值较低。”
ChatGPT 开发人员在刚刚宣布发布 GPT-4时就注意到了更多基于质量的数据的重要性。最新的技术是“多模式”,这意味着图像和文本提示可以刺激它生成内容。
开发此类机器智能需要大量数据,但并非所有数据都是开源或公开的。一些数据集归私人实体所有,涉及隐私。贾希望未来可以引入货币激励来帮助获取这些类型的数据集,并改进所有行业所需的机器学习算法。
加州大学伯克利分校的毕业生已经与谷歌研究院和索尼人工智能研究院等机构进行了对话,他们对研究的好处感兴趣。贾希望这些公司能够采用所开发的技术并成为数据共享的倡导者。共享数据和采用改进的机器学习算法不仅对行业而且对个人消费者都有好处。例如,如果您曾经有过使用客户服务聊天机器人的糟糕体验,那么您体验过低质量的数据和糟糕的机器学习算法设计。
贾希望利用她的背景和领域专长来改进这些基于网络的交互。作为一个学龄儿童,贾总是喜欢数学和科学,但她决定进入电气和计算机工程领域是出于她想帮助别人的愿望。
“我的父母都是医生。在成长过程中看到他们用某种医疗配方帮助患者真是太棒了,”贾说。“这就是我选择学习数学和科学的原因。你可以产生具体的影响。我正在使用一种不同的公式来提供帮助,但我喜欢从事这个职业让我觉得我可以改变别人的生活。”
CAREER 奖是国家科学基金会最负盛名的奖项,旨在表彰有潜力成为研究和教育领域的学术榜样并引领其组织使命取得进展的早期职业教师。在整个项目中,Jia 展示了她希望成为研究生、本科生甚至 学生的学术榜样的愿望。
她是Sanghani 人工智能和数据分析中心(前身为发现分析中心)的核心教员 。该中心拥有 20 多名教职员工和 120 名研究生,其中两人直接与 Jia 合作进行计划中的研究。
Jia 计划实施一项教育计划,使学生具备利用数据改进影响社会的决策的技能。该教育计划将在项目的前两年为本科生开设新的机器学习课程,并在第三年到第五年侧重于的参与。
“有一位著名的统计学家,名叫约翰·图基,”贾说。“他有句话说,作为一名统计学家最好的事情就是你可以在每个人的后院玩耍。机器学习非常相似。它涉及我同事工作的许多领域,因此我很容易与其他人建立联系和协作。我真的觉得我的研究是一种特权。能在许多人关心的这个领域工作是一种荣幸。”
声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们