当生成式人工智能技术开始腾飞时,苹果公司有点措手不及。然而,据信这家库比蒂诺科技巨头正在使用其法学硕士模型,并计划在即将推出的iOS
当生成式人工智能技术开始腾飞时,苹果公司有点措手不及。然而,据信这家库比蒂诺科技巨头正在使用其法学硕士模型,并计划在即将推出的iOS 和 Siri 版本中整合该技术的更广泛应用。
苹果人工智能研究人员声称,通过引入巧妙的闪存技术,他们在 iPhone 和其他内存较低的苹果设备上使用大型语言模型 (LLM) 方面取得了重大突破。
这篇题为“LLM in a flash: Efficient Large Language Model Inference with Limited Memory”的研究论文于 2023 年 12 月 12 日发布,但在 AI 科学家展示其作品的最受欢迎网站 Hugging Face 于今年 12 月 12 日宣布该论文后,获得了更广泛的关注。周三。这是苹果本月第二篇关于生成人工智能的研究论文,也是允许稳定扩散等图像生成模型在其定制芯片上运行的一系列举措中的最新举措。
在这一突破之前,人们认为不可能在内存有限的设备上运行大型语言模型,因为法学硕士需要大量 RAM 来存储数据和内存密集型进程。为了解决这个问题,苹果研究人员提出了一种在闪存上存储数据的技术,闪存是用于存储图像、文档和应用程序的辅助存储器。
苹果研究人员表示,它“通过将模型参数存储在闪存上,但按需将它们传送到 DRAM,解决了高效运行超出可用 DRAM 容量的 LLM 的挑战。”
因此,整个 LLM 仍然存储在设备上,但在 RAM 中使用它可以通过使用闪存(一种虚拟内存形式)来完成。对于需要大量内存的任务,这与 macOS 上的完成方式没有太大不同。
简而言之,苹果研究人员巧妙地绕过了这些限制,利用了两种可以最小化数据传输并最大化闪存吞吐量的技术:
窗口化: 想象一下这是一种回收数据的方式。AI 模型不会每次都加载数据,而是重用之前处理过的部分现有数据。这意味着不断获取数据并将其存储在内存中的要求更少,从而使该过程更快、更顺畅。
行列捆绑: 这种技术类似于以更大的块阅读文本,而不是每个单词一个单词。当更有效地分组时,可以更快地从闪存读取数据,从而提高人工智能理解和生成语言的能力。
声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们