当前位置:首页>科技 >内容

微软发布Phi3.5系列模型性能超越竞争模型

2024-08-22 10:02:34科技自然的汉堡

今天,微软宣布发布Phi-3 5系列模型,其中包括 Phi-3 5-vision、Phi-3 5-MoE 和 Phi-3 5-mini。这些轻量级模型基于合成数据和经过筛选的

今天,微软宣布发布Phi-3.5系列模型,其中包括 Phi-3.5-vision、Phi-3.5-MoE 和 Phi-3.5-mini。这些轻量级模型基于合成数据和经过筛选的公开网站构建,支持 128K 令牌上下文长度。所有模型现在都可在 MIT 许可下在 Hugging Face 上使用。

微软发布Phi3.5系列模型性能超越竞争模型

Phi-3.5-MoE:专家组合的突破

Phi-3.5-MoE 是 Phi 系列中第一个利用混合专家 (MoE) 技术的模型。这个 16 x 3.8B MoE 模型仅使用 2 名专家激活 6.6B 个参数,并使用 512 个 H100 在 4.9T 令牌上进行训练。微软研究团队从头开始设计该模型以提高其性能。在标准 AI 基准测试中,Phi-3.5-MoE 的表现优于 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash,并且接近目前的领先者 GPT-4o-mini。

Phi-3.5-mini:轻巧而强大

Phi-3.5-mini 是一个 3.8B 参数模型,超越了 Llama3.1 8B 和 Mistral 7B,甚至与 Mistral NeMo 12B 不相上下。它使用 512 个 H100 在 3.4T 标记上进行训练。仅使用 3.8B 活动参数,该模型在多语言任务上与具有更多活动参数的 LLM 相比具有竞争力。此外,Phi-3.5-mini 现在支持 128K 上下文长度,而其主要竞争对手 Gemma-2 系列仅支持 8K。

Phi-3.5-vision:增强多帧图像理解

Phi-3.5-vision 是一个 4.2B 参数模型,使用 256 个 A100 GPU 在 500B 个 token 上进行训练。此模型现在支持多帧图像理解和推理。Phi-3.5-vision 在 MMMU(从 40.2 到 43.0)、MMBench(从 80.5 到 81.9)和文档理解基准 TextVQA(从 70.9 到 72.0)上的性能有所提升。

Phi-3.5-MoE-指导

Phi-3.5-mini-instruct

Phi-3.5-视觉指导

微软预计将于今天晚些时候分享有关 Phi-3.5 系列模型的更多细节。微软的 Phi-3.5 版本展示了 AI 模型效率和功能的进步。Phi-3.5 系列模型专注于轻量级设计和多模式理解,可能会在各种 AI 应用中得到更广泛的采用。

声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们

Top