参数量 42 亿，微软公布 SLM 小语言 AI 模型最新成员Phi-3-vision

95 阅读 0 评论 0 点赞

微软近日公布了其小语言 AI 模型家族的新成员“Phi-3-vision”。该模型旨在提供视觉能力，可以在移动平台上高效运行。根据介绍， Phi-3-vision 是微软 Phi-3 家族首款多模态模型，并基于 Phi-3-mini 的文字理解能力。参数量为 42 亿，大于 Phi-3-mini 的 3.8B，但小于 Phi-3-small 的 7B。上下文长度为 128k token，训练期间为 2024 年 2 月至 4 月。

微软表示， Phi-3-vision 特别适合办公场合，并特别优化了在识别图表和方块图 (Block diagram) 方面的理解能力。它能够理解现实世界的图片含义，并快速识别提取图片中的文字。微软还声称他们所使用的训练数据“可追溯”，不包含任何个人信息以确保隐私。

微软提供了与竞品模型如字节跳动 Llama3-Llava-Next（8B）、微软研究院和威斯康星大学、哥伦比亚大学合作的 LlaVA-1.6（7B）、阿里巴巴通义千问 QWEN-VL-Chat 模型等比较图表。结果显示 Phi-3-vision 在多个项目上表现优异。

值得一提的是，微软已经将该模型上传至 Hugging Face，并且对感兴趣的人们开放访问该项目地址。

点赞(0) 打赏

本文分类：好选综合
本文标签：无
浏览次数：95 次浏览
发布日期：2024-05-27 04:32:08
本文链接：http://www.hhbnx.com/haoxuanzonghe/28491.html

评论列表共有 0 条评论

暂无评论

参数量 42 亿，微软公布 SLM 小语言 AI 模型最新成员Phi-3-vision

【开箱】曲面裸眼3D，开启水冷新纪元！TRYX Panorama SE 360 ARGB & Panorama 360 ARGB 一体式水冷系统

2025年7月30日科技日报

2025年7月29日科技日报

2025年7月28日科技日报

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复