微软近日公布了其小语言 AI 模型家族的新成员“Phi-3-vision”。该模型旨在提供视觉能力,可以在移动平台上高效运行。根据介绍, Phi-3-vision 是微软 Phi-3 家族首款多模态模型,并基于 Phi-3-mini 的文字理解能力。参数量为 42 亿,大于 Phi-3-mini 的 3.8B,但小于 Phi-3-small 的 7B。上下文长度为 128k token,训练期间为 2024 年 2 月至 4 月。
微软表示, Phi-3-vision 特别适合办公场合,并特别优化了在识别图表和方块图 (Block diagram) 方面的理解能力。它能够理解现实世界的图片含义,并快速识别提取图片中的文字。微软还声称他们所使用的训练数据“可追溯”,不包含任何个人信息以确保隐私。
微软提供了与竞品模型如字节跳动 Llama3-Llava-Next(8B)、微软研究院和威斯康星大学、哥伦比亚大学合作的 LlaVA-1.6(7B)、阿里巴巴通义千问 QWEN-VL-Chat 模型等比较图表。结果显示 Phi-3-vision 在多个项目上表现优异。
值得一提的是,微软已经将该模型上传至 Hugging Face,并且对感兴趣的人们开放访问该项目地址。
发表评论 取消回复