微软近日公布了其小语言 AI 模型家族的新成员“Phi-3-vision”。该模型旨在提供视觉能力,可以在移动平台上高效运行。根据介绍, Phi-3-vision 是微软 Phi-3 家族首款多模态模型,并基于 Phi-3-mini 的文字理解能力。参数量为 42 亿,大于 Phi-3-mini 的 3.8B,但小于 Phi-3-small 的 7B。上下文长度为 128k token,训练期间为 2024 年 2 月至 4 月。

微软表示, Phi-3-vision 特别适合办公场合,并特别优化了在识别图表和方块图 (Block diagram) 方面的理解能力。它能够理解现实世界的图片含义,并快速识别提取图片中的文字。微软还声称他们所使用的训练数据“可追溯”,不包含任何个人信息以确保隐私。

微软提供了与竞品模型如字节跳动 Llama3-Llava-Next(8B)、微软研究院和威斯康星大学、哥伦比亚大学合作的 LlaVA-1.6(7B)、阿里巴巴通义千问 QWEN-VL-Chat 模型等比较图表。结果显示 Phi-3-vision 在多个项目上表现优异。

值得一提的是,微软已经将该模型上传至 Hugging Face,并且对感兴趣的人们开放访问该项目地址。

ai.zol.com.cn true https://ai.zol.com.cn/874/8743065.html report 857 微软近日公布了其小语言 AI 模型家族的新成员“Phi-3-vision”。该模型旨在提供视觉能力,可以在移动平台上高效运行。根据介绍, Phi-3-vision 是微软 Phi-3 家族首款多模态模型,并基于 Phi-3-mini 的文字理解能力。参数量为 42 亿,大于 Phi-3-mini 的 3.8B,但小于 P...

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部