首个中文原生DiT架构!腾讯混元文生图大模型宣布全面开源

5月14日,腾讯旗下混元文生图大模型宣布全面开源。这款模型已经在Hugging Face和Github平台上发布,包含了完整的模型权重、推理代码以及模型算法等内容,可供企业与个人开发者免费商用。

据报道,混元文生图负责人卢清林表示,开源混元DiT的价值在于两方面。首先,这是业内首个采用中文原生架构的DiT模型,填补了开源社区的空白;其次,该模型完全开放,并与现有版本保持一致。

值得一提的是,本次开源的混元DiT采用了与Sora相同的底层关键技术——DiT架构,并且支持256字中文理解能力。此外,该模型不仅适用于文生图任务,在视频等多模态视觉生成领域也具备潜力。

据了解,为了构建混元DiT模型,腾讯团队设计了Transformer结构、文本编码器和位置编码,并搭建了完整的数据管道用于更新和评估数据,并为模型优化迭代提供支持。同时为了实现细粒度的文本理解,他们还训练了多模态大语言模型来优化图像的文本描述。最终的结果是混元DiT能够与用户进行多轮对话,并根据上下文生成并完善图像。

这一举措不仅让国内科技界感到振奋,也引发了公众对腾讯在AI领域的关注。

ai.zol.com.cn true https://ai.zol.com.cn/871/8716318.html report 891 5月14日,腾讯旗下混元文生图大模型宣布全面开源。这款模型已经在Hugging Face和Github平台上发布,包含了完整的模型权重、推理代码以及模型算法等内容,可供企业与个人开发者免费商用。据报道,混元文生图负责人卢清林表示,开源混元DiT的价值在于两方面。首先,这是业...

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部