

今日(5月14日),腾讯旗下混元文生图大模型全面开源。该模型已经在Hugging Face和Github平台上发布,包括完整的模型权重、推理代码和模型算法等内容,供企业与个人开发者免费使用。
据混元文生图负责人卢清林表示,混元DiT的开源具有两方面的价值。首先,这是业内首个采用中文原生架构的DiT模型,填补了开源社区的空白;其次,混元DiT为完全开放版本,与现有的商业版本完全一致。
此次开源的混元DiT采用了与Sora相同的背后关键技术——DiT架构,并且支持256字中文理解能力。该模型不仅可以用于文生图任务,还可作为多模态视觉生成的基础工具。
为了构建混元DiT大模型,腾讯设计了Transformer结构、文本编码器和位置编码,并建立了完整的数据管道用于更新和评估数据,以帮助模型优化和迭代。此外,他们还训练了一种多模态大型语言模型来优化图像的文本描述。
最终的结果是,混元DiT能够与用户进行多轮对话,并根据上下文生成并完善图像内容。这使得该模型在生成各种类型的图像方面具有较高的准确度和实用性。
以上就是关于腾讯混元文生图大模型全面开源的最新消息。
发表评论 取消回复