

腾讯今日发布了针对其混元文生图开源大模型的加速库,该库能够显著提高推理效率,据官方称,使用门槛也有所降低。用户可以通过ComfyUI图形化界面使用混元文生图模型能力。此外,混元DiT模型已经部署至HuggingFaceDiffusers通用模型库中,用户只需三行代码即可调用该模型,无需下载原始代码库。
此前,腾讯宣布对混元文生图大模型进行升级并开放源代码供免费商用。这被认为是中国首个推出的中文原生的Dit架构文生图开源模型之一,并支持中英文双语输入和理解。混元DiT采用了与sora一致的Dit架构,不仅可用于文本生成,还可视为视频等多模态视觉生成的基础。
运行该模型需要配备支持CUDA的英伟达GPU,在单独运行混元DiT所需显存为11GB的情况下,同时运行DialogGen(由腾讯推出的文本转图像多模态交互式对话系统)和混元DiT至少需要32GB显存。据称已在Linux上测试了英伟达的V100和A100GPU。
附链接:代码(GitHub)点此前往 模型(Hugging Face)点此前往
发表评论 取消回复