开云官网切尔西赞助商不错在一定进度上缓解英文基底模子带来的模子偏见问题-开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口
具备原生汉文通晓才能开云官网切尔西赞助商,还兼容 Stable Diffusion 生态。
最新模子结构Bridge Diffusion Model来了。
与 Dreambooth 模子聚首,它生成的穿登第婚仪式服的歪国明星长这么。
它由 360 东说念主工智能商讨院提议,最近刚被 AAAI 禁受,并已开源。
雷同 ControlNet 的分支收集念念路
文生图模子的汉文原生问题,一直是一个要点商讨问题。
受算力和数据要素的末端,国内无数的汉文 AI 绘图居品背后,实践上好多所以开源的英文模子偏激微调模子为才能基座,可是,英文模子包括且不限于 SD1.4/1.5/2.1/3.5 以及 DALLE、Midjourney、Flux 等,因为这些模子的测验数据以英文数据为主,因此在生成图像时,主体形象包括东说念主物、物品、树立、车辆、衣饰、标记等,都存在至极遍及和明显的英文宇宙不雅偏见。
BDM 是咱们在多模态生成地方比拟早期的责任,关心两个要害问题:
1)原生汉文及生成模子的宇宙不雅偏见
2)与 SD 生态的兼容性
冷大炜博士对 BDM 责任的主要着眼点作念了如上的精粹详尽。
"原生汉文"问题指的不单是是文生图模子撑握汉文输入,更中枢的是条目模子生成的东说念主、物形象应该稳健汉文文化的分解。
下图是 AI 绘图模子的宇宙不雅偏见实例,从左到右分裂是 SDXL,Midjourney,国内友商 B*,国内友商 V*:
汉文 AI 绘图模子,从竣事的阶梯选拔上,从易到难大约有以下几种口头:
英文模子 + 翻译。
浅陋径直,除了翻译外几无本钱。这种口头只可处置名义上的汉文输入问题,并不成处置英文模子因为模子偏见而无法生成稳健汉文文化分解形象的问题。
英文模子 + 隐式翻译。
与显式调用翻译工作不同,这种口头是将英文模子的 text encoder 替换为汉文 text encoder,并愚弄中英文平行语料对汉文 text encoder 进行测验,使其输出的 embedding 空间与正本的英文 text encoder 对皆。实质上属于一种隐式翻译,亦然本钱至极低的一种有筹算,雷同无法处置模子的宇宙不雅偏见问题。
英文模子 + 隐式翻译 + 微调。
在上头关节基础上,将对皆了 text encoder 的模子使用汉文图文数据进一步全体微调以普及模子对汉文形象的输出才能。不错在一定进度上缓解英文基底模子带来的模子偏见问题。
汉文数据重新测验。
这是最透彻的一种汉文化有筹算:通晓汉文输入,并能给出稳健汉文文化分解的图像输出末端,不错竣工处置模子的宇宙不雅偏见问题。
上述四种阶梯,第 4 种阶梯看上去至极竣工,但仍有极少值得额外的研发致力于:在基座模子以外,咱们需要进一步考虑的是大模子期间的模子生态问题。
围绕着以 SD 为代表的开源模子,已酿成了至极高大的开源社区生态,这个生态中无数养殖格调模子、插件模子等积聚了至极可贵的群体身手金钱。
在克服 AI 绘图模子宇宙不雅偏见的基础上,进一步竣事对开源社区的兼容,等于咱们的 BDM 责任所要处置的第二个要害问题。
BDM 从模子结构上是一种雷同 ControlNet 的分支收集念念路,以不同的收集分支学习不同话语的数据,因此从旨趣上 BDM 不仅不错竣事原生汉文图像生成,也不错竣事自便 X 话语的图像生成,并保证生成的图像稳健酬应话语文化的分解。
英文部分不错径直复用已有的开源模子,从而竣事与开源社区的无缝兼容。防御 BDM 在使用时只需要输入一种话语,比如输入汉文时,英文分支所以空文本行动输入的。
BDM v1 版块使用 10 亿量级的汉文图文数据进行测验,并兼容 SD1.5 社区生态。
下图展示了 BDM 在生成汉文特别认识的才能和翻译无法应酬的中英多义情况下的生成后果:
下图则展示了 BDM 在 SD1.5 社区生态兼容性上的情况,不错看到 BDM 对不同的 SD1.5 格调微调模子具有很好的兼容性,杰出是 BDM 同期保握了汉文形象的输出才能,更多案例请详见 AAAI 论文。
对于 360 东说念主工智能商讨院
在 360 集团 All in AI 的大配景下,360 东说念主工智能商讨院说明本身的身手上风,承担多模态通晓和多模态生成大模子(俗称图生文和文生图)的政策研发任务,并在两个方进取握续发力,陆续研发了 360VL 多模态大模子,BDM 文生图模子,可控布局 HiCo 模子,以及新一代 DiT 架构 Qihoo-T2X 等一系列责任。
近日,商讨院在多模态通晓地方的责任 IAA 和在多模态生成地方的责任 BDM 分裂被 AI 边界的 top 会议 AAAI 禁受,这两项责任的研发认真东说念主为冷大炜博士。
据悉本届 AAAI 2025 会议收到近 1.3 万份投稿,禁受 3032 份责任,禁受率仅为 23.4%。
Arxiv: https://arxiv.org/abs/2309.00952
Github: https://github.com/360CVGroup/Bridge_Diffusion_Model
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 样貌主页络续,以及有关口头哦
咱们会(尽量)实时复兴你
点这里� � 关心我,谨记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再会 ~