谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

谢赛宁等团队推出了统一多模态模型Blip3-o,实现了图像理解和生成的统一,并在多个基准测试中达到新高。他们提出了一种新方法,使用扩散Transformer来生成语义丰富的CLIP图像特征,这种方法不仅提高了训练效率,还提升了生成质量。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA

研究团队发现,先进行图像理解训练,再进行图像生成训练的顺序预训练策略具有实用优势,既能保持图像理解能力,又能培养强大的图像生成能力。网页端可以免费体验该模型的Demo。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

在多模态模型研究中,图像理解和生成的统一受到越来越多的关注。尽管对图像理解的设计选择进行了广泛研究,但关于图像生成统一框架的最佳模型架构和训练方法的研究仍然不足。基于此背景,团队开始对统一多模态模型进行全面研究,重点关注图像表示、建模目标和训练策略。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

他们提出了一种新的统一架构,包括两部分:图像理解部分使用CLIP对图像进行编码,并计算目标文本标记与预测文本标记之间的交叉熵损失;图像生成部分则通过自回归模型生成一系列中间视觉特征,然后将其作为扩散Transformer的条件输入,生成CLIP图像特征,以逼近地面真实的CLIP特征。通过使用CLIP编码器,图像理解和图像生成共享同一个语义空间,从而有效地统一了这两项任务。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

在图像生成部分,团队尝试了三种设计方案,所有设计都使用了自回归+扩散框架,但图像生成组件各不相同。结果显示,CLIP+Flow Matching在GenEval和DPG-Bench上获得了最佳的提示对齐得分,而VAE+Flow Matching产生的FID最低,表明美学质量较高。然而,FID有其局限性,它量化的是与目标图像分布的风格偏差,往往忽略了真正的生成质量和即时配准。最终,团队确定CLIP+Flow Matching是最有效的设计选择。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

在训练策略方面,团队比较了联合训练和顺序训练。联合训练虽然可能使图像理解和生成任务互惠互利,但总数据量和数据比例会影响协同效应。相比之下,顺序训练更具灵活性,允许冻结自回归骨干并保持图像理解能力,将所有训练能力用于图像生成。受LMFusion和MetaQuery启发,团队选择了顺序训练来构建统一的多模态模型。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

实验结果证明,CLIP嵌入与流匹配loss搭配使用,可以提高训练效率和输出质量。基于这些见解,团队推出了BLIP3-o,这是一个最先进的统一模型系列,使用60k指令调整数据集BLIP3o-60k进行了增强,大大提高了提示对齐和视觉美感。为了方便未来的研究,他们完全开源了模型,包括代码、模型权重、训练脚本以及预训练和指导调整数据集。目前,团队正在积极开发统一模型的应用,包括迭代图像编辑、视觉对话和逐步视觉推理。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

这项研究由Salesforce、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学等机构共同完成。团队中大部分成员是华人,共同一作包括马里兰大学博士生Jiuhai Chen、弗吉尼亚理工大学博士生Zhiyang Xu、纽约大学博士生Xichen Pan以及华盛顿大学博士生Yushi Hu。项目负责人是Salesforce的高级应用科学家Le Xue。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

文章来源于网络。发布者:财华网,转转请注明出处:https://www.leiduan.cn/15862.html

(0)
财华网的头像财华网
上一篇 2025年5月17日 上午10:38
下一篇 2025年5月17日 上午10:47

相关推荐

  • 专家建议加大政策力度对冲不确定性 稳外贸促消费成关键

    专家建议加大政策力度对冲不确定性 稳外贸促消费成关键。一季度中国经济在多重挑战下取得了亮眼的成绩。国家统计局数据显示,按不变价格计算,一季度GDP同比增长5.4%。其中,进出口增速逐月回升,一季度出口增速达6.9%;3月社会消费品零售总额同比增长5.9%,为年初以来最高的单月增速。 国家统计局副局长盛来运表示,去年9月26日中央政治局会议果断部署了一系列增量…

    2025年4月17日
    1100
  • 2个月夺5冠!女乒又一13岁小魔王崛起:偶像丁宁,目标世界冠军

    2个月夺5冠!女乒又一13岁小魔王崛起:偶像丁宁,目标世界冠军。刘子菱8岁时定下了成为世界冠军的目标,并为此努力训练。五年后,她已成为中国乒坛小有名气的“小魔王”。在最近结束的WTT青少年球星挑战赛曼谷站中,刘子菱一举夺得U15级别女单和女双冠军。近两个月内,她共夺得了五个WTT青少年挑战赛冠军。 刘子菱出生于2011年6月28日,目前只有13岁。她参加WT…

    2025年5月9日
    700
  • 加拿大总理:美国不再是可靠贸易伙伴,多国考虑反制措施

    加拿大总理:美国不再是可靠贸易伙伴,多国考虑反制措施!巴西总统卢拉在亚洲访问期间表示,如果巴西向世界贸易组织申诉无法解决与美国之间的贸易问题,巴西将采取对等关税报复措施。加拿大总理卡尼指出,美国总统特朗普再次违反现有贸易协定,对加拿大征收不合理关税,称美国不再是可靠的贸易伙伴。 特斯拉公司首席执行官马斯克提到,特朗普的汽车关税政策将对特斯拉产生重大影响。墨西…

    2025年3月28日
    1700
  • 结婚人数大降 国家和地方都出手了 多举措应对结婚率下滑

    2025年4月25日,民政部官网发布《2025年1季度民政统计数据》,数据显示一季度全国结婚登记181万对,离婚登记63万对,结婚登记数量较2024年一季度进一步下降。2024年一季度,全国结婚登记196.9万对,离婚登记57.3万对。相比之下,今年一季度结婚登记数减少了15.9万对,离婚登记数则增加了5.7万对。 人口学专家何亚福指出,结婚登记对数下降的原…

    2025年4月27日
    1500
  • 大风天气!媒体人:北京赛区已提交延期申请,静待中足联批复 比赛因恶劣天气延期

    大风天气!媒体人:北京赛区已提交延期申请,静待中足联批复 比赛因恶劣天气延期!北京赛区已经提交了本轮中超的延期申请,目前正等待中足联批复。原定于本周五20点在北京工人体育场进行的中超联赛第六轮北京国安对阵青岛西海岸的比赛,因天气原因大概率会延迟,具体日期尚未确定。 今晚的赛前发布会和踩场训练已被取消。接下来,两家俱乐部将协商补赛的具体日期。值得一提的是,今天…

    2025年4月11日
    1500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信