谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

谢赛宁等团队推出了统一多模态模型Blip3-o,实现了图像理解和生成的统一,并在多个基准测试中达到新高。他们提出了一种新方法,使用扩散Transformer来生成语义丰富的CLIP图像特征,这种方法不仅提高了训练效率,还提升了生成质量。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA

研究团队发现,先进行图像理解训练,再进行图像生成训练的顺序预训练策略具有实用优势,既能保持图像理解能力,又能培养强大的图像生成能力。网页端可以免费体验该模型的Demo。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

在多模态模型研究中,图像理解和生成的统一受到越来越多的关注。尽管对图像理解的设计选择进行了广泛研究,但关于图像生成统一框架的最佳模型架构和训练方法的研究仍然不足。基于此背景,团队开始对统一多模态模型进行全面研究,重点关注图像表示、建模目标和训练策略。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

他们提出了一种新的统一架构,包括两部分:图像理解部分使用CLIP对图像进行编码,并计算目标文本标记与预测文本标记之间的交叉熵损失;图像生成部分则通过自回归模型生成一系列中间视觉特征,然后将其作为扩散Transformer的条件输入,生成CLIP图像特征,以逼近地面真实的CLIP特征。通过使用CLIP编码器,图像理解和图像生成共享同一个语义空间,从而有效地统一了这两项任务。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

在图像生成部分,团队尝试了三种设计方案,所有设计都使用了自回归+扩散框架,但图像生成组件各不相同。结果显示,CLIP+Flow Matching在GenEval和DPG-Bench上获得了最佳的提示对齐得分,而VAE+Flow Matching产生的FID最低,表明美学质量较高。然而,FID有其局限性,它量化的是与目标图像分布的风格偏差,往往忽略了真正的生成质量和即时配准。最终,团队确定CLIP+Flow Matching是最有效的设计选择。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

在训练策略方面,团队比较了联合训练和顺序训练。联合训练虽然可能使图像理解和生成任务互惠互利,但总数据量和数据比例会影响协同效应。相比之下,顺序训练更具灵活性,允许冻结自回归骨干并保持图像理解能力,将所有训练能力用于图像生成。受LMFusion和MetaQuery启发,团队选择了顺序训练来构建统一的多模态模型。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

实验结果证明,CLIP嵌入与流匹配loss搭配使用,可以提高训练效率和输出质量。基于这些见解,团队推出了BLIP3-o,这是一个最先进的统一模型系列,使用60k指令调整数据集BLIP3o-60k进行了增强,大大提高了提示对齐和视觉美感。为了方便未来的研究,他们完全开源了模型,包括代码、模型权重、训练脚本以及预训练和指导调整数据集。目前,团队正在积极开发统一模型的应用,包括迭代图像编辑、视觉对话和逐步视觉推理。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

这项研究由Salesforce、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学等机构共同完成。团队中大部分成员是华人,共同一作包括马里兰大学博士生Jiuhai Chen、弗吉尼亚理工大学博士生Zhiyang Xu、纽约大学博士生Xichen Pan以及华盛顿大学博士生Yushi Hu。项目负责人是Salesforce的高级应用科学家Le Xue。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

文章来源于网络。发布者:财华网,转转请注明出处:https://www.leiduan.cn/15862.html

(0)
财华网的头像财华网
上一篇 2025年5月17日 上午10:38
下一篇 2025年5月17日 上午10:47

相关推荐

  • 跳水世界杯北京总决赛今日开赛 全红婵领衔梦之队争冠

    今天5月2日,2025世界泳联跳水世界杯总决赛在国家游泳中心(水立方)拉开帷幕。首个比赛日将决出5枚金牌,巴黎奥运会冠军全红婵、陈芋汐、陈艺文、王宗源和昌雅妮将代表中国跳水“梦之队”参加男子双人3米板、女子双人3米板、女子双人10米台、男子双人10米台和混合团体比赛,力争佳绩。 这次比赛是全红婵首次在水立方亮相。她在赛前发布会上表示,会全力以赴,争取发挥最佳…

    2025年5月2日
    1900
  • 购房者称购房不到一年降200多万 承诺未兑现引发争议

    近日,广东的廖先生向澎湃公众互动平台反映,他于2024年5月认购了深圳市南山区“赤湾汇广场”(现名为“南山1978半岛擎峯二期”)53楼的一套商品房,总价为1354万元。今年2月,开发商下调了该楼盘7-42楼部分房源的备案价,导致廖先生认购的房子相比降价房源多出了近300万元的价差。 廖先生表示,购房时开发商承诺若后续再降价,前期认购者都可以享受新价格,但后…

    2025年6月4日
    1000
  • 一季度金条及金币消费量增长近30% 投资需求激增

    中国黄金协会最新统计数据显示,2025年一季度我国黄金消费量为290.492吨,同比下降5.96%。其中,黄金首饰消费量为134.531吨,同比下降26.85%;金条及金币消费量为138.018吨,同比增长29.81%。 此前,“水贝金条卖断货”成为热门话题。在黄金价格高位震荡的情况下,实物黄金成为许多投资者的选择。渣打中国财富方案部首席投资策略师王昕杰提醒…

    2025年5月2日
    1600
  • 521与最具幸福感的节气撞满怀 双倍甜蜜文案来袭

    521与最具幸福感的节气撞满怀 双倍甜蜜文案来袭!当521遇到小满,这一天变得格外有意义。人生小满胜万全,希望每个人都能在这一天感受到幸福和甜蜜。 521遇上小满,正如我遇上了你,喜欢和合适撞了个满怀。小满迎夏,万物渐丰盈,山川草木盛。每一粒种子的盈满,都是对阳光雨露的奋力追求。当“小满”遇上“521”,满而未满,其实是幸福最好的状态,爱我所爱,人生最好的状…

    2025年5月21日
    1300
  • 复出第二冠!陈雨菲亚锦赛强势折桂,仍是苏杯女单头号人选 状态火热证明实力

    4月13日下午,在宁波举行的2025亚洲羽毛球锦标赛女子单打决赛中,中国选手陈雨菲与队友韩悦展开激烈对决,最终以2比1逆转取胜。这是陈雨菲自3月份复出国际赛场以来赢得的第二个冠军,也证明了她依然是国羽参加本月底苏迪曼杯混合团体赛时女单项目的一号人选。 当天是本届羽毛球亚锦赛的决赛日,女单项目的决赛在两位中国运动员之间进行。此前,陈雨菲与韩悦有过8次交锋,陈雨…

    2025年4月14日
    2500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信