谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

谢赛宁等团队推出了统一多模态模型Blip3-o,实现了图像理解和生成的统一,并在多个基准测试中达到新高。他们提出了一种新方法,使用扩散Transformer来生成语义丰富的CLIP图像特征,这种方法不仅提高了训练效率,还提升了生成质量。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA

研究团队发现,先进行图像理解训练,再进行图像生成训练的顺序预训练策略具有实用优势,既能保持图像理解能力,又能培养强大的图像生成能力。网页端可以免费体验该模型的Demo。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

在多模态模型研究中,图像理解和生成的统一受到越来越多的关注。尽管对图像理解的设计选择进行了广泛研究,但关于图像生成统一框架的最佳模型架构和训练方法的研究仍然不足。基于此背景,团队开始对统一多模态模型进行全面研究,重点关注图像表示、建模目标和训练策略。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

他们提出了一种新的统一架构,包括两部分:图像理解部分使用CLIP对图像进行编码,并计算目标文本标记与预测文本标记之间的交叉熵损失;图像生成部分则通过自回归模型生成一系列中间视觉特征,然后将其作为扩散Transformer的条件输入,生成CLIP图像特征,以逼近地面真实的CLIP特征。通过使用CLIP编码器,图像理解和图像生成共享同一个语义空间,从而有效地统一了这两项任务。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

在图像生成部分,团队尝试了三种设计方案,所有设计都使用了自回归+扩散框架,但图像生成组件各不相同。结果显示,CLIP+Flow Matching在GenEval和DPG-Bench上获得了最佳的提示对齐得分,而VAE+Flow Matching产生的FID最低,表明美学质量较高。然而,FID有其局限性,它量化的是与目标图像分布的风格偏差,往往忽略了真正的生成质量和即时配准。最终,团队确定CLIP+Flow Matching是最有效的设计选择。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

在训练策略方面,团队比较了联合训练和顺序训练。联合训练虽然可能使图像理解和生成任务互惠互利,但总数据量和数据比例会影响协同效应。相比之下,顺序训练更具灵活性,允许冻结自回归骨干并保持图像理解能力,将所有训练能力用于图像生成。受LMFusion和MetaQuery启发,团队选择了顺序训练来构建统一的多模态模型。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

实验结果证明,CLIP嵌入与流匹配loss搭配使用,可以提高训练效率和输出质量。基于这些见解,团队推出了BLIP3-o,这是一个最先进的统一模型系列,使用60k指令调整数据集BLIP3o-60k进行了增强,大大提高了提示对齐和视觉美感。为了方便未来的研究,他们完全开源了模型,包括代码、模型权重、训练脚本以及预训练和指导调整数据集。目前,团队正在积极开发统一模型的应用,包括迭代图像编辑、视觉对话和逐步视觉推理。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

这项研究由Salesforce、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学等机构共同完成。团队中大部分成员是华人,共同一作包括马里兰大学博士生Jiuhai Chen、弗吉尼亚理工大学博士生Zhiyang Xu、纽约大学博士生Xichen Pan以及华盛顿大学博士生Yushi Hu。项目负责人是Salesforce的高级应用科学家Le Xue。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

文章来源于网络。发布者:财华网,转转请注明出处:https://www.leiduan.cn/15862.html

(0)
财华网的头像财华网
上一篇 2025年5月17日 上午10:38
下一篇 2025年5月17日 上午10:47

相关推荐

  • 上海交大回应石楠花味道太大 校园绿化功臣的“小瑕疵”

    石楠是一种蔷薇科的常绿植物,四季常青,能够吸附粉尘、释放氧气,具有很强的空气净化能力。然而,在春季开花时,石楠会散发一种特别的气味,不少人对此难以接受。 正值石楠花的花期,有同学在上海交大校园生活服务反馈平台上反映,石楠花的味道太大,希望学校能将花剪掉。对此,上海交大后勤保障中心回应称,石楠在校园各处多有种植,除开花时节外,其余时间作为一种姿态挺拔、树形优美…

    2025年4月11日
    4100
  • 中超强弱分明!下半区8队仅1胜,海牛成唯一赢家,亚泰垫底 保级形势严峻

    中超强弱分明!下半区8队仅1胜,海牛成唯一赢家,亚泰垫底 保级形势严峻!随着新鹏城客场逼平西海岸,中超结束了第11轮的全部8场比赛。在排名下半区的8支球队中,仅海牛赢得了保级大战,并摆脱了垫底的位置。 前10轮比赛结束后,踢了9场的河南队以7分排名第14位,亚泰和海牛分别以5分和4分位列倒数第二和第三。海牛在前10轮比赛中4平6负,是唯一一支尚未取得胜利的中…

    2025年5月7日
    4100
  • 男子冰壶世锦赛中国队战胜美国队 暂列积分榜首

    北京时间3月31日凌晨,2025年男子冰壶世锦赛在加拿大穆斯乔市继续进行。中国队表现出色,以8比2战胜美国队,取得两连胜,目前暂列积分榜首位。 中国队派出的主力阵容包括四垒徐晓明、三垒费学清、二垒王智宇和一垒李智超。比赛开始时双方打成0比0平局。第二局,中国队利用美国队四垒德洛普金的投壶失误,先手偷得2分。尽管美国队在第三局扳回1分,但中国队通过精准控场,在…

    2025年3月31日
    8300
  • 900人远程扫码 农家乐鸡鸣声彻夜不停 扫码闻鸡鸣走红网络

    在重庆、贵州、湖南三省交界处的一处农家乐里,有一个名为“扫码闻鸡鸣”的娱乐项目。游客只需扫二维码支付两元钱,雕像就会播放一段带有鸡叫的魔性音乐。近日,有网友将扫码听鸡鸣的视频发布到网上,引发了广泛关注。不少网友在评论区留言晒图,表示进行了远程扫码。 农家乐老板龙先生说,“扫码闻鸡鸣”去年在网上走红后,每天都有很多人扫码付款。这段时间明显增多,最多一天付款人数…

    2025年5月10日
    2800
  • 男子在德国邂逅重庆开出的中欧班列 异国遇亲切汉字感自豪

    看到车上亲切的汉字,想到祖国的火车1万多公里开到了德国,郑誉感到非常激动。5月19日,他回忆起在德国看到中欧班列的情形,声音不自觉地扬高了。这趟中欧班列是从重庆发出的,目的地是德国。巧合的是,中国第一列中欧班列(渝新欧)正是从重庆沙坪坝团结村始发。 郑誉今年53岁,家乡在山东青岛。2024年,他独自一人远赴德国打拼,目前从事汽修方面的工作。他说,在德国快一年…

    2025年5月21日
    2500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信