你的位置:世博网站(官方)APP下载-登录入口IOS/Android通用版/手机版 > 新闻资讯 >
发布日期:2025-11-13 11:47 点击次数:77

连年来,基于扩散模子的图像生成技能发展迅猛,催生了 Stable Diffusion、Midjourney 等一系列庞杂的文生图应用。关系词,现时主流的锻练范式多量依赖一个中枢组件——变分自编码器(VAE)欧洲杯体育,这也带来了永恒以来困扰究诘者们的几个问题:
锻练复杂性:VAE 旨在将高维图像压缩至低维隐空间,并能从中重建图像。但其锻练过程需要在压缩率和重建质地之间获得精妙均衡,自身就极具挑战。
漂后的微调资本:当需要在新的范畴(域外数据集)上微调生成模子时,若是预锻练的 VAE 在该范畴施展欠安,则必须连同生成模子全部微调,这无疑会显赫加多锻练资本和树立周期。
为了从根底上惩办 VAE 带来的诸多为止,EPG 中淡薄通过自监督预锻练(SSL Pre-training)与端到端微调(End-to-End Fine-tuning)投合股的形势,透顶去除了生成模子对 VAE 的依赖。

其中枢上风在于:
锻练服从与生成遣散双重冲突:在 ImageNet-256 和 512 数据集上,EPG 在锻练服从远超基于 VAE 的主流模子 DiT/SiT 的同期,只是通过 75 次模子前向筹画就获得了更优的生成质地,FID 阔别达到了 2.04 和 2.35。

初次结束像素空间的一致性模子锻练:在不依赖 VAE 及预锻练的扩散模子权重的前提下,EPG 初次得手在像素空间中端到端地锻练了一致性模子(Consistency Model),在 ImageNet-256 上仅需单步即可获得 8.82 的 FID。

△在 8xH200 上测得的锻练支拨。*: 基于官方代码预估锻练样式:"像锻练图像分类器同样锻练生成模子"
EPG 的中枢想想模仿了筹画机视觉范畴经典的"预锻练 - 微调"范式,将复杂的生成任务解耦为两个更易于处理的阶段。
第一阶段:自监督预锻练 ( SSL Pre-training ) —— 解耦表征学习与像素重建
EPG 的中枢瞻念察在于,生成模子本色上需要从带噪图像中学习高质地的视觉表征。受此启发,EPG 立外乡将学习表征与重建像素解耦为两个安逸的学习阶段。
在第一阶段,模子仅需哄骗自监督表征学习算法,从带噪图像中索要高质地的视觉特征。这一阶段只锻练模子的前半部分汇聚——编码器(Encoder)。关系词,现存表征学习样式难以径直应用于噪声图像,尤其当噪声都备遮蔽图像内容时。
为惩办此问题,EPG 淡薄了一种爽直而高效的惩办决策:让模子在干净图像上学习"样式"表征,再通过一致性耗费将该表征对都(传递)给带噪图像的表征。具体地,文中中式 ODE 采样旅途上的相邻两点行为带噪图像对,以保证每个带噪版块都能学习到独一的、与干净图像对都的表征。
此阶段的预锻练耗费函数包含两部分:
a. 对比耗费 ( Contrastive Loss ) :从干净图像中学习高质地的动手表征。 b. 表征一致性耗费 ( Representation Consistency Loss ) :将带噪图像的表征与干净图像的表征对都。

△锻练样式总览。
(左图)预锻练样式。c 是一个可学习表征,t0, tn, tn-1 为时辰步要求,y1,y2 为每一次锻练所采样图片 x0 进行数据增强后的图像,xtn, x_tn-1 为 ODE 采样旅途上时序上相邻的两点。θ 是汇聚参数,θ ^- 是 theta 的 EMA 版块,sg 暗示 stop gradient 操作。(右图)端到端微调样式。预锻练遣散后,仅使用 E θ 加立时动手化的解码器 D_ θ 进行端到端微调。
第二阶段:端到端微调 ( End-to-End Fine-tuning ) —— 无缝连结下流生成任务
预锻练阶段完成后,EPG 的微调过程格外径直:将预锻练好的编码器(E θ)与一个立时动手化的解码器(D θ)拼接,然后径直使用扩散模子或一致性模子的耗费函数进行端到端微调。
EPG 的锻练框架与经典的图像分类任务框架高度相似,这极地面简化了生成模子的锻练进程,镌汰了树立和应用下流生成任务的门槛。
实践
EPG 在 ImageNet-256 和 ImageNet-512 两大样式数据集上考据了其灵验性。
将去噪锻练行为微调贪图(扩散模子)的生成遣散:


将一致性锻练行为微调贪图(单步生成)的生成遣散:

锻练服从与生成质地:
实考据明,EPG 框架不仅都备弥补了以往像素空间锻练与隐空间锻练在服从和遣散上的差距,更在同等筹画资源下结束了卓著。这为往时在更高分辨率、更大数据集上的锻练,乃至视频生成等范畴,提供了极具参考价值的惩办决策。
推感性能:
基于 EPG 锻练的扩散模子,在推理时仅需 75 次模子前向筹画即可达到最优遣散,步数远低于其他样式。此外,EPG 的主干汇聚接受 Vision Transformer(ViT)且 Patch Size 为 16x16,在 256x256 图像上的单张生成速率可忘形 DiT;在 512x512 图像上(使用 32x32 的 Patch Size),其生成速率已经能和在 256x256 的速率保执一致,展现了优异的可推广性。
转头
EPG 框架的淡薄,为像素空间生成模子的锻练提供了一条爽直、高效且不依赖 VAE 的全新旅途。
通过"自监督预锻练 + 端到端微调"的两阶段计谋,EPG 得手地将复杂的生成任务剖析为贪图明确的表征学习和像素重建两个样式。这不仅使其在锻练服从和最终身成质地(FID 低至 2.04)上全面卓著了依赖 VAE 的 DiT 等主流模子,更紧迫的是,EPG 初次在都备不依赖任何外部预锻练模子(如 VAE 或 DINO)的情况下,结束了像素空间内一致性模子的端到端锻练,获得了单步生成 8.82 FID 的优异得益。
这项使命不仅为图像生成范畴带来了性能与服从的双重升迁,也为视频生成、多模态谐和模子等前沿标的提供了极具后劲的基础框架。EPG 所代表的"去 VAE 化"、端到端的锻练范式,将进一步鼓动生成式 AI 的探索与应用,镌汰树立门槛,引发更多立异。
论文畅达:
https://arxiv.org/pdf/2510.12586
代码仓库畅达:
https://github.com/AMAP-ML/EPG
一键三连「点赞」「转发」「防范心」
迎接在驳倒区留住你的办法!
— 完 —
咱们正在招聘别称眼疾手快、心思 AI 的学术裁剪实习生 � �
感意思意思的小伙伴迎接心思 � � 了解细目

� � 点亮星标 � �
科技前沿进展逐日见欧洲杯体育