【PAG应用记录】Perturbed-Attention Guidance (ECCV 2024)


Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance

论文阅读

Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance (readpaper.com)

最近的研究证明,扩散模型可以生成高质量的样本,但其质量通常高度依赖于采样指导技术,如分类器指导 (CG) 和无分类器指导 (CFG),这些技术不适用于无条件生成或各种下游任务,如图像恢复。在本文中,我们提出了一种新颖的扩散采样指导,称为扰动注意指导 (PAG),它可以提高无条件和有条件设置的样本质量,而无需进一步的培训或外部模块的集成。PAG旨在通过考虑自我注意机制捕获结构信息的能力,在整个去噪过程中逐步增强合成样本的结构。它涉及通过用单位矩阵代替扩散u-net中选定的自注意图来生成具有退化结构的中间样本,并引导去噪过程远离这些退化样本。

无引导 (基线) 和扰动注意引导 (PAG) 扩散样本之间的定性比较。在没有任何外部条件 (例如,类标签或文本提示) 或额外训练的情况下,即使在无分类器指导 (CFG) 不适用的无条件生成中,我们的PAG也可以显着提高扩散样本的质量。我们的指导还可以增强各种下游任务中的基线性能,例如带有空提示的ControlNet和图像恢复,例如修复和去模糊。

概述

利用一个隐式判别器来区分理想样本和不理想样本,通过利用U-Net中的自注意力图捕捉结构信息的能力,将扩散模型的自注意力图替换为单位矩阵来生成不理想样本。并引导去噪过程远离这些劣化样本。避免结构崩溃。

相关工作

SAG,在无条件框架内提升了样本质量,通过在生成的图像样本上应用对抗性模糊来掩盖关键信息,然后利用模糊样本和原始样本预测的噪声来指导采样过程。

Readout guidance,

图2,无CFG和有CFG的去噪过程可视化。\Delta_{t}=\epsilon_\theta(x_t,c)- \epsilon_\theta(x_t,\empty),会放大与提示相关的特征。

方法:PAG(扰动注意力引导),提出一个隐式判别器D

y代表理想样本,\hat{y}代表非理想样本

图3,PAG过程可视化。

基于扰动或降质,获得\hat{\epsilon}_\theta

CFG或SAG可以视为一种特殊情况

直接扰动输入图像或条件可能导致OOD问题,引导扩散采样走向错误方向,为克服这个问题,CFG明确训练了一个无条件模型,SAG采用部分模糊来最小化偏差,但如果不仔细选择超参数,它往往会偏离期望的轨迹。

扰动自注意力:

在自注意力机制中,QK相似性用于结构,V用于外观。

直接扰动V可能导致OOD,而使用单位矩阵扰动QK更有可能保持在领域内。

具体实现

CFG和PAG的概念比较。CFG采用联合训练的无条件模型作为不良路径,而PAG出于相同目的利用扰动的自注意力。\mathbf{A}_t 对应于自注意力图。在PAG中,我们通过替换为单位矩阵\mathbf{I}来扰乱这一点。

工程实现

应用于Video Generation: EasyAnimate with PAG,https://github.com/lclichen/EasyAnimatePAG 由于本项目是基于Diffusers的,比较容易整合,实现了T2V和I2V,有待提升。

应用于VEnhancer: 正在实现中

声明:烈火灼冰|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - 【PAG应用记录】Perturbed-Attention Guidance (ECCV 2024)


离离沐雪踏轻尘