文章目录

论文阅读
工程实现

【PAG应用记录】Perturbed-Attention Guidance (ECCV 2024)

最后更新时间：2024年09月06日

Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance

论文阅读

Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance (readpaper.com)

最近的研究证明，扩散模型可以生成高质量的样本，但其质量通常高度依赖于采样指导技术，如分类器指导 (CG) 和无分类器指导 (CFG)，这些技术不适用于无条件生成或各种下游任务，如图像恢复。在本文中，我们提出了一种新颖的扩散采样指导，称为扰动注意指导 (PAG)，它可以提高无条件和有条件设置的样本质量，而无需进一步的培训或外部模块的集成。PAG旨在通过考虑自我注意机制捕获结构信息的能力，在整个去噪过程中逐步增强合成样本的结构。它涉及通过用单位矩阵代替扩散u-net中选定的自注意图来生成具有退化结构的中间样本，并引导去噪过程远离这些退化样本。

无引导 (基线) 和扰动注意引导 (PAG) 扩散样本之间的定性比较。在没有任何外部条件 (例如，类标签或文本提示) 或额外训练的情况下，即使在无分类器指导 (CFG) 不适用的无条件生成中，我们的PAG也可以显着提高扩散样本的质量。我们的指导还可以增强各种下游任务中的基线性能，例如带有空提示的ControlNet和图像恢复，例如修复和去模糊。

概述

利用一个隐式判别器来区分理想样本和不理想样本，通过利用U-Net中的自注意力图捕捉结构信息的能力，将扩散模型的自注意力图替换为单位矩阵来生成不理想样本。并引导去噪过程远离这些劣化样本。避免结构崩溃。

相关工作

SAG，在无条件框架内提升了样本质量，通过在生成的图像样本上应用对抗性模糊来掩盖关键信息，然后利用模糊样本和原始样本预测的噪声来指导采样过程。

Readout guidance，

图2，无CFG和有CFG的去噪过程可视化。\Delta_{t}=\epsilon_\theta(x_t,c)- \epsilon_\theta(x_t,\empty)，会放大与提示相关的特征。

方法：PAG（扰动注意力引导），提出一个隐式判别器D

y代表理想样本，\hat{y}代表非理想样本

图3，PAG过程可视化。

基于扰动或降质，获得\hat{\epsilon}_\theta

CFG或SAG可以视为一种特殊情况

直接扰动输入图像或条件可能导致OOD问题，引导扩散采样走向错误方向，为克服这个问题，CFG明确训练了一个无条件模型，SAG采用部分模糊来最小化偏差，但如果不仔细选择超参数，它往往会偏离期望的轨迹。

扰动自注意力：

在自注意力机制中，QK相似性用于结构，V用于外观。

直接扰动V可能导致OOD，而使用单位矩阵扰动QK更有可能保持在领域内。

具体实现

CFG和PAG的概念比较。CFG采用联合训练的无条件模型作为不良路径，而PAG出于相同目的利用扰动的自注意力。\mathbf{A}_t 对应于自注意力图。在PAG中，我们通过替换为单位矩阵\mathbf{I}来扰乱这一点。

工程实现

应用于Video Generation: EasyAnimate with PAG，https://github.com/lclichen/EasyAnimatePAG 由于本项目是基于Diffusers的，比较容易整合，实现了T2V和I2V，有待提升。

应用于VEnhancer：正在实现中

声明：烈火灼冰|版权所有，违者必究|如未注明，均为原创|本网站采用BY-NC-SA协议进行授权

转载：转载请注明原文链接 - 【PAG应用记录】Perturbed-Attention Guidance (ECCV 2024)

【学习/记录】常用终端命令执行方法及多进程并行方法（非深度学习）

【学习/记录】torchrun/DDP使用方法与注意事项

Author

SakurakoujiLuna

离离沐雪踏轻尘

添加评论

Comments | NOTHING