纯国产文生图大模型问世，“媲美SD与MJ”，轻松生成4K高清大图，训练速度狂飙10倍+！

“ 文生图子领域一直都是一个比较热门的话题，虽然当前已经有很多文生图算法，但是这些主流的算法与工具，主要都是被国外的一些公司所垄断，例如：Stable Diffusion、Midjourney、ControlNet等。尽管国内也有很多文生图算法，但是很多算法的效果真的是一言难尽！本文小编给大家介绍一个支持生成高清4K大图的纯国产文生图算法-PixArt-Σ。PixArt-Σ是一种能够直接生成4K高清分辨率图像的扩散变换器模型（DiT），由华为、大连大学、香港大学一起合作推出。PixArt-Σ比其前身PixArt-α有了显著的进步，能够提供更加高保真度的高清图像，并改进了与文本提示的对齐思路。 ”

01-PixArt算法发展历程

2023年，Junsong Chen, Jincheng Yu,等人提出“PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthe sis”算法。本文介绍了PIXART-α，这是一种基于Transformer的T2I扩散模型，其图像生成质量与最先进的图像生成器（如Imagen、SDXL，甚至Midtravel）具有竞争力，达到了接近商业应用标准。此外，它支持高达1024px分辨率的高分辨率图像合成，训练成本低。为了实现这一目标，作者提出了三个核心设计：1）训练策略分解：设计了三个不同的训练步骤，分别优化像素依赖性、文本图像对齐和图像美学质量；2） 高效的T2I变换器：将交叉注意力模块引入到扩散变换器（DiT）中，以注入文本条件并简化计算密集型类条件分支；3） 高信息量数据：强调文本-图像对中概念密度的重要性，并利用大型视觉语言模型自动标记密集的伪字幕，以帮助文本-图像对齐学习。

纯国产文生图大模型问世，“媲美SD与MJ”，轻松生成4K高清大图，训练速度狂飙10倍+！

2024年，Junsong Chen, Yue Wu等人提出“PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models”算法。本文介绍了PIXART-δ，这是一种文本到图像的合成框架，将潜在一致性模型（LCM）和ControlNet集成到高级PIXART-α模型中。PIXART-α因其通过非常有效的训练过程生成1024px分辨率的高质量图像的能力而受到认可。LCM在PIXART-δ中的集成显著加快了推理速度，仅需2-4步即可生成高质量图像。值得注意的是，PIXART-δ在生成1024×1024像素图像方面实现了0.5秒的突破，比PIXART–α提高了7倍。此外，PIXART-δ被设计为可在一天内在32GB V100 GPU上有效训练。

02-PixArt-Σ算法简介

PixArt-Σ是一种能够直接生成4K高清分辨率图像的扩散变换器模型（DiT）。PixArt-Σ比其前身PixArt-α有了显著的进步，能够提供更加高保真度的高清图像，并改进了与文本提示的对齐思路。

PixArt-Σ的一个关键特征是它的训练效率。利用PixArt-α的基础预训练模型，它通过结合更加高质量的数据，可以从“较弱”的基线演变为“更强”的模型，作者称之为“弱到强训练”。

PixArt-Σ的进步主要包含两个方面的因素：1）高质量训练数据：PixArt-Σ融合了高质量的图像数据，并配有更精确、更详细的图像字幕。2） 高效的令牌压缩：作者在DiT框架内提出了一种新的注意力模块，它可以压缩密钥和值，显著的提高了效率并促进超高分辨率图像的生成。

得益于这些改进，PixArt-Σ实现了卓越的图像质量和遵守用户提示能力，其模型大小（0.6B参数）明显小于现有的文本到图像扩散模型，如SDXL（2.6B参数）和SD Cascade（5.1B参数）。此外，PixArt-Σ生成4K图像的能力支持高分辨率海报和壁纸的创建，可以很好的支持电影和游戏等行业高质量视觉内容的生产。

03-PixArt-Σ算法流程

由于PixArt-Σ算法是在PixArt-α算法的基础上面演进而来。上图展示了PixArt-α算法的模型体系架构。在每个块中集成了一个交叉注意力模块，用来注入文本条件。为了优化效率，所有块在时间条件下共享相同的adaLN单个参数。详细的步骤如下所述：

首先，将输入的文本和图像分别输入到一个T5文本编码器和一个VAE编码器中获取特征表示；
然后，在VAE编码特征上面增加部分噪声，形成带有噪声的隐特征表示。
接着，将含有噪声的隐特征表示和文本特征一起输入到由N个Transformer块组成的特征解码器中；
最后，所有块在时间条件下共享相同的adaLN单个参数，获得最终的输出结果。

交叉注意力层–作者在DiT块中加入了一个多头交叉注意力层。它位于自注意层和前馈层之间，使得模型能够灵活地与从语言模型中提取的文本嵌入进行交互。为了便于预训练的权重，作者将交叉关注层中的输出投影层初始化为零，有效地充当身份映射，并为后续层保留输入。

单一的自适应归一化层—作者发现DiT的自适应归一化层模块中的线性投影在整体参数中占据了很大一部分（27%）。而这样大量的参数是无用的，因为类条件不用于该T2I模型。因此，作者提出了adaLN single，它只使用时间嵌入作为第一个块中的输入进行独立控制。

重新参数化–为了利用上述预训练的权重，所有E（i）的值都被初始化为产生与所选t的没有c的DiT相同的s（i）（根据经验使用t=500）。该设计用全局MLP和特定可训练嵌入层有效地替换了特定MLP层，同时保持了与预训练权重的兼容性。

纯国产文生图大模型问世，“媲美SD与MJ”，轻松生成4K高清大图，训练速度狂飙10倍+！

上图展示了KV令牌压缩模块的设计细节。作者在空间中合并KV令牌用来降低计算复杂度。当以超高分辨率生成图像时，高效的DiT网络是必不可少的，然而计算需求会显著增加。注意力机制在扩散Transformer中起着关键作用，但其二次计算需求显著限制了模型的可扩展性，尤其是在更高分辨率（如2K和4K）下。

受到PVT v2的启发，作者将KV压缩纳入原始PixArt-α的框架中，用来解决计算挑战。这种设计仅为总参数增加了0.018%，但通过令牌压缩实现了计算成本的有效降低，同时仍然保留了空间和语义信息。

该动机源于一个有趣的观察结果：即将键值（KV）令牌压缩直接应用于预训练的PixArt-α仍然可以生成合理的图像，这表明功能存在冗余。考虑到相邻R×R块内的高度相似性，作者假设窗口内的特征语义是冗余的，并且可以合理地压缩。作者提出了KV令牌压缩，表示为fc（·），通过压缩算子压缩R×R窗口内的令牌特征。

04-PixArt-Σ算法细节

04.01-模型训练细节

上表提供了PixArt-Σ算法在每个训练阶段的详细信息，包括图像分辨率、训练样本的总体积、训练步骤的数量、批量大小、学习率以及以GPU天为单位测量的计算时间。利用Internal-Σ数据集并集成了更先进的VAE，该方法只需5天的V100 GPU就可以快速适应新的VAE。随后，仅使用50天的V100 GPU来实现卓越的文本图像对齐。

值得注意的是，应用KV令牌压缩是一种显著的效率提升，显著缩短了训练持续时间。例如，从512px到1024px的微调和实现KV压缩将所需的训练时间从50天的V100 GPU减少到仅20天的V100GPU。类似地，对于2K和4K的分辨率，训练时间分别从10到7 A800 GPU天和16到12 A800 GPU日减少。这展示了KV令牌压缩在提高训练效率方面的功效。

04.02-模型适配策略详解

上图展示了本文的训练策略设计如何在向VAE过渡、调整到更高分辨率和KV压缩过程中加快模型的收敛，促进从弱到强的快速学习。

使模型适应新的VAE—随着VAE的不断发展，从头开始训练T2I模型是资源密集型的。作者将PixArt-α的VAE替换为SDXL的VAE，并继续能够微调扩散模型。如图（a）所示，我们观察到一种快速收敛现象，即微调在2K个训练步骤处快速收敛。当处理VAE模型转移时，微调更有效，并且否定了从头开始训练的必要性。

适应更高的分辨率—当从低分辨率（LR）模型微调到高分辨率（HR）模型时，作者观察到性能有所下降，如图（b）所示，作者将其归因于不同分辨率之间的位置嵌入（PE）差异。为了缓解这个问题，使用了“PE插值”技巧，即通过对LR模型的PE进行插值来初始化HR模型的PE，显著增强HR模型的初始状态并加快微调过程。即使在仅100次训练迭代内，也可以获得视觉上令人愉悦的图像。这表明，使用“PE插值”技巧可以快速收敛更高分辨率的生成，消除了以更高分辨率生成的从头开始训练的需要。

使模型适应KV压缩–当从LR预训练模型进行微调时直接使用KV压缩。如图（c）所示，通过“Conv Avg Init.”策略，PixArt-Σ从更好的初始状态开始，使收敛更容易、更快。值得注意的是，PixArt-Σ即使在100个训练步骤内也能获得令人满意的视觉效果。最后，通过KV压缩算子和压缩层设计，可以减少-34%的训练和推理时间。

05-PixArt-Σ算法性能评估

05.01-主观效果评估

纯国产文生图大模型问世，“媲美SD与MJ”，轻松生成4K高清大图，训练速度狂飙10倍+！

上图展示了PixArt-Σ与一些开源模型（如PixArt-α和SDXL）在相同的文本提示下的生成效果：与PixArt-α相比，PixArt-Σ显著提高了肖像的真实感和语义分析能力。与SDXL相比，该方法具有更好的遵循用户指令的能力。其中关键字高亮显示为蓝色。

上图展示了PixArt-Σ和其它四款T2I产品：Firefly 2、Imagen 2、Dalle 3和Midjourney V6在相同的文本提示下的生成效果。通过观察，我们可以发现：PixArt-Σ生成的图像与这些商业产品相比非常具有竞争力。

05.02-客观指标评估

纯国产文生图大模型问世，“媲美SD与MJ”，轻松生成4K高清大图，训练速度狂飙10倍+！

上表展示了针对当前开放T2I模型的人类（蓝色）/AI（橙色和绿色）偏好评估结果。图中分别展示了Stable 1.5、PixArt-α、Stable Turbo、Stable XL、Stable Cascade、Playground-V2.0和该算法的比较结果。

作者使用先进的多模式模型GPT-4 Vision作为评估者。对于每个试验，作者为GPT-4 Vision提供两张图像：一张来自PixArt-Σ，另一张来自竞争的T2I模型。通过制作了不同的提示，引导GPT-4 Vision根据图像质量以及图像和文本对齐进行投票。具体而言，PixArt-Σ的有效性超过了基线PixArt-α。与Stable Cascaded等当代先进模型相比，PixArt-Σ在图像质量和指令跟随能力方面表现出竞争力或卓越的性能。PixArt-Σ在图像质量和即时跟随方面都优于当前最先进的T2I模型。

上表展示了图像生成中的KV令牌压缩设置。本研究采用FID、CMMD和CLIP Score指标来评估各种代币压缩组件的影响，如压缩比、位置、运算符和不同分辨率。

压缩位置–作者在Transformer结构内的不同深度实施了KV压缩：浅层（1～14）、中间层（7～20）和深层（14～27）。如表3a所示，在深层上采用KV压缩显著地实现了优越的性能。作者推测这是因为浅层通常对详细的纹理内容进行编码，而深层对高级语义内容进行抽象。由于压缩往往会影响图像质量，而不是语义信息，因此压缩深层可以实现最小的信息损失，使其成为加速训练但不影响生成质量的实用选择。

压缩运算符–作者探讨了不同压缩运算符的影响。使用了三种技术，随机丢弃、平均池化和参数卷积，将2×2个令牌压缩为单个令牌。如表3b所示，“Conv 2×2”方法优于其他方法，突出了使用可学习内核比简单丢弃方法更有效地减少冗余特征的优势。

不同分辨率的压缩比–作者研究了不同压缩比对不同分辨率的影响。如表3c所示，值得注意的是，作者发现令牌压缩不会影响文本图像和生成图像之间的对齐（CLIP分数），而是影响分辨率之间的图像质量（FID）。尽管随着压缩比的增加，图像质量略有下降，但该策略使训练速度提高了18%至35%。这表明作者提出的KV压缩对于实现高分辨率T2I生成既有效又高效。

不同分辨率的速度比较–作者在表3d中进一步全面验证了训练和推理中的速度加速。该方法可以在4K生成中将训练和推理速度提高约35%。值得注意的是，作者观察到训练加速度随着分辨率的提高而增加。例如，随着分辨率从1K增加到4K，训练逐渐从18%加速到35%。这表明该方法随着分辨率的提高而有效，证明了它在更高分辨率的图像生成任务中的潜在适用性。

06-PixArt-Σ算法效果展示

图6.1-PixArt-Σ算法效果展示1

图6.2–PixArt-Σ算法效果展示2

图6.3–PixArt-Σ算法效果展示3

图6.4–PixArt-Σ算法效果展示4

图6.5–PixArt-Σ算法效果展示5

图6.6–PixArt-Σ算法效果展示6

图6.7–PixArt-Σ算法效果展示7

图6.8–PixArt-Σ算法效果展示8

图6.9–PixArt-Σ算法效果展示9

图6.10–PixArt-Σ算法效果展示10

图6.11–PixArt-Σ算法效果展示11

图6.12–PixArt-Σ算法效果展示12

图6.13–PixArt-Σ算法效果展示13

图6.14–PixArt-Σ算法效果展示14

图6.15–PixArt-Σ算法效果展示15

图6.16–PixArt-Σ算法效果展示16

图6.17–PixArt-Σ算法效果展示17

图6.18–PixArt-Σ算法效果展示18

图6.19–PixArt-Σ算法效果展示19

内容转自公众号「AI产品汇」。

# 行业资讯

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

纯国产文生图大模型问世，“媲美SD与MJ”，轻松生成4K高清大图，训练速度狂飙10倍+！

这一次，央视用AI播新闻了

2024世界人工智能大会：从“+AI”到“AI+”，新技术重塑千行百业

相关文章

暂无评论