摘要
文本到图像生成方法旨在生成与文本描述在语义上一致的高质量图像。先前生成对抗性网络通常首先生成具有粗略形状和颜色的初始图像,然后将初始图像细化为高分辨率图像。大多数堆叠式体系结构仍然存在两个主要问题:(1)这些方法在很大程度上取决于初始图像的质量。如果初始图像没有很好地初始化,那么最终合成的图像看起来像是来自不同图像尺度的视觉特征的简单组合。(2)以往工作广泛采用的跨模态文本图像融合方法在文本图像融合过程中受到限制。提出了一种新的文本到图像生成模型,该模型引入了一个无需多生成器即可直接生成高质量图像的单阶段主干,以及一个新的语义布局深度融合网络,以实现文本和视觉特征的充分融合。在具有挑战性的CUB和COCO Stuff数据集上的实验证明了模型在生成图像方面的能力,包括视觉逼真度和与输入文本描述的一致性。
出处
《工业控制计算机》
2024年第1期139-140,共2页
Industrial Control Computer