如何使用 Keras 从头开始实现 Pix2Pix GAN 模型

作者： Jason Brownlee 于 2021年4月30日发布在生成对抗网络 103

Pix2Pix GAN 是一种生成模型，用于在配对样本上训练图像到图像的转换。

例如，该模型可用于将白天图像转换为夜晚图像，或将产品（如鞋子）的草图转换为产品照片。

Pix2Pix 模型的好处是，与用于条件图像生成的其他 GAN 相比，它相对简单，并且能够跨各种图像转换任务生成大量高质量图像。

该模型非常出色，但其架构对初学者来说似乎有些复杂。

在本教程中，您将学习如何使用 Keras 深度学习框架从头开始实现 Pix2Pix GAN 架构。

完成本教程后，您将了解：

如何为 Pix2Pix GAN 开发 PatchGAN 判别器模型。
如何为 Pix2Pix GAN 开发 U-Net 编码器-解码器生成器模型。
如何实现用于更新生成器的复合模型，以及如何训练这两个模型。

开启您的项目，阅读我的新书《Python 生成对抗网络》，其中包含分步教程和所有示例的Python 源代码文件。

让我们开始吧。

2021 年 1 月更新：已更新，以便层冻结与批处理归一化一起使用。

How to Implement Pix2Pix GAN Models From Scratch With Keras

如何使用 Keras 从头开始实现 Pix2Pix GAN 模型
照片由 Ray in Manila 拍摄，保留部分权利。

教程概述

本教程分为五个部分；它们是：

什么是 Pix2Pix GAN？
如何实现 PatchGAN 判别器模型
如何实现 U-Net 生成器模型
如何实现对抗损失和 L1 损失
如何更新模型权重

什么是 Pix2Pix GAN？

Pix2Pix 是一种生成对抗网络 (GAN) 模型，专为通用图像到图像翻译而设计。

该方法由 Phillip Isola 等人在其 2016 年题为“Image-to-Image Translation with Conditional Adversarial Networks”（条件对抗网络中的图像到图像翻译）的论文中提出，并于 2017 年在 CVPR 上发表。

GAN 架构包含一个用于输出新的逼真合成图像的生成器模型和一个用于将图像分类为真实（来自数据集）或伪造（生成）的判别器模型。判别器模型直接更新，而生成器模型通过判别器模型更新。因此，这两个模型以对抗过程同时训练，其中生成器试图更好地欺骗判别器，判别器试图更好地识别伪造图像。

Pix2Pix 模型是一种条件 GAN，或 cGAN，其中输出图像的生成取决于输入，在此情况下为源图像。判别器同时接收源图像和目标图像，并必须确定目标图像是否是源图像的合理转换。

同样，判别器模型直接更新，生成器模型通过判别器模型更新，尽管损失函数会更新。生成器通过对抗损失进行训练，该损失鼓励生成器生成目标域中逼真的图像。生成器还通过在生成的图像和期望的输出图像之间测量的 L1 损失进行更新。此额外损失鼓励生成器模型创建源图像的逼真翻译。

Pix2Pix GAN 已在多种图像到图像转换任务中得到证明，例如将地图转换为卫星照片、将黑白照片转换为彩色以及将产品草图转换为产品照片。

现在我们熟悉了 Pix2Pix GAN，让我们探讨如何使用 Keras 深度学习库来实现它。

想从零开始开发GAN吗？

立即参加我为期7天的免费电子邮件速成课程（附示例代码）。

点击注册，同时获得该课程的免费PDF电子书版本。

如何实现 PatchGAN 判别器模型

Pix2Pix GAN 中的判别器模型实现为 PatchGAN。

PatchGAN 的设计基于感受野的大小，有时也称为有效感受野。感受野是模型的一个输出激活与输入图像（实际上是输入通道的体积）区域之间的关系。

使用的是 70×70 的 PatchGAN，这意味着模型的输出（或每个输出）映射到输入图像的 70×70 的方形区域。实际上，70×70 的 PatchGAN 将对输入图像的 70×70 的块进行真实或伪造的分类。

……我们设计了一个判别器架构——我们称之为 PatchGAN——它仅在块的尺度上进行惩罚。此判别器尝试对图像中的每个 NxN 块进行真实或伪造的分类。我们跨图像卷积地运行此判别器，并平均所有响应以提供 D 的最终输出。

——《使用条件对抗网络进行图像到图像翻译》，2016年。

在我们深入研究 PatchGAN 的配置细节之前，了解感受野的计算非常重要。

感受野不是判别器模型的输出大小，例如，它不指模型输出的激活图的形状。它是模型的一种定义，指输出激活图中的一个像素与输入图像的关系。模型输出可以是一个单一值，也可以是一个方形激活图，其中值表示输入图像的每个块是真实还是伪造。

传统上，感受野是指单个卷积层相对于该层的输入、滤波器大小和步长计算的激活图大小。有效感受野推广了这一想法，并计算了堆叠卷积层相对于原始图像输入的输出的感受野。这两个术语经常互换使用。

Pix2Pix GAN 的作者提供了一个 Matlab 脚本来计算脚本 receptive_field_sizes.m 中不同模型配置的有效感受野大小。通过举例说明 70×70 PatchGAN 的感受野计算会很有帮助。

70×70 PatchGAN 拥有固定的三层（不包括输出层和倒数第二层），无论输入图像的大小如何。感受野的计算（以一维为例）为：

感受野 = (输出尺寸 – 1) * 步长 + 核尺寸

其中输出尺寸是前一层激活图的大小，步长是应用滤波器到激活时滤波器移动的像素数，核尺寸是应用的滤波器的大小。

PatchGAN 使用固定的步长 2×2（输出层和倒数第二层除外）和固定的核尺寸 4×4。因此，我们可以从模型输出的一个像素开始，向后追溯到输入图像，来计算感受野大小。

我们可以开发一个名为 `receptive_field()` 的 Python 函数来计算感受野，然后计算并打印 Pix2Pix PatchGAN 模型中每一层的感受野。完整示例列在下面。

# example of calculating the receptive field for the PatchGAN

# calculate the effective receptive field size
def receptive_field(output_size, kernel_size, stride_size):
    return (output_size - 1) * stride_size + kernel_size

# output layer 1x1 pixel with 4x4 kernel and 1x1 stride
rf = receptive_field(1, 4, 1)
print(rf)
# second last layer with 4x4 kernel and 1x1 stride
rf = receptive_field(rf, 4, 1)
print(rf)
# 3 PatchGAN layers with 4x4 kernel and 2x2 stride
rf = receptive_field(rf, 4, 2)
print(rf)
rf = receptive_field(rf, 4, 2)
print(rf)
rf = receptive_field(rf, 4, 2)
print(rf)

# 计算 PatchGAN 感受野的示例

# 计算有效感受野大小

def receptive_field(output_size, kernel_size, stride_size):

return (output_size - 1) * stride_size + kernel_size

# 输出层 1x1 像素，4x4 核，1x1 步长

rf = receptive_field(1, 4, 1)

print(rf)

# 倒数第二层，4x4 核，1x1 步长

rf = receptive_field(rf, 4, 1)

print(rf)

# 3 个 PatchGAN 层，4x4 核，2x2 步长

rf = receptive_field(rf, 4, 2)

print(rf)

rf = receptive_field(rf, 4, 2)

print(rf)

rf = receptive_field(rf, 4, 2)

print(rf)

运行示例将打印模型中从输出层到输入层的每一层的感受野大小。

我们可以看到，输出层中的每个 1×1 像素映射到输入层中 70×70 的感受野。

Pix2Pix 论文的作者探讨了不同的 PatchGAN 配置，包括一个 1×1 感受野（称为 PixelGAN）和一个与模型输入的 256×256 像素图像匹配（重采样为 286×286）的感受野（称为 ImageGAN）。他们发现 70×70 的 PatchGAN 在性能和图像质量之间取得了最佳的折衷。

70×70 的 PatchGAN [...] 获得了略好的分数。扩展到完整的 286×286 ImageGAN 并未显示出结果视觉质量的提升。

——《使用条件对抗网络进行图像到图像翻译》，2016年。

PatchGAN 的配置在论文附录中提供，并且可以通过查看官方 Torch 实现中的 defineD_n_layers() 函数来确认。

该模型接受两个图像作为输入，具体来说是源图像和目标图像。这些图像在通道级别串联起来，例如，每个图像的 3 个彩色通道变为输入的 6 个通道。

令 Ck 表示一个带有 k 个滤波器的卷积-批归一化-ReLU 层。 […] 所有卷积都是 4×4 的空间滤波器，使用步长为 2。 […] 70×70 的判别器架构是：C64-C128-C256-C512。最后一层之后，应用一个卷积层将特征图映射到一维输出，然后是 Sigmoid 函数。作为上述约定的例外，批归一化未应用于第一个 C64 层。所有 ReLU 都是 leaky ReLU，斜率为 0.2。

——《使用条件对抗网络进行图像到图像翻译》，2016年。

PatchGAN 配置使用简写符号定义为：C64-C128-C256-C512，其中 C 指的是一个卷积-批归一化-LeakyReLU 层块，数字表示滤波器的数量。批归一化不用于第一层。如前所述，核尺寸固定为 4×4，除了模型的最后 2 层外，所有层都使用 2×2 的步长。LeakyReLU 的斜率设置为 0.2，输出层使用 sigmoid 激活函数。

通过将 256×256 的输入图像缩放到 286×286，然后随机裁剪回 256×256 来应用随机抖动。权重从均值为 0、标准差为 0.02 的高斯分布初始化。

——《使用条件对抗网络进行图像到图像翻译》，2016年。

模型权重是通过均值为 0.0、标准差为 0.02 的随机高斯分布初始化的。输入到模型图像为 256×256。

……我们在优化 D 时将目标除以 2，这减慢了 D 相对于 G 的学习速度。我们使用小批量 SGD 并应用 Adam 求解器，学习率为 0.0002，动量参数 β1 = 0.5，β2 = 0.999。

——《使用条件对抗网络进行图像到图像翻译》，2016年。

模型以一个图像的批次大小进行训练，并使用随机梯度下降的 Adam 版本，具有较小的学习范围和适中的动量。在每次模型更新时，判别器的损失加权 50%。

将所有这些结合起来，我们可以定义一个名为 `define_discriminator()` 的函数，该函数创建 70×70 的 PatchGAN 判别器模型。

下面列出了定义模型的完整示例。

# example of defining a 70x70 patchgan discriminator model
from keras.optimizers import Adam
from keras.initializers import RandomNormal
from keras.models import Model
from keras.models import Input
from keras.layers import Conv2D
from keras.layers import LeakyReLU
from keras.layers import Activation
from keras.layers import Concatenate
from keras.layers import BatchNormalization
from keras.utils.vis_utils import plot_model

# define the discriminator model
def define_discriminator(image_shape):
	# weight initialization
	init = RandomNormal(stddev=0.02)
	# source image input
	in_src_image = Input(shape=image_shape)
	# target image input
	in_target_image = Input(shape=image_shape)
	# concatenate images channel-wise
	merged = Concatenate()([in_src_image, in_target_image])
	# C64
	d = Conv2D(64, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(merged)
	d = LeakyReLU(alpha=0.2)(d)
	# C128
	d = Conv2D(128, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(d)
	d = BatchNormalization()(d)
	d = LeakyReLU(alpha=0.2)(d)
	# C256
	d = Conv2D(256, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(d)
	d = BatchNormalization()(d)
	d = LeakyReLU(alpha=0.2)(d)
	# C512
	d = Conv2D(512, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(d)
	d = BatchNormalization()(d)
	d = LeakyReLU(alpha=0.2)(d)
	# second last output layer
	d = Conv2D(512, (4,4), padding='same', kernel_initializer=init)(d)
	d = BatchNormalization()(d)
	d = LeakyReLU(alpha=0.2)(d)
	# patch output
	d = Conv2D(1, (4,4), padding='same', kernel_initializer=init)(d)
	patch_out = Activation('sigmoid')(d)
	# define model
	model = Model([in_src_image, in_target_image], patch_out)
	# compile model
	opt = Adam(lr=0.0002, beta_1=0.5)
	model.compile(loss='binary_crossentropy', optimizer=opt, loss_weights=[0.5])
	return model

# define image shape
image_shape = (256,256,3)
# create the model
model = define_discriminator(image_shape)
# summarize the model
model.summary()
# plot the model
plot_model(model, to_file='discriminator_model_plot.png', show_shapes=True, show_layer_names=True)

# 定义 70x70 patchgan 判别器模型的示例

from keras.optimizers import Adam

from keras.initializers import RandomNormal

from keras.models import Model

from keras.models import Input

从 keras.layers 导入 Conv2D

from keras.layers import LeakyReLU

from keras.layers import Activation

from keras.layers import Concatenate

从 keras.层导入 BatchNormalization

from keras.utils.vis_utils import plot_model

# 定义判别器模型

def define_discriminator(image_shape):

# 权重初始化

init = RandomNormal(stddev=0.02)

# 源图像输入

in_src_image = Input(shape=image_shape)

# 目标图像输入

in_target_image = Input(shape=image_shape)

# 通道级联图像

merged = Concatenate()([in_src_image, in_target_image])

# C64

d = Conv2D(64, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(merged)

d = LeakyReLU(alpha=0.2)(d)

# C128

d = Conv2D(128, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(d)

d = BatchNormalization()(d)

d = LeakyReLU(alpha=0.2)(d)

# C256

d = Conv2D(256, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(d)

d = BatchNormalization()(d)

d = LeakyReLU(alpha=0.2)(d)

# C512

d = Conv2D(512, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(d)

d = BatchNormalization()(d)

d = LeakyReLU(alpha=0.2)(d)

# 倒数第二层输出

d = Conv2D(512, (4,4), padding='same', kernel_initializer=init)(d)

d = BatchNormalization()(d)

d = LeakyReLU(alpha=0.2)(d)

# 补丁输出

d = Conv2D(1, (4,4), padding='same', kernel_initializer=init)(d)

patch_out = Activation('sigmoid')(d)

# 定义模型

model = Model([in_src_image, in_target_image], patch_out)

# 编译模型

opt = Adam(lr=0.0002, beta_1=0.5)

model.compile(loss='binary_crossentropy', optimizer=opt, loss_weights=[0.5])

return model

# 定义图像形状

image_shape = (256,256,3)

# 创建模型

model = define_discriminator(image_shape)

# 总结模型

model.summary()

# 绘制模型

plot_model(model, to_file='discriminator_model_plot.png', show_shapes=True, show_layer_names=True)

运行示例首先会总结模型，从而让我们了解输入形状如何在各层之间转换以及模型的参数数量。

我们可以看到，两个输入图像被串联起来，形成一个 256x256x6 的输入，进入第一个隐藏的卷积层。这种输入图像的级联可以在模型输入层之前完成，但让模型执行级联操作可以使模型的行为更加清晰。

我们可以看到，模型的输出将是一个 16×16 像素（或激活）的激活图，具有一个通道，图中的每个值对应于输入 256×256 图像的 70×70 像素块。如果输入图像尺寸减半为 128×128，则输出特征图也将减半为 8×8。

该模型是一个二分类模型，意味着它预测的输出是一个在 [0,1] 范围内的概率，即输入图像是真实图像还是来自目标数据集的图像的可能性。可以通过对这些值块求平均来给出模型的真实/伪造预测。在训练时，目标值与目标值矩阵进行比较，伪造为 0，真实为 1。

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to
==================================================================================================
input_1 (InputLayer)            (None, 256, 256, 3)  0
__________________________________________________________________________________________________
input_2 (InputLayer)            (None, 256, 256, 3)  0
__________________________________________________________________________________________________
concatenate_1 (Concatenate)     (None, 256, 256, 6)  0           input_1[0][0]
                                                                 input_2[0][0]
__________________________________________________________________________________________________
conv2d_1 (Conv2D)               (None, 128, 128, 64) 6208        concatenate_1[0][0]
__________________________________________________________________________________________________
leaky_re_lu_1 (LeakyReLU)       (None, 128, 128, 64) 0           conv2d_1[0][0]
__________________________________________________________________________________________________
conv2d_2 (Conv2D)               (None, 64, 64, 128)  131200      leaky_re_lu_1[0][0]
__________________________________________________________________________________________________
batch_normalization_1 (BatchNor (None, 64, 64, 128)  512         conv2d_2[0][0]
__________________________________________________________________________________________________
leaky_re_lu_2 (LeakyReLU)       (None, 64, 64, 128)  0           batch_normalization_1[0][0]
__________________________________________________________________________________________________
conv2d_3 (Conv2D)               (None, 32, 32, 256)  524544      leaky_re_lu_2[0][0]
__________________________________________________________________________________________________
batch_normalization_2 (BatchNor (None, 32, 32, 256)  1024        conv2d_3[0][0]
__________________________________________________________________________________________________
leaky_re_lu_3 (LeakyReLU)       (None, 32, 32, 256)  0           batch_normalization_2[0][0]
__________________________________________________________________________________________________
conv2d_4 (Conv2D)               (None, 16, 16, 512)  2097664     leaky_re_lu_3[0][0]
__________________________________________________________________________________________________
batch_normalization_3 (BatchNor (None, 16, 16, 512)  2048        conv2d_4[0][0]
__________________________________________________________________________________________________
leaky_re_lu_4 (LeakyReLU)       (None, 16, 16, 512)  0           batch_normalization_3[0][0]
__________________________________________________________________________________________________
conv2d_5 (Conv2D)               (None, 16, 16, 512)  4194816     leaky_re_lu_4[0][0]
__________________________________________________________________________________________________
batch_normalization_4 (BatchNor (None, 16, 16, 512)  2048        conv2d_5[0][0]
__________________________________________________________________________________________________
leaky_re_lu_5 (LeakyReLU)       (None, 16, 16, 512)  0           batch_normalization_4[0][0]
__________________________________________________________________________________________________
conv2d_6 (Conv2D)               (None, 16, 16, 1)    8193        leaky_re_lu_5[0][0]
__________________________________________________________________________________________________
activation_1 (Activation)       (None, 16, 16, 1)    0           conv2d_6[0][0]
==================================================================================================
Total params: 6,968,257
Trainable params: 6,965,441
Non-trainable params: 2,816
__________________________________________________________________________________________________

__________________________________________________________________________________________________

层（类型）输出形状参数 # 连接到

==================================================================================================

input_1 (InputLayer) (None, 256, 256, 3) 0

__________________________________________________________________________________________________

input_2 (InputLayer) (None, 256, 256, 3) 0

__________________________________________________________________________________________________

concatenate_1 (Concatenate) (None, 256, 256, 6) 0 input_1[0][0]

input_2[0][0]

__________________________________________________________________________________________________

conv2d_1 (Conv2D) (None, 128, 128, 64) 6208 concatenate_1[0][0]

__________________________________________________________________________________________________

leaky_re_lu_1 (LeakyReLU) (None, 128, 128, 64) 0 conv2d_1[0][0]

__________________________________________________________________________________________________

conv2d_2 (Conv2D) (None, 64, 64, 128) 131200 leaky_re_lu_1[0][0]

__________________________________________________________________________________________________

batch_normalization_1 (BatchNor (None, 64, 64, 128) 512 conv2d_2[0][0]

__________________________________________________________________________________________________

leaky_re_lu_2 (LeakyReLU) (None, 64, 64, 128) 0 batch_normalization_1[0][0]

__________________________________________________________________________________________________

conv2d_3 (Conv2D) (None, 32, 32, 256) 524544 leaky_re_lu_2[0][0]

__________________________________________________________________________________________________

batch_normalization_2 (BatchNor (None, 32, 32, 256) 1024 conv2d_3[0][0]

__________________________________________________________________________________________________

leaky_re_lu_3 (LeakyReLU) (None, 32, 32, 256) 0 batch_normalization_2[0][0]

__________________________________________________________________________________________________

conv2d_4 (Conv2D) (None, 16, 16, 512) 2097664 leaky_re_lu_3[0][0]

__________________________________________________________________________________________________

batch_normalization_3 (BatchNor (None, 16, 16, 512) 2048 conv2d_4[0][0]

__________________________________________________________________________________________________

leaky_re_lu_4 (LeakyReLU) (None, 16, 16, 512) 0 batch_normalization_3[0][0]

__________________________________________________________________________________________________

conv2d_5 (Conv2D) (None, 16, 16, 512) 4194816 leaky_re_lu_4[0][0]

__________________________________________________________________________________________________

batch_normalization_4 (BatchNor (None, 16, 16, 512) 2048 conv2d_5[0][0]

__________________________________________________________________________________________________

leaky_re_lu_5 (LeakyReLU) (None, 16, 16, 512) 0 batch_normalization_4[0][0]

__________________________________________________________________________________________________

conv2d_6 (Conv2D) (None, 16, 16, 1) 8193 leaky_re_lu_5[0][0]

__________________________________________________________________________________________________

activation_1 (Activation) (None, 16, 16, 1) 0 conv2d_6[0][0]

==================================================================================================

总参数：6,968,257

可训练参数：6,965,441

不可训练参数：2,816

__________________________________________________________________________________________________

模型图被创建，显示了许多相同的图形信息。模型并不复杂，它有一个线性的路径，有两个输入图像和一个输出预测。

注意：创建图表假设已安装 pydot 和 pygraphviz 库。如果存在问题，可以注释掉 `plot_model()` 函数的导入和调用。

Plot of the PatchGAN Model Used in the Pix2Pix GAN Architecture

Pix2Pix GAN 架构中使用的 PatchGAN 模型图

现在我们知道如何实现 PatchGAN 判别器模型，接下来我们可以研究实现 U-Net 生成器模型。

如何实现 U-Net 生成器模型

Pix2Pix GAN 的生成器模型实现为 U-Net。

U-Net 模型是一种用于图像翻译的编码器-解码器模型，其中使用跳跃连接将编码器中的层与解码器中具有相同大小特征图的相应层连接起来。

模型编码器部分由卷积层组成，使用 2×2 的步长将输入源图像下采样到瓶颈层。模型解码器部分读取瓶颈输出，并使用转置卷积层上采样到所需的输出图像大小。

……输入通过一系列逐渐下采样的层，直到到达瓶颈层，此时过程反转。

——《使用条件对抗网络进行图像到图像翻译》，2016年。

Architecture of the U-Net Generator Model

U-Net 生成器模型架构
摘自《条件对抗网络中的图像到图像翻译》。

在具有相同大小特征图的层之间添加了跳跃连接，因此第一个下采样层与最后一个上采样层连接，第二个下采样层与倒数第二个上采样层连接，依此类推。连接将下采样层中的特征图通道与上采样层中的特征图进行级联。

具体来说，我们在每层 i 和层 n-i 之间添加跳跃连接，其中 n 是总层数。每个跳跃连接仅将层 i 的所有通道与层 n-i 的通道进行级联。

——《使用条件对抗网络进行图像到图像翻译》，2016年。

与 GAN 架构中的传统生成器模型不同，U-Net 生成器不从潜在空间获取输入。相反，dropout 层被用作训练期间和模型用于进行预测（例如，在推理时生成图像）时的随机性来源。

同样，在训练和推理过程中，批量归一化（batch normalization）的使用方式也相同，这意味着为每个批次计算统计数据，而不是在训练过程结束时固定。这被称为实例归一化（instance normalization），尤其是在批次大小设置为1时，就像Pix2Pix模型那样。

在推理时，我们以与训练阶段完全相同的方式运行生成器网络。这与通常的协议不同之处在于，我们在测试时应用 dropout，并使用测试批次的统计数据来应用批量归一化，而不是聚合训练批次的统计数据。

——《使用条件对抗网络进行图像到图像翻译》，2016年。

在Keras中，像 Dropout 和 BatchNormalization 这样的层在训练和推理模型中操作方式不同。我们可以在调用这些层时将“training”参数设置为“True”，以确保它们即使在推理时也始终以训练模式运行。

例如，可以按如下方式将一个在推理和训练时都会进行 dropout 的 Dropout 层添加到模型中：

...
g = Dropout(0.5)(g, training=True)

1 2	... g = Dropout(0.5)(g, training=True)

与判别器模型一样，生成器模型的配置细节定义在论文附录中，并且在与官方Torch实现中的defineG_unet()函数进行比较时可以确认。

编码器使用类似判别器模型的卷积-批量归一化-LeakyReLU块，而解码器模型使用卷积-批量归一化-Dropout-ReLU块，dropout率为50%。所有卷积层都使用4x4的滤波器大小和2x2的步幅。

令Ck表示一个具有k个滤波器的卷积-批量归一化-ReLU层。CDk表示一个具有50% dropout率的卷积-批量归一化-Dropout-ReLU层。所有卷积都是4x4的空间滤波器，以步幅2应用。

——《使用条件对抗网络进行图像到图像翻译》，2016年。

U-Net模型的架构使用简写表示法定义为：

编码器: C64-C128-C256-C512-C512-C512-C512-C512
解码器: CD512-CD1024-CD1024-C1024-C1024-C512-C256-C128

编码器的最后一层是瓶颈层，根据论文的修正和代码中的确认，该层不使用批量归一化，而是使用 ReLU 激活而不是 LeakyRelu。

……瓶颈层的激活被批量归一化操作归零，有效地跳过了最内层。这个问题可以通过从该层移除批量归一化来修复，正如在公开代码中所做的那样。

——《使用条件对抗网络进行图像到图像翻译》，2016年。

U-Net解码器中的滤波器数量有点误导，因为它是与编码器中相应层连接后的滤波器的数量。当我们创建一个模型图时，这可能会更清楚。

模型的输出使用一个单一的卷积层，具有三个通道，并且在输出层使用tanh激活函数，这对于GAN生成器模型来说是常见的。编码器的第一层不使用批量归一化。

在解码器的最后一层之后，应用一个卷积来映射到输出通道的数量（通常是3 [...]），然后是一个Tanh函数 [...] 编码器的第一个C64层不应用BatchNorm。编码器中的所有ReLU都是 leaky 的，斜率为0.2，而解码器中的ReLU不是 leaky 的。

——《使用条件对抗网络进行图像到图像翻译》，2016年。

总而言之，我们可以定义一个名为define_generator()的函数，该函数定义了U-Net编码器-解码器生成器模型。还提供了两个辅助函数来定义编码器层块和解码器层块。

下面列出了定义模型的完整示例。

# example of defining a u-net encoder-decoder generator model
from keras.initializers import RandomNormal
from keras.models import Model
from keras.models import Input
from keras.layers import Conv2D
from keras.layers import Conv2DTranspose
from keras.layers import LeakyReLU
from keras.layers import Activation
from keras.layers import Concatenate
from keras.layers import Dropout
from keras.layers import BatchNormalization
from keras.layers import LeakyReLU
from keras.utils.vis_utils import plot_model

# define an encoder block
def define_encoder_block(layer_in, n_filters, batchnorm=True):
	# weight initialization
	init = RandomNormal(stddev=0.02)
	# add downsampling layer
	g = Conv2D(n_filters, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(layer_in)
	# conditionally add batch normalization
	if batchnorm:
		g = BatchNormalization()(g, training=True)
	# leaky relu activation
	g = LeakyReLU(alpha=0.2)(g)
	return g

# define a decoder block
def decoder_block(layer_in, skip_in, n_filters, dropout=True):
	# weight initialization
	init = RandomNormal(stddev=0.02)
	# add upsampling layer
	g = Conv2DTranspose(n_filters, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(layer_in)
	# add batch normalization
	g = BatchNormalization()(g, training=True)
	# conditionally add dropout
	if dropout:
		g = Dropout(0.5)(g, training=True)
	# merge with skip connection
	g = Concatenate()([g, skip_in])
	# relu activation
	g = Activation('relu')(g)
	return g

# define the standalone generator model
def define_generator(image_shape=(256,256,3)):
	# weight initialization
	init = RandomNormal(stddev=0.02)
	# image input
	in_image = Input(shape=image_shape)
	# encoder model: C64-C128-C256-C512-C512-C512-C512-C512
	e1 = define_encoder_block(in_image, 64, batchnorm=False)
	e2 = define_encoder_block(e1, 128)
	e3 = define_encoder_block(e2, 256)
	e4 = define_encoder_block(e3, 512)
	e5 = define_encoder_block(e4, 512)
	e6 = define_encoder_block(e5, 512)
	e7 = define_encoder_block(e6, 512)
	# bottleneck, no batch norm and relu
	b = Conv2D(512, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(e7)
	b = Activation('relu')(b)
	# decoder model: CD512-CD1024-CD1024-C1024-C1024-C512-C256-C128
	d1 = decoder_block(b, e7, 512)
	d2 = decoder_block(d1, e6, 512)
	d3 = decoder_block(d2, e5, 512)
	d4 = decoder_block(d3, e4, 512, dropout=False)
	d5 = decoder_block(d4, e3, 256, dropout=False)
	d6 = decoder_block(d5, e2, 128, dropout=False)
	d7 = decoder_block(d6, e1, 64, dropout=False)
	# output
	g = Conv2DTranspose(3, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(d7)
	out_image = Activation('tanh')(g)
	# define model
	model = Model(in_image, out_image)
	return model

# define image shape
image_shape = (256,256,3)
# create the model
model = define_generator(image_shape)
# summarize the model
model.summary()
# plot the model
plot_model(model, to_file='generator_model_plot.png', show_shapes=True, show_layer_names=True)

# 定义一个U-Net编码器-解码器生成器模型的示例

from keras.initializers import RandomNormal

from keras.models import Model

from keras.models import Input

从 keras.layers 导入 Conv2D

from keras.layers import Conv2DTranspose

from keras.layers import LeakyReLU

from keras.layers import Activation

from keras.layers import Concatenate

从 keras.layers 导入 Dropout

从 keras.层导入 BatchNormalization

from keras.layers import LeakyReLU

from keras.utils.vis_utils import plot_model

# 定义一个编码器块

def define_encoder_block(layer_in, n_filters, batchnorm=True):

# 权重初始化

init = RandomNormal(stddev=0.02)

# 添加下采样层

g = Conv2D(n_filters, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(layer_in)

# 有条件地添加批量归一化

if batchnorm:

g = BatchNormalization()(g, training=True)

# leaky relu 激活

g = LeakyReLU(alpha=0.2)(g)

return g

# 定义一个解码器块

def decoder_block(layer_in, skip_in, n_filters, dropout=True):

# 权重初始化

init = RandomNormal(stddev=0.02)

# 添加上采样层

g = Conv2DTranspose(n_filters, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(layer_in)

# 添加批量归一化

g = BatchNormalization()(g, training=True)

# 有条件地添加 dropout

if dropout:

g = Dropout(0.5)(g, training=True)

# 与跳跃连接合并

g = Concatenate()([g, skip_in])

# relu 激活

g = Activation('relu')(g)

return g

# 定义独立的生成器模型

def define_generator(image_shape=(256,256,3)):

# 权重初始化

init = RandomNormal(stddev=0.02)

# 图像输入

in_image = Input(shape=image_shape)

# 编码器模型：C64-C128-C256-C512-C512-C512-C512-C512

e1 = define_encoder_block(in_image, 64, batchnorm=False)

e2 = define_encoder_block(e1, 128)

e3 = define_encoder_block(e2, 256)

e4 = define_encoder_block(e3, 512)

e5 = define_encoder_block(e4, 512)

e6 = define_encoder_block(e5, 512)

e7 = define_encoder_block(e6, 512)

# 瓶颈层，无批量归一化和 relu

b = Conv2D(512, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(e7)

b = Activation('relu')(b)

# 解码器模型：CD512-CD1024-CD1024-C1024-C1024-C512-C256-C128

d1 = decoder_block(b, e7, 512)

d2 = decoder_block(d1, e6, 512)

d3 = decoder_block(d2, e5, 512)

d4 = decoder_block(d3, e4, 512, dropout=False)

d5 = decoder_block(d4, e3, 256, dropout=False)

d6 = decoder_block(d5, e2, 128, dropout=False)

d7 = decoder_block(d6, e1, 64, dropout=False)

# 输出

g = Conv2DTranspose(3, (4,4), strides=(2,2), padding='same', kernel_initializer=init)(d7)

out_image = Activation('tanh')(g)

# 定义模型

model = Model(in_image, out_image)

return model

# 定义图像形状

image_shape = (256,256,3)

# 创建模型

model = define_generator(image_shape)

# 总结模型

model.summary()

# 绘制模型

plot_model(model, to_file='generator_model_plot.png', show_shapes=True, show_layer_names=True)

运行示例首先总结了模型。

该模型有一个输入和一个输出，但跳跃连接使得摘要难以阅读。

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to
==================================================================================================
input_1 (InputLayer)            (None, 256, 256, 3)  0
__________________________________________________________________________________________________
conv2d_1 (Conv2D)               (None, 128, 128, 64) 3136        input_1[0][0]
__________________________________________________________________________________________________
leaky_re_lu_1 (LeakyReLU)       (None, 128, 128, 64) 0           conv2d_1[0][0]
__________________________________________________________________________________________________
conv2d_2 (Conv2D)               (None, 64, 64, 128)  131200      leaky_re_lu_1[0][0]
__________________________________________________________________________________________________
batch_normalization_1 (BatchNor (None, 64, 64, 128)  512         conv2d_2[0][0]
__________________________________________________________________________________________________
leaky_re_lu_2 (LeakyReLU)       (None, 64, 64, 128)  0           batch_normalization_1[0][0]
__________________________________________________________________________________________________
conv2d_3 (Conv2D)               (None, 32, 32, 256)  524544      leaky_re_lu_2[0][0]
__________________________________________________________________________________________________
batch_normalization_2 (BatchNor (None, 32, 32, 256)  1024        conv2d_3[0][0]
__________________________________________________________________________________________________
leaky_re_lu_3 (LeakyReLU)       (None, 32, 32, 256)  0           batch_normalization_2[0][0]
__________________________________________________________________________________________________
conv2d_4 (Conv2D)               (None, 16, 16, 512)  2097664     leaky_re_lu_3[0][0]
__________________________________________________________________________________________________
batch_normalization_3 (BatchNor (None, 16, 16, 512)  2048        conv2d_4[0][0]
__________________________________________________________________________________________________
leaky_re_lu_4 (LeakyReLU)       (None, 16, 16, 512)  0           batch_normalization_3[0][0]
__________________________________________________________________________________________________
conv2d_5 (Conv2D)               (None, 8, 8, 512)    4194816     leaky_re_lu_4[0][0]
__________________________________________________________________________________________________
batch_normalization_4 (BatchNor (None, 8, 8, 512)    2048        conv2d_5[0][0]
__________________________________________________________________________________________________
leaky_re_lu_5 (LeakyReLU)       (None, 8, 8, 512)    0           batch_normalization_4[0][0]
__________________________________________________________________________________________________
conv2d_6 (Conv2D)               (None, 4, 4, 512)    4194816     leaky_re_lu_5[0][0]
__________________________________________________________________________________________________
batch_normalization_5 (BatchNor (None, 4, 4, 512)    2048        conv2d_6[0][0]
__________________________________________________________________________________________________
leaky_re_lu_6 (LeakyReLU)       (None, 4, 4, 512)    0           batch_normalization_5[0][0]
__________________________________________________________________________________________________
conv2d_7 (Conv2D)               (None, 2, 2, 512)    4194816     leaky_re_lu_6[0][0]
__________________________________________________________________________________________________
batch_normalization_6 (BatchNor (None, 2, 2, 512)    2048        conv2d_7[0][0]
__________________________________________________________________________________________________
leaky_re_lu_7 (LeakyReLU)       (None, 2, 2, 512)    0           batch_normalization_6[0][0]
__________________________________________________________________________________________________
conv2d_8 (Conv2D)               (None, 1, 1, 512)    4194816     leaky_re_lu_7[0][0]
__________________________________________________________________________________________________
activation_1 (Activation)       (None, 1, 1, 512)    0           conv2d_8[0][0]
__________________________________________________________________________________________________
conv2d_transpose_1 (Conv2DTrans (None, 2, 2, 512)    4194816     activation_1[0][0]
__________________________________________________________________________________________________
batch_normalization_7 (BatchNor (None, 2, 2, 512)    2048        conv2d_transpose_1[0][0]
__________________________________________________________________________________________________
dropout_1 (Dropout)             (None, 2, 2, 512)    0           batch_normalization_7[0][0]
__________________________________________________________________________________________________
concatenate_1 (Concatenate)     (None, 2, 2, 1024)   0           dropout_1[0][0]
                                                                 leaky_re_lu_7[0][0]
__________________________________________________________________________________________________
activation_2 (Activation)       (None, 2, 2, 1024)   0           concatenate_1[0][0]
__________________________________________________________________________________________________
conv2d_transpose_2 (Conv2DTrans (None, 4, 4, 512)    8389120     activation_2[0][0]
__________________________________________________________________________________________________
batch_normalization_8 (BatchNor (None, 4, 4, 512)    2048        conv2d_transpose_2[0][0]
__________________________________________________________________________________________________
dropout_2 (Dropout)             (None, 4, 4, 512)    0           batch_normalization_8[0][0]
__________________________________________________________________________________________________
concatenate_2 (Concatenate)     (None, 4, 4, 1024)   0           dropout_2[0][0]
                                                                 leaky_re_lu_6[0][0]
__________________________________________________________________________________________________
activation_3 (Activation)       (None, 4, 4, 1024)   0           concatenate_2[0][0]
__________________________________________________________________________________________________
conv2d_transpose_3 (Conv2DTrans (None, 8, 8, 512)    8389120     activation_3[0][0]
__________________________________________________________________________________________________
batch_normalization_9 (BatchNor (None, 8, 8, 512)    2048        conv2d_transpose_3[0][0]
__________________________________________________________________________________________________
dropout_3 (Dropout)             (None, 8, 8, 512)    0           batch_normalization_9[0][0]
__________________________________________________________________________________________________
concatenate_3 (Concatenate)     (None, 8, 8, 1024)   0           dropout_3[0][0]
                                                                 leaky_re_lu_5[0][0]
__________________________________________________________________________________________________
activation_4 (Activation)       (None, 8, 8, 1024)   0           concatenate_3[0][0]
__________________________________________________________________________________________________
conv2d_transpose_4 (Conv2DTrans (None, 16, 16, 512)  8389120     activation_4[0][0]
__________________________________________________________________________________________________
batch_normalization_10 (BatchNo (None, 16, 16, 512)  2048        conv2d_transpose_4[0][0]
__________________________________________________________________________________________________
concatenate_4 (Concatenate)     (None, 16, 16, 1024) 0           batch_normalization_10[0][0]
                                                                 leaky_re_lu_4[0][0]
__________________________________________________________________________________________________
activation_5 (Activation)       (None, 16, 16, 1024) 0           concatenate_4[0][0]
__________________________________________________________________________________________________
conv2d_transpose_5 (Conv2DTrans (None, 32, 32, 256)  4194560     activation_5[0][0]
__________________________________________________________________________________________________
batch_normalization_11 (BatchNo (None, 32, 32, 256)  1024        conv2d_transpose_5[0][0]
__________________________________________________________________________________________________
concatenate_5 (Concatenate)     (None, 32, 32, 512)  0           batch_normalization_11[0][0]
                                                                 leaky_re_lu_3[0][0]
__________________________________________________________________________________________________
activation_6 (Activation)       (None, 32, 32, 512)  0           concatenate_5[0][0]
__________________________________________________________________________________________________
conv2d_transpose_6 (Conv2DTrans (None, 64, 64, 128)  1048704     activation_6[0][0]
__________________________________________________________________________________________________
batch_normalization_12 (BatchNo (None, 64, 64, 128)  512         conv2d_transpose_6[0][0]
__________________________________________________________________________________________________
concatenate_6 (Concatenate)     (None, 64, 64, 256)  0           batch_normalization_12[0][0]
                                                                 leaky_re_lu_2[0][0]
__________________________________________________________________________________________________
activation_7 (Activation)       (None, 64, 64, 256)  0           concatenate_6[0][0]
__________________________________________________________________________________________________
conv2d_transpose_7 (Conv2DTrans (None, 128, 128, 64) 262208      activation_7[0][0]
__________________________________________________________________________________________________
batch_normalization_13 (BatchNo (None, 128, 128, 64) 256         conv2d_transpose_7[0][0]
__________________________________________________________________________________________________
concatenate_7 (Concatenate)     (None, 128, 128, 128 0           batch_normalization_13[0][0]
                                                                 leaky_re_lu_1[0][0]
__________________________________________________________________________________________________
activation_8 (Activation)       (None, 128, 128, 128 0           concatenate_7[0][0]
__________________________________________________________________________________________________
conv2d_transpose_8 (Conv2DTrans (None, 256, 256, 3)  6147        activation_8[0][0]
__________________________________________________________________________________________________
activation_9 (Activation)       (None, 256, 256, 3)  0           conv2d_transpose_8[0][0]
==================================================================================================
Total params: 54,429,315
Trainable params: 54,419,459
Non-trainable params: 9,856
__________________________________________________________________________________________________

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

__________________________________________________________________________________________________

层（类型）输出形状参数 # 连接到

==================================================================================================

input_1 (InputLayer) (None, 256, 256, 3) 0

__________________________________________________________________________________________________

conv2d_1 (Conv2D) (None, 128, 128, 64) 3136 input_1[0][0]