ReLU（修正线性单元）简介

作者 Jason Brownlee 于 2020年8月20日发布在深度学习性能 81

在神经网络中，激活函数负责将节点加权输入的总和转换为节点的激活值或该输入的输出。

ReLU（Rectified Linear Unit），简称为ReLU，是一种分段线性函数，当输入为正时，直接输出输入值；否则，输出零。它已成为许多类型神经网络的默认激活函数，因为使用它的模型更容易训练，并且通常能获得更好的性能。

在本教程中，您将了解用于深度学习神经网络的ReLU激活函数。

完成本教程后，您将了解：

由于梯度消失问题，Sigmoid和双曲正切激活函数无法用于具有许多层的网络。
ReLU激活函数解决了梯度消失问题，使模型能够更快地学习并获得更好的性能。
在开发多层感知机和卷积神经网络时，ReLU激活函数是默认的。

用我的新书《更好的深度学习》来启动你的项目，书中包含分步教程和所有示例的 Python 源代码文件。

让我们开始吧。

2019年6月：修正了He权重初始化公式中的错误（感谢Maltev）。

A Gentle Introduction to the Rectified Linear Activation Function for Deep Learning Neural Networks

ReLU激活函数在深度学习神经网络中的入门介绍
照片由美国土地管理局拍摄，部分权利保留。

教程概述

本教程分为六个部分；它们是：

Sigmoid和Tanh激活函数的局限性
ReLU激活函数
如何实现ReLU激活函数
ReLU激活函数的优点
使用ReLU的技巧
ReLU的扩展和替代方案

Sigmoid和Tanh激活函数的局限性

神经网络由节点层组成，并学习将输入示例映射到输出。

对于给定节点，输入乘以节点中的权重并求和。此值称为节点的加权激活。然后，加权激活通过激活函数进行转换，从而定义节点的特定输出或“激活”。

最简单的激活函数称为线性激活，根本不进行任何转换。仅由线性激活函数组成的网络易于训练，但无法学习复杂的映射函数。在线性模型中，预测量（例如回归问题）的输出层仍然使用线性激活函数。

非线性激活函数更受欢迎，因为它们允许节点学习数据中更复杂的结构。传统上，两个广泛使用的非线性激活函数是Sigmoid和双曲正切激活函数。

Sigmoid激活函数，也称为Logistic函数，传统上是神经网络中非常流行的激活函数。函数输入被转换为0.0到1.0之间的值。大于1.0的输入被转换为1.0，类似地，小于0.0的值被“压缩”到0.0。函数对于所有可能输入的形状是从零到0.5再到1.0的S形。在很长一段时间里，直到20世纪90年代初，它一直是神经网络默认使用的激活函数。

双曲正切函数，简称tanh，是一个形状相似的非线性激活函数，其输出值在-1.0和1.0之间。在20世纪90年代后期和21世纪初，tanh函数比Sigmoid激活函数更受欢迎，因为使用它的模型更容易训练，并且通常具有更好的预测性能。

……双曲正切激活函数通常比Logistic Sigmoid表现更好。

— 第195页，《深度学习》，2016年。

Sigmoid和tanh函数的一个普遍问题是它们会饱和。这意味着大值会被压缩到1.0，而小值会被压缩到tanh和sigmoid各自的-1或0。此外，这些函数仅在输入的中点附近（例如sigmoid的0.5和tanh的0.0）才真正对变化敏感。

无论节点提供的加权激活输入是否包含有用信息，函数的有限敏感性和饱和度都会发生。一旦饱和，学习算法就很难继续调整权重来提高模型的性能。

……Sigmoid单元在其大部分定义域内都会饱和——当z非常正时它们饱和到高值，当z非常负时它们饱和到低值，并且仅当z接近0时它们对输入才敏感。

— 第195页，《深度学习》，2016年。

最后，随着硬件能力的提高，通过GPU使用深度神经网络，使用Sigmoid和tanh激活函数很难进行训练。

在大型网络中，具有这些非线性激活函数的深层层无法接收到有用的梯度信息。误差通过网络反向传播并用于更新权重。给定所选激活函数的导数，误差量随着反向传播的每一层而急剧减少。这被称为梯度消失问题，它阻碍了深度（多层）网络有效地学习。

梯度消失使得很难知道参数应该向哪个方向移动以改进成本函数。

— 第290页，《深度学习》，2016年。

有关ReLU如何解决梯度消失问题的示例，请参阅教程

如何使用ReLU激活函数解决梯度消失问题

尽管使用非线性激活函数允许神经网络学习复杂的映射函数，但它们有效地阻止了学习算法与深度网络协同工作。

在2000年代末和2010年代初，通过使用替代网络类型，例如Boltzmann机和逐层训练或无监督预训练，找到了解决方法。

想要通过深度学习获得更好的结果吗？

立即参加我为期7天的免费电子邮件速成课程（附示例代码）。

点击注册，同时获得该课程的免费PDF电子书版本。

ReLU激活函数

为了使用随机梯度下降与误差反向传播来训练深度神经网络，需要一种激活函数，该函数看起来和行为都像线性函数，但实际上是非线性函数，允许学习数据中的复杂关系。

该函数还必须对加权激活输入提供更多的敏感性，并避免容易饱和。

这个解决方案在该领域已经存在了一段时间，尽管直到2009年和2011年的论文才引起人们的关注。

解决方案是使用ReLU（Rectified Linear Unit）激活函数，简称ReLU。

实现此激活函数的节点或单元称为ReLU激活单元，简称ReLU。通常，使用ReLU函数作为隐藏层激活函数的网络被称为ReLU网络。

ReLU的应用很容易被认为是深度学习革命的里程碑之一，例如，它使得常规开发非常深的神经网络成为可能的技术。

[另一个]主要的算法变革极大地提高了前馈网络的性能，就是用分段线性隐藏单元（如ReLU）替换Sigmoid隐藏单元。

— 第226页，《深度学习》，2016年。

ReLU激活函数是一个简单的计算，它直接返回输入的数值，或者如果输入为0.0或更小，则返回0.0。

我们可以用一个简单的if语句来描述这个函数：

if input > 0:
	return input
else:
	return 0

if input > 0

return input

else

return 0

我们可以用max()函数来数学上描述这个函数g()，它计算0.0和输入z集合中的最大值；例如：

g(z) = max{0, z}

1	g(z) = max{0, z}

该函数对于大于零的值是线性的，这意味着它具有线性激活函数的许多理想特性，当使用反向传播训练神经网络时。然而，它是一个非线性函数，因为负值总是输出为零。

由于ReLU单元接近线性，它们保留了许多使线性模型易于通过基于梯度的方法进行优化的属性。它们也保留了许多使线性模型泛化良好的属性。

— 第175页，《深度学习》，2016年。

由于ReLU函数在一半输入域上是线性的，另一半是非线性的，因此它被称为分段线性函数或铰链函数。

然而，该函数在某种意义上仍然非常接近线性，因为它是一个具有两个线性部分的分段线性函数。

— 第175页，《深度学习》，2016年。

现在我们熟悉了ReLU激活函数，让我们看看如何在Python中实现它。

如何编写ReLU激活函数

我们可以在Python中轻松实现ReLU激活函数。

也许最简单的实现就是使用max()函数；例如：

# rectified linear function
def rectified(x):
	return max(0.0, x)

# ReLU函数

def rectified(x):

return max(0.0, x)

我们期望任何正值都会被原样返回，而输入值为0.0或负值将被返回为0.0。

以下是一些ReLU激活函数的输入和输出示例。

# demonstrate the rectified linear function

# rectified linear function
def rectified(x):
	return max(0.0, x)

# demonstrate with a positive input
x = 1.0
print('rectified(%.1f) is %.1f' % (x, rectified(x)))
x = 1000.0
print('rectified(%.1f) is %.1f' % (x, rectified(x)))
# demonstrate with a zero input
x = 0.0
print('rectified(%.1f) is %.1f' % (x, rectified(x)))
# demonstrate with a negative input
x = -1.0
print('rectified(%.1f) is %.1f' % (x, rectified(x)))
x = -1000.0
print('rectified(%.1f) is %.1f' % (x, rectified(x)))

# 演示ReLU函数

# ReLU函数

def rectified(x):

return max(0.0, x)

# 用正输入演示

x = 1.0