如何为深度学习选择激活函数

作者： Jason Brownlee 于 2021年1月22日发表在深度学习 75

激活函数是神经网络设计中至关重要的组成部分。

隐藏层中激活函数的选择将决定网络模型学习训练数据的效果。输出层中激活函数的选择将定义模型可以进行的预测的类型。

因此，对于每个深度学习神经网络项目，都必须仔细选择激活函数。

在本教程中，您将学习如何为神经网络模型选择激活函数。

完成本教程后，您将了解：

激活函数是神经网络设计的重要组成部分。
隐藏层的现代默认激活函数是ReLU函数。
输出层的激活函数取决于预测问题的类型。

让我们开始吧。

How to Choose an Activation Function for Deep Learning

如何为深度学习选择激活函数
照片作者：Peter Dowley，部分权利保留。

教程概述

本教程分为三个部分；它们是：

激活函数
隐藏层的激活
输出层的激活

激活函数

神经网络中的激活函数定义了输入的加权和如何转换为网络层中节点或节点的输出。

有时激活函数被称为“传递函数”。如果激活函数的输出范围受限，则可能被称为“压缩函数”。许多激活函数是非线性的，可能被称为层或网络设计中的“非线性”。

激活函数的选择对神经网络的能力和性能有很大影响，并且模型的不同部分可以使用不同的激活函数。

从技术上讲，激活函数在网络中每个节点的内部处理过程中或之后使用，尽管网络被设计为在层中的所有节点使用相同的激活函数。

网络可以有三种类型的层：输入层，用于接收来自域的原始输入；隐藏层，用于接收来自另一层的输入并传递输出到另一层；以及输出层，用于进行预测。

所有隐藏层通常使用相同的激活函数。输出层通常使用与隐藏层不同的激活函数，具体取决于模型所需的预测类型。

激活函数通常也是可微的，这意味着可以计算给定输入值的导数。这是必需的，因为神经网络通常使用误差反向传播算法进行训练，该算法需要预测误差的导数才能更新模型权重。

神经网络中有许多不同类型的激活函数，尽管在实践中用于隐藏层和输出层的函数可能只有少数几种。

让我们依次看看用于每种类型层的激活函数。

隐藏层的激活

神经网络中的隐藏层是接收来自另一层（例如另一隐藏层或输入层）的输入并向另一层（例如另一隐藏层或输出层）提供输出的层。

隐藏层不直接接触输入数据，也不直接产生模型的输出，至少在一般情况下是这样。

神经网络可以有零个或多个隐藏层。

通常，神经网络的隐藏层使用可微的非线性激活函数。这使得模型能够学习比使用线性激活函数训练的网络更复杂的函数。

为了获得对更丰富的假设空间（将受益于深度表示）的访问，您需要一个非线性函数，即激活函数。

—— 第72页，《深度学习与 Python》，2017。

您可能需要考虑用于隐藏层的激活函数有大约三种；它们是：

修正线性激活（ReLU）
Logistic（Sigmoid）
双曲正切（Tanh）

这不是隐藏层激活函数的详尽列表，但它们是最常用的。

让我们依次仔细看看每一个。

ReLU隐藏层激活函数

修正线性激活函数，或称ReLU激活函数，可能是隐藏层中最常用的函数。

它之所以常用，是因为它既易于实现，又能有效克服Sigmoid和Tanh等先前流行激活函数的局限性。具体来说，它不太容易出现梯度消失，这会阻碍深度模型的训练，尽管它可能面临饱和或“死亡”单元等其他问题。

ReLU函数计算如下：

max(0.0, x)

这意味着如果输入值（x）为负，则返回0.0，否则返回x值。

您可以在此教程中了解有关ReLU激活函数的更多详细信息。

ReLU（修正线性单元）简介

我们可以通过下面的示例来直观地了解此函数的形状。

# example plot for the relu activation function
from matplotlib import pyplot

# rectified linear function
def rectified(x):
	return max(0.0, x)

# define input data
inputs = [x for x in range(-10, 10)]
# calculate outputs
outputs = [rectified(x) for x in inputs]
# plot inputs vs outputs
pyplot.plot(inputs, outputs)
pyplot.show()

# rectfied linear activation function 的示例图

from matplotlib import pyplot

# 修正线性函数

def rectified(x):

return max(0.0, x)

# 定义输入数据

inputs = [x for x in range(-10, 10)]

# 计算输出

outputs = [rectified(x) for x in inputs]

# 绘制输入与输出

pyplot.plot(inputs, outputs)

pyplot.show()

运行示例将计算一系列值的输出，并绘制输入与输出的图。

我们可以看到ReLU激活函数熟悉的折线形状。

Plot of Inputs vs. Outputs for the ReLU Activation Function.

ReLU激活函数的输入与输出图。

在使用ReLU函数作为隐藏层时，建议使用“He Normal”或“He Uniform”权重初始化，并在训练前将输入数据缩放到0-1范围（标准化）。

Sigmoid隐藏层激活函数

Sigmoid激活函数也称为logistic函数。

它与logistic回归分类算法中使用的函数相同。

该函数接受任何实数值作为输入，并输出0到1范围内的值。输入越大（越正），输出值越接近1.0；输入越小（越负），输出值越接近0.0。

Sigmoid激活函数计算如下：

1.0 / (1.0 + e^-x)

其中 e是数学常数，即自然对数的底数。

我们可以通过下面的示例来直观地了解此函数的形状。

# example plot for the sigmoid activation function
from math import exp
from matplotlib import pyplot

# sigmoid activation function
def sigmoid(x):
	return 1.0 / (1.0 + exp(-x))

# define input data
inputs = [x for x in range(-10, 10)]
# calculate outputs
outputs = [sigmoid(x) for x in inputs]
# plot inputs vs outputs
pyplot.plot(inputs, outputs)
pyplot.show()

# sigmoid 激活函数的示例图

from math import exp

from matplotlib import pyplot

# sigmoid 激活函数

def sigmoid(x):

return 1.0 / (1.0 + exp(-x))

# 定义输入数据

inputs = [x for x in range(-10, 10)]

# 计算输出

outputs = [sigmoid(x) for x in inputs]

# 绘制输入与输出

pyplot.plot(inputs, outputs)

pyplot.show()

运行示例将计算一系列值的输出，并绘制输入与输出的图。

我们可以看到sigmoid激活函数熟悉的S形。

Plot of Inputs vs. Outputs for the Sigmoid Activation Function.

Sigmoid激活函数的输入与输出图。

当使用Sigmoid函数作为隐藏层时，建议使用“Xavier Normal”或“Xavier Uniform”权重初始化（也称为Glorot初始化，以Xavier Glorot命名），并在训练前将输入数据缩放到0-1范围（例如，激活函数的范围）。

Tanh隐藏层激活函数

双曲正切激活函数也简称为Tanh（也称为“tanh”和“TanH”）函数。

它与sigmoid激活函数非常相似，甚至具有相同的S形。

该函数接受任何实数值作为输入，并输出-1到1范围内的值。输入越大（越正），输出值越接近1.0；输入越小（越负），输出值越接近-1.0。

Tanh激活函数计算如下：

(e^x – e^-x) / (e^x + e^-x)

其中 e是数学常数，即自然对数的底数。

我们可以通过下面的示例来直观地了解此函数的形状。

# example plot for the tanh activation function
from math import exp
from matplotlib import pyplot

# tanh activation function
def tanh(x):
	return (exp(x) - exp(-x)) / (exp(x) + exp(-x))

# define input data
inputs = [x for x in range(-10, 10)]
# calculate outputs
outputs = [tanh(x) for x in inputs]
# plot inputs vs outputs
pyplot.plot(inputs, outputs)
pyplot.show()

# tanh 激活函数的示例图

from math import exp

from matplotlib import pyplot

# tanh 激活函数

def tanh(x):

return (exp(x) - exp(-x)) / (exp(x) + exp(-x))

# 定义输入数据

inputs = [x for x in range(-10, 10)]

# 计算输出

outputs = [tanh(x) for x in inputs]

# 绘制输入与输出

pyplot.plot(inputs, outputs)

pyplot.show()

运行示例将计算一系列值的输出，并绘制输入与输出的图。

我们可以看到Tanh激活函数熟悉的S形。

Plot of Inputs vs. Outputs for the Tanh Activation Function.

Tanh激活函数的输入与输出图。

当使用TanH函数作为隐藏层时，建议使用“Xavier Normal”或“Xavier Uniform”权重初始化（也称为Glorot初始化，以Xavier Glorot命名），并在训练前将输入数据缩放到-1到1范围（例如，激活函数的范围）。

如何选择隐藏层激活函数

神经网络几乎总是在所有隐藏层中使用相同的激活函数。

在模型中改变激活函数非常罕见。

传统上，sigmoid激活函数是20世纪90年代的默认激活函数。大约在90年代中期到2010年代，Tanh函数是隐藏层的默认激活函数。

……双曲正切激活函数通常比logistic sigmoid表现更好。

—— 第195页，《深度学习》，2016。

Sigmoid和Tanh函数都可能导致模型在训练期间更容易出现问题，即所谓的梯度消失问题。

您可以在此教程中了解此问题的更多信息。

ReLU（修正线性单元）简介

隐藏层使用的激活函数通常根据神经网络架构的类型来选择。

现代神经网络模型，如MLP和CNN，将使用ReLU激活函数或其扩展。

在现代神经网络中，默认建议使用修正线性单元或ReLU……

—— 第174页，《深度学习》，2016。

循环网络仍常用Tanh或sigmoid激活函数，甚至两者都用。例如，LSTM常用的Sigmoid激活用于循环连接，Tanh激活用于输出。

多层感知机（MLP）：ReLU激活函数。
卷积神经网络（CNN）：ReLU激活函数。
循环神经网络：Tanh和/或Sigmoid激活函数。

如果您不确定为网络选择哪种激活函数，请尝试几种并比较结果。

下图总结了如何为神经网络模型的隐藏层选择激活函数。

How to Choose a Hidden Layer Activation Function

如何选择隐藏层激活函数

输出层的激活

输出层是神经网络模型中直接输出预测的层。

所有前馈神经网络模型都有一个输出层。

您可能需要考虑用于输出层的激活函数有大约三种；它们是：

线性
Logistic（Sigmoid）
Softmax

这不是输出层激活函数的详尽列表，但它们是最常用的。

让我们依次仔细看看每一个。

线性输出激活函数

线性激活函数也称为“恒等”（乘以1.0）或“无激活”。

这是因为线性激活函数不会以任何方式改变输入的加权和，而是直接返回该值。

我们可以通过下面的示例来直观地了解此函数的形状。

# example plot for the linear activation function
from matplotlib import pyplot

# linear activation function
def linear(x):
	return x

# define input data
inputs = [x for x in range(-10, 10)]
# calculate outputs
outputs = [linear(x) for x in inputs]
# plot inputs vs outputs
pyplot.plot(inputs, outputs)
pyplot.show()

# 线性激活函数的示例图

from matplotlib import pyplot

# 线性激活函数

def linear(x):

返回 x

# 定义输入数据

inputs = [x for x in range(-10, 10)]

# 计算输出

outputs = [linear(x) for x in inputs]

# 绘制输入与输出

pyplot.plot(inputs, outputs)

pyplot.show()

运行示例将计算一系列值的输出，并绘制输入与输出的图。

我们可以看到一条对角线形状，其中输入与相同的输出绘制在一起。

Plot of Inputs vs. Outputs for the Linear Activation Function

线性激活函数的输入与输出图。

用于使用输出层中的线性激活函数训练模型的目标值通常在建模之前使用标准化或归一化转换进行缩放。

Sigmoid输出激活函数

Sigmoid或logistic激活函数已在上一节中介绍。

尽管如此，为了增加一些对称性，我们可以通过下面的示例回顾此函数的形状。

# example plot for the sigmoid activation function
from math import exp
from matplotlib import pyplot

# sigmoid activation function
def sigmoid(x):
	return 1.0 / (1.0 + exp(-x))

# define input data
inputs = [x for x in range(-10, 10)]
# calculate outputs
outputs = [sigmoid(x) for x in inputs]
# plot inputs vs outputs
pyplot.plot(inputs, outputs)
pyplot.show()

# sigmoid 激活函数的示例图

from math import exp

from matplotlib import pyplot

# sigmoid 激活函数

def sigmoid(x):

return 1.0 / (1.0 + exp(-x))

# 定义输入数据

inputs = [x for x in range(-10, 10)]

# 计算输出

outputs = [sigmoid(x) for x in inputs]

# 绘制输入与输出

pyplot.plot(inputs, outputs)

pyplot.show()

运行示例将计算一系列值的输出，并绘制输入与输出的图。

我们可以看到sigmoid激活函数熟悉的S形。

Sigmoid激活函数的输入与输出图。

用于使用输出层中的sigmoid激活函数训练模型的目标标签将具有0或1的值。

Softmax输出激活函数

softmax函数输出一个总和为1.0的值向量，该向量可以解释为类别成员的概率。

它与argmax函数相关，argmax函数为所有选项输出0，为选定选项输出1。Softmax是argmax的“更柔和”版本，它允许类似概率的赢者通吃函数输出。

因此，函数的输入是一个实值向量，输出是相同长度的向量，其值像概率一样总和为1.0。

softmax函数计算如下：

e^x / sum(e^x)

其中*x*是输出向量，e是数学常数，即自然对数的底数。

您可以在此教程中了解有关Softmax函数更多详细信息。

使用 Python 的 Softmax 激活函数

我们无法绘制softmax函数，但我们可以举例说明如何在Python中计算它。

from numpy import exp

# softmax activation function
def softmax(x):
	return exp(x) / exp(x).sum()

# define input data
inputs = [1.0, 3.0, 2.0]
# calculate outputs
outputs = softmax(inputs)
# report the probabilities
print(outputs)
# report the sum of the probabilities
print(outputs.sum())

from numpy import exp

# softmax 激活函数

def softmax(x):

return exp(x) / exp(x).sum()

# 定义输入数据

inputs = [1.0, 3.0, 2.0]

# 计算输出

outputs = softmax(inputs)

# 报告概率

print(outputs)

# 报告概率总和

print(outputs.sum())

运行示例将计算输入向量的softmax输出。

然后我们确认softmax输出的总和确实等于1.0。

[0.09003057 0.66524096 0.24472847]
1.0

1 2	[0.09003057 0.66524096 0.24472847] 1.0

用于使用输出层中的softmax激活函数训练模型的标签将是目标类别为1，所有其他类别为0的向量。

如何选择输出激活函数

您必须根据要解决的预测问题的类型来选择输出层的激活函数。

具体来说，就是要预测的变量的类型。

例如，您可以将预测问题分为两大类：预测分类变量（分类）和预测数值变量（回归）。

如果您的问题是回归问题，则应使用线性激活函数。

回归：一个节点，线性激活。

如果您的问题是分类问题，那么有三种主要的分类问题类型，每种可能使用不同的激活函数。

预测概率不是回归问题；它是分类。在所有分类情况下，您的模型将预测类别成员的概率（例如，示例属于每个类别的概率），您可以通过四舍五入（对于sigmoid）或argmax（对于softmax）将其转换为清晰的类别标签。

如果存在两个互斥的类别（二元分类），则输出层将有一个节点，应使用sigmoid激活函数。如果存在两个以上互斥的类别（多类分类），则输出层将有每个类一个节点，并应使用softmax激活。如果存在两个或多个互不包含的类别（多标签分类），则输出层将有每个类别一个节点，并使用sigmoid激活函数。

二元分类：一个节点，sigmoid激活。
多类分类：每个类别一个节点，softmax激活。
多标签分类：每个类别一个节点，sigmoid激活。

下图总结了如何为神经网络模型的输出层选择激活函数。

How to Choose an Output Layer Activation Function

如何选择输出层激活函数

进一步阅读

如果您想深入了解，本节提供了更多关于该主题的资源。

教程

书籍

文章

激活函数，维基百科.

总结

在本教程中，您了解了如何为神经网络模型选择激活函数。

具体来说，你学到了：

激活函数是神经网络设计的重要组成部分。
隐藏层的现代默认激活函数是ReLU函数。
输出层的激活函数取决于预测问题的类型。

你有什么问题吗？
在下面的评论中提出你的问题，我会尽力回答。

关于此主题的更多信息

Python中函数优化的可视化

机器学习的回归指标