雅可比矩阵简明介绍

作者： Stefania Cristina 于 2022年6月4日发布于微积分 25条评论

在文献中，术语“雅可比（Jacobian）”常被互换地用来指代雅可比矩阵或其行列式。

矩阵和行列式都有有用且重要的应用：在机器学习中，雅可比矩阵聚合了反向传播所需的偏导数；行列式在变量变换过程中非常有用。

在本教程中，您将回顾雅可比（Jacobian）的温和介绍。

完成本教程后，您将了解：

雅可比矩阵收集了多元函数的所有一阶偏导数，可用于反向传播。
雅可比行列式在变量变换中很有用，它充当一个坐标空间与另一个坐标空间之间的缩放因子。

让我们开始吧。

雅可比矩阵简明介绍
图片来源 Simon Berger，保留部分权利。

教程概述

本教程分为三个部分；它们是：

机器学习中的偏导数
雅可比矩阵
雅可比的其他用途

机器学习中的偏导数

到目前为止，我们已经提到梯度和偏导数对于优化算法更新（例如）神经网络的模型权重以达到一组最优权重是重要的。偏导数的使用允许每个权重独立于其他权重进行更新，通过依次计算误差曲线对每个权重的梯度。

我们在机器学习中通常使用的许多函数都是多元的、向量值函数，这意味着它们将多个实数输入 n 映射到多个实数输出 m

例如，考虑一个将灰度图像分类为多个类别的神经网络。此分类器实现的函数会将每个单通道输入图像的 n 个像素值映射到属于不同类别的 m 个输出概率。

在训练神经网络时，反向传播算法负责将输出层计算的误差反向传播，在组成神经网络不同隐藏层的神经元之间共享，直到它到达输入层。

反向传播算法调整网络权重的基本原理是，网络中的每个权重都应按网络总误差对该权重变化的敏感度比例进行更新。

——第222页，《深度学习》，2019年。

网络总误差对任何特定权重变化的敏感度是根据变化率来衡量的，而变化率又通过对同一权重求误差的偏导数来计算。

为简单起见，假设某个特定网络的一个隐藏层仅包含一个神经元 k。我们可以用一个简单的计算图来表示

一个具有单个输入和单个输出的神经元

同样，为简单起见，假设权重 w_k 作用于该神经元的输入，根据该神经元实现的函数（包括非线性）产生输出 z_k。然后，该神经元的权重可以连接到网络输出处的误差，如下所示（以下公式在形式上称为微积分的链式法则，但稍后将在单独的教程中详细介绍）

这里，导数 dz_k / dw_k 首先将权重 w_k 连接到输出 z_k，而导数 derror / dz_k 随后将输出 z_k 连接到网络误差。

更常见的情况是，我们将有许多连接的神经元填充网络，每个神经元都有不同的权重。既然我们更感兴趣的是这种情况，那么我们可以推广到标量情况之外，考虑多个输入和多个输出

这些项的和可以更紧凑地表示如下

或者，等价地，在向量符号中使用 del 算子 ∇ 来表示误差相对于权重 w_k 或输出 z_k 的梯度

反向传播算法包括对图中的每个操作执行这样的雅可比-梯度乘积。

——第207页，《深度学习》，2017年。

这意味着反向传播算法可以通过乘以雅可比矩阵（∂z_k / ∂w_k）^T来关联网络误差对权重变化的敏感度。

那么，这个雅可比矩阵包含什么呢？