求导

发表于 2025-07-04 更新于 2025-07-10 分类于数学阅读次数：本文字数： 1.9k 阅读时长 ≈ 2 分钟

前言

大学数学已经全部还给老师了，现在由于需要接触机器学习，其中不乏向量、矩阵、梯度的相关概念，然后各种求导公式看的云里雾里。为了彻底解决这方面的困惑，我决定把关于机器学习中各种和导数相关的概念都整理出来，以便自己的理解以及后续的查阅参考。

导数 (Derivative) 描绘的是一个函数在某一点的瞬时变化率。一般特指单变量函数 ，该函数在点处的导数为：

可以简单的理解为斜率

导数描绘的是单变量函数的变化，很多时候函数并不是只有一个变量，如，此时我们需要引入偏导数（Partial Derivative）。偏导数和导数很类似，就是固定其他变量，仅对一个变量的导数，对于函数，其对的偏导数为：

偏导数反映了函数在某一特定方向上的变化率。例如，温度场对于方向的偏导数描述了在方向上的变化率

梯度（Gradient） 是多变量函数的偏导数的向量。对于标量函数，其梯度记作或，定义为：梯度的形状和分母是一样的

梯度是一个向量，其方向指向函数在该点处增长最快的方向，其大小表示增长的速率。例如，在地形图中，梯度指向最陡上升的方向。

形状规则： 标量对向量的每个元素求导，然后将各个求导结果按照向量的形状排列成一个向量。

标量对向量导数的形状（行向量或列向量）是由布局约定（Layout Convention）定义的，而不是通过数学证明得出的。这种约定是为了统一矩阵求导的结果表示形式，避免因排列方式不同导致的混乱。

对于向量值函数，其导数是Jacobian 矩阵

Jacobian 是梯度的推广，梯度是 Jacobian 的特例（当时）。

TODO: 常见的矩阵求导方式有：向量对向量求导，标量对向量求导，向量对标量求导。常见的矩阵：梯度、雅可比矩阵、海森矩阵等。

https://blog.csdn.net/weixin_42764932/article/details/113107265

https://blog.csdn.net/laosao_66/article/details/133561544

矩阵倒数类型 |类型|标量|向量|矩阵| |—|—|—|—| |标量|1|1|1| |向量|1|1| | |矩阵|1|||