微积分
单变量微积分
极限与连续 (Limits & Continuity)
- 极限存在条件 $$ \lim_{x \to a^-} f(x) = \lim_{x \to a^2} f(x) = L $$
- 连续性判定 $$ \lim_{x \to x_0} f(x) = f(x_0) $$
- 介值定理 (Intermediate Value Theorem) 若 \(f(x)\) 在 \([a, b]\) 连续,且 \(M\) 介于 \(f(a)\) 和 \(f(b)\) 之间,则至少存在一个 \(c \in (a, b)\) 使得: $$ f(c) = M $$
导数基础定义 (Definition of Derivative)
- 导数定义式(瞬时变化率) $$ f'(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} $$
- 微分 (Differential) $$ dy = f'(x) dx $$
基本求导公式 (Common Derivatives)
- 常数项: \((C)' = 0\)
- 幂函数: \((x^n)' = nx^{n-1}\)
- 指数函数: \((e^x)' = e^x\) ; \((a^x)' = a^x \ln a\)
- 对数函数: \((\ln x)' = \frac{1}{x}\) ; \((\log_a x)' = \frac{1}{x \ln a}\)
- 三角函数:
- \((\sin x)' = \cos x\)
- \((\cos x)' = -\sin x\)
- \((\tan x)' = \sec^2 x\)
四则运算与链式法则 (Differentiation Rules)
- 加减法则: \((u \pm v)' = u' \pm v'\)
- 乘法法则 (Product Rule): \((uv)' = u'v + uv'\)
- 除法法则 (Quotient Rule): \((\frac{u}{v})' = \frac{u'v - uv'}{v^2}\)
-
链式法则 (Chain Rule):
\[ \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx} \]或 \([f(g(x))]' = f'(g(x)) \cdot g'(x)\)
高阶导数 (Higher-Order Derivatives)
- 二阶导数: \(y'' = \frac{d}{dx}(\frac{dy}{dx}) = \frac{d^2y}{dx^2}\)
- \(n\) 阶导数符号: \(f^{(n)}(x)\)
几何应用 (Geometric Applications)
- 切线斜率: \(k = f'(x_0)\)
- 切线方程: \(y - y_0 = f'(x_0)(x - x_0)\)
- 法线方程: \(y - y_0 = -\frac{1}{f'(x_0)}(x - x_0)\)
积分基础 (Integrals - 补充)
-
微积分基本定理 (Newton-Leibniz Formula)
\[ \int_a^b f(x) dx = F(b) - F(a) \](注:其中 \(F(x)\) 是 \(f(x)\) 的原函数,即 \(F'(x) = f(x)\))
三大中值定理 (Mean Value Theorems)
- 罗尔定理 (Rolle's Theorem) 若 \(f(x)\) 在 \([a,b]\) 连续,\((a,b)\) 可导,且 \(f(a)=f(b)\),则: $$ \exists \xi \in (a,b), \text{ s.t. } f'(\xi) = 0 $$
- 拉格朗日中值定理 (Lagrange MVT) 若 \(f(x)\) 在 \([a,b]\) 连续,\((a,b)\) 可导,则: $$ f'(\xi) = \frac{f(b) - f(a)}{b - a} $$
- 柯西中值定理 (Cauchy MVT) 若 \(f(x), F(x)\) 满足上述条件且 \(F'(x) \neq 0\),则: $$ \frac{f'(\xi)}{F'(\xi)} = \frac{f(b) - f(a)}{F(b) - F(a)} $$
微分与积分 (Differentiation & Integration)
-
微分定义 (Differential)
\[ dy = f'(x) dx \](意义:非线性函数的局部线性化,即用切线增量近似曲线增量) * 定积分定义 (Definite Integral)
$$ \int_a^b f(x) dx = \lim_{n \to \infty} \sum_{i=1}^n f(\xi_i) \Delta x $$ * 不定积分 (Indefinite Integral)
$$ \int f(x) dx = F(x) + C $$ * 牛顿-莱布尼茨公式 (Fundamental Theorem of Calculus)
\[ \int_a^b f(x) dx = F(b) - F(a) \]
导数的应用:单调性与极值
- 驻点 (Stationary Point) 满足 \(f'(x) = 0\) 的点。
- 单调性判定
- \(f'(x) > 0 \implies\) 单调增加
- \(f'(x) < 0 \implies\) 单调减少
- 凹凸性判定 (Concavity)
- \(f''(x) > 0 \implies\) 向上凹 (Concave up / Convex)
- \(f''(x) < 0 \implies\) 向上凸 (Concave down)
- 二阶导数判别法 (Second Derivative Test)
若 \(f'(x_0) = 0\):
- \(f''(x_0) < 0 \implies\) 极大值 (Local Maximum)
- \(f''(x_0) > 0 \implies\) 极小值 (Local Minimum)
- 鞍点 (Saddle Point) \(f'(x) = 0\) 但在该点两侧函数增减性不改变(一侧极大,一侧极小)。
泰勒公式 (Taylor's Formula)
- 核心思想 用多项式函数在某点附近无限逼近原函数(要求各阶导数相等)。
- 泰勒展开式 $$ f(x) \approx f(x_0) + f'(x_0)(x-x_0) + \frac{f''(x_0)}{2!}(x-x_0)^2 + \dots + \frac{f^{(n)}(x_0)}{n!}(x-x_0)^n $$
- 麦克劳林级数 (Maclaurin Series) 当 \(x_0 = 0\) 时的泰勒展开: $$ f(x) \approx \sum_{n=0}^{\infty} \frac{f^{(n)}(0)}{n!} x^n $$
.
多变量微积分
偏导数 (Partial Derivatives)
- 核心概念 :保持其他变量恒定,只研究函数沿单个坐标轴正方向的变化率。
- 定义公式 (以对 \(x\) 求偏导为例):
\[
\frac{\partial f}{\partial x} = \lim_{h \to 0} \frac{f(x+h, y) - f(x, y)}{h}
\]
- 高阶混合偏导 :若偏导数连续,则求导顺序不影响结果:
\[
\frac{\partial^2 z}{\partial x \partial y} = \frac{\partial^2 z}{\partial y \partial x}
\]
方向导数 (Directional Derivative)
- 核心概念 :多元函数沿任意指定方向 \(u\) 的变化率。
- 计算公式 (利用偏导数简化):
\[
D_u f(x, y) = f_x(x, y) \cos \theta + f_y(x, y) \sin \theta
\]
(注:\(\theta\) 为方向向量与 \(x\) 轴正向的夹角)
梯度 (Gradient) \(\nabla f\)
- 核心概念 :由所有偏导数组成的 向量 。它指向函数增长最快的方向。
- 定义公式 :
\[
\nabla f = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \dots, \frac{\partial f}{\partial x_n} \right)
\]
- 性质 :
- 最大变化率 :方向导数在梯度方向取得最大值,最大值为梯度的模 \(\|\nabla f\|\)。
- 梯度下降 :在机器学习中,沿着梯度的反方向 \(-\nabla f\) 走,函数减小最快。
雅可比矩阵 (Jacobian Matrix) \(J\)
- 核心概念 :向量函数对向量的一阶导数矩阵。描述了多维空间的局部线性变换。
- 定义公式 : 若 \(F: \mathbb{R}^n \to \mathbb{R}^m\),则:
\[
J = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \dots & \frac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \dots & \frac{\partial f_m}{\partial x_n} \end{bmatrix}
\]
海森矩阵 (Hessian Matrix) \(H\)
- 核心概念 :由多元函数的所有二阶偏导数组成的对称矩阵。描述了函数的 曲率(凹凸性) 。
- 定义公式 :
\[
H = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} \end{bmatrix}
\]
多元函数极值判定 (Optimization)
- 必要条件 :若点为极值点(驻点),则梯度为零向量 \(\nabla f = \mathbf{0}\)。
- 充分条件(基于 Hessian 矩阵 \(H\)) :
- \(H\) 正定 :该驻点为 极小值 (类似 \(f''(x)>0\))。
- \(H\) 负定 :该驻点为 极大值 (类似 \(f''(x)<0\))。
- \(H\) 不定 :该驻点为 鞍点 (Saddle Point)。
常用的函数求导等式 (Common Identities)
- 转置求导 $$ \frac{\partial}{\partial \mathbf{X}} f(\mathbf{X})^{\top} = \left( \frac{\partial f(\mathbf{X})}{\partial \mathbf{X}} \right)^{\top} $$
- 迹 (Trace) 求导 $$ \frac{\partial}{\partial \mathbf{X}} \text{tr}(f(\mathbf{X})) = \text{tr} \left( \frac{\partial f(\mathbf{X})}{\partial \mathbf{X}} \right) $$
- 行列式 (Determinant) 求导 $$ \frac{\partial}{\partial \mathbf{X}} \det(f(\mathbf{X})) = \det(f(\mathbf{X})) \text{tr} \left( f^{-1}(\mathbf{X}) \frac{\partial f(\mathbf{X})}{\partial \mathbf{X}} \right) $$
- 逆矩阵 (Inverse) 求导 $$ \frac{\partial}{\partial \mathbf{X}} f^{-1}(\mathbf{X}) = -f^{-1}(\mathbf{X}) \frac{\partial f(\mathbf{X})}{\partial \mathbf{X}} f^{-1}(\mathbf{X}) $$
- 二次型与线性映射求导
-
关于矩阵 \(\mathbf{X}\):
\[ \frac{\partial \mathbf{a}^{\top} \mathbf{X}^{-1} \mathbf{b}}{\partial \mathbf{X}} = -(\mathbf{X}^{-1})^{\top} \mathbf{a} \mathbf{b}^{\top} (\mathbf{X}^{-1})^{\top} \]$$ \frac{\partial \mathbf{a}^{\top} \mathbf{X} \mathbf{b}}{\partial \mathbf{X}} = \mathbf{a} \mathbf{b}^{\top} $$ * 关于向量 \(\mathbf{x}\):
\[ \frac{\partial \mathbf{x}^{\top} \mathbf{a}}{\partial \mathbf{x}} = \mathbf{a}^{\top} \]\[ \frac{\partial \mathbf{a}^{\top} \mathbf{x}}{\partial \mathbf{x}} = \mathbf{a}^{\top} \]\[ \frac{\partial \mathbf{x}^{\top} \mathbf{B} \mathbf{x}}{\partial \mathbf{x}} = \mathbf{x}^{\top} (\mathbf{B} + \mathbf{B}^{\top}) $$ * **最小二乘/加权损失函数求导** 若 **$\mathbf{W}$** 为对称矩阵: $$ \frac{\partial}{\partial \mathbf{s}} (\mathbf{x} - \mathbf{A}\mathbf{s})^{\top} \mathbf{W} (\mathbf{x} - \mathbf{A}\mathbf{s}) = -2(\mathbf{x} - \mathbf{A}\mathbf{s})^{\top} \mathbf{W} \mathbf{A} \]
-
。
。