算法基础
待整理内容:
- 排序的下限复杂度分析
- 摊还分析(非常重要)We will have the accounting (coins) method in mind when we write the question, so that will always work. However you are welcome to choose between the aggregate, accounting, and potential methods, if they are a good fit for the problem.
- how to design an algorithm using ideas from algorithms we covered, even if you don't achieve an optimal runtime you should at minimum be able to design something that works
- recognizing summations used in class
- arrays
- dynamic arrays和摊还分析
- linked list
- doubly linked list
- hash tables(hashing的相关知识)
基础数据结构
在学习算法前,一般应当掌握基础的数据结构。
Arrays
Matrix
Stack
栈是一种遵循后进先出(LIFO: Last In, First Out) 原则的抽象数据类型。你可以把它想象成一叠盘子:你只能在最上面放盘子,也只能从最上面取盘子。最后放进去的盘子,最先被拿出来。
栈的核心操作包括:
- 入栈(Push) :将一个新元素添加到栈的 顶部 。
- 出栈(Pop) :从栈的顶部移除元素,并返回该元素的值。
- 栈顶元素(Peek/Top) :返回栈顶元素的值,但不移除它。
- 判空(isEmpty) :检查栈是否为空。
单调栈
单调栈是一种特殊的栈,它在整个操作过程中始终保持栈内元素的 单调性 ,即栈内元素是严格递增或严格递减的。当一个新元素 \(X\) 尝试入栈时,如果它破坏了栈原有的单调性,那么在 \(X\) 入栈之前,需要将栈顶所有不符合单调性要求的元素全部 弹出(Pop) ,直到栈重新满足单调性要求,或栈为空。然后,新元素 \(X\) 才能入栈。
单调栈常用来解决下列问题:
- 找到下一个更大的元素
- 最大矩形面积
Queue
队列(Queue)是一种遵循先进先出(FIFO: First In, First Out) 原则的抽象数据类型。你可以把它想象成排队买票:第一个排队的人,第一个买到票离开。
队列的核心操作包括:
- 入队(Enqueue/Push) :将一个新元素添加到队列的 尾部(Rear) 。
- 出队(Dequeue/Pop) :从队列的头部(Front) 移除元素。
- 队头元素(Peek/Front) :返回队头元素的值,但不移除它。
- 判空(isEmpty) :检查队列是否为空。
队列在计算机科学中有广泛的应用,例如:
- 任务调度 :在操作系统和服务器中,用来管理等待执行的任务或请求。
- 广度优先搜索(BFS) :在图和树的遍历中,用于按层级访问节点。
- 打印任务管理 :打印机通常使用队列来处理待打印的文档。
Deque
双端队列 (Deque)允许在队列两端(即头部和尾部)进行入队和出队操作。
单调队列
单调队列(Monotonic Queue)通常是基于Deque实现的。单调队列利用双端队列的特性来维护队列的单调性,其主要目的是 在一个滑动窗口内,快速求出最大值或最小值 。
- 维护单调性 :当一个新元素 \(X\) 从尾部尝试入队时,如果它破坏了队列原有的单调性,需要将尾部所有不符合单调性要求的元素全部 弹出 。
- 例如,维护 递减队列 (队头是最大值):新元素 \(X\) 入队前,如果队尾元素 \(Y < X\),则 \(Y\) 出队。这样可以确保队内元素总是递减的。
- 处理窗口滑动 :当滑动窗口向右移动时,需要检查队头元素是否已经滑出窗口范围。如果队头元素的位置索引小于或等于当前窗口的起始索引,则需要将队头元素 出队 。
- 获取最值 :由于队列是单调的,所以队头元素始终是当前窗口内的 最大值 (对于递减队列)或 最小值 (对于递增队列)。
常见应用包括:
- 滑动窗口最大值/最小值
- 动态规划优化
Linked List
Linked List
Doubly Linked List
其他数据结构
以下数据结构参见Tree算法笔记:
- Tree
- BST
- Heap
- 斐波那契堆
以下数据结构参见Graph算法笔记:
- Graph
- Union-Find (DSU)
以下数据结构参加String算法笔记:
- String
- Trie
算法分析
算法分析框架
一般来说,一个完整的算法一般包含如下内容:
- Description
- Pseudocode
- Actual Code
- Justification
- Time Analysis
- Space Analysis
Description就是描述算法内容,Justification就是合理性证明或论证,用来说明算法分析结果的正确性。
比如说,对于算法中的循环,我们需要证明迭代算法的正确性。循环不变量(Loop Invariant) 就是用来论争算法在执行过程中没有丢失或损坏关键属性的。
循环不变量的证明包含下面三个内容:
- 初始化(Initialization),证明不变量在第一次迭代开始时是成立的
- 保持(Maintanance),证明如果假设不变量在某次迭代开始时是成立的,那么在这次迭代 结束之后 ,它对下一次迭代的开始依然成立。
- 终止(Termination),证明当循环结束时,不变量提供了一个有用的陈述,该陈述证明了算法的最终目标已经达成。
除了循环不变量,时间复杂度、空间复杂度等一般也要Justification。
算法分析的数学基础
本节整理了一些本书中经常涉及到的一些数学相关的知识,基本都是比较基础的数学内容。
0.1 指数增长快于多项式函数
在算法分析中有一个至关重要的规律:任何指数函数的增长速度都比任何多项式函数快。
- 多项式函数 (Polynomials) :形如\(n^b\)的函数,其中
b是一个常数。例如:\(n^2\), \(n^{100}\)都是多项式。 - 指数函数 (Exponentials) :形如\(a^n\)的函数,其中
a是一个大于 1 的常数。例如:\(2^n\), \(1.1^n\)都是指数函数。
对于多项式函数和指数函数,如果a > 1,那么我们有:
这个极限公式表明当n趋向于无穷大时,一个多项式函数和一个指数函数的比值会趋近于0。这意味着分母的增长速度远快于分子的增长速度,因此在极限情况下他们的比值几乎为0。
通过这个我们可以得到如下推论:
即指数函数一定是多项式函数的上限。(在a>1的情况下)
0.2 Notation
- \(\log_b n = a \iff b^a = n\) (definition of log)
- \(\ln n = \log_e n\) (natural log)
- \(\lg n \ \text{or} \ \log n = \log_2 n\) (base-2 shorthand)
- \(\lg^2 n = (\lg n)(\lg n)\) (multiplication)
- \(\lg \lg n = (\lg(\lg n))\) (composition)
0.3 Notation Properties
- \((a^m)^n = a^{mn}\)
- \(a^m \cdot a^n = a^{m+n}\)
- \(a^n = 2^{n \lg a}\)
- \(a^{\log_b n} = n^{\log_b a}\)
- \(\log_b a = \dfrac{\log_c a}{\log_c b}\) (A way to change from base \(b\) to base \(c\))
- \(\lg ab = \lg a + \lg b\)
- \(\lg(a^x) = x \lg a\)
- \(\lg(1/a) = -\lg a\)
0.4 Quantifiers
Quantifiers就是量词,用来限定一个陈述在某个集合中是对全部成立,抑或是对至少有一个成立。
- Universal Quantifier (\(\forall\)): The symbol \(\forall\) is used to express that a statement holds for every element in a given set. For example:
$$ \forall x \in \mathbb{R}, \; x^2 \geq 0 $$ - Existential Quantifier (\(\exists\)): The symbol \(\exists\) is used to express that there exists at least one element in a given set for which a statement holds. For example:
$$ \exists x \in \mathbb{R} \;\; \text{such that} \;\; x^2 = 4 $$
简单来说:
∀(任意): 要求很高,必须对集合里所有成员都成立才算对。∀符号看起来像一个倒过来的字母 "A",可以联想英文单词 "All" (所有)。∃(存在): 要求很低,只需要在集合里找到至少一个符合条件的成员就算对。∃符号看起来像一个反过来的字母 "E",可以联想英文单词 "Exists" (存在)。
这两个符号在定义数学概念(比如我们之前讨论的 Big O 定义)和进行逻辑证明时非常关键。
0.5 等差数列求和公式(Arithmetic series)
For integer \(n \geq 1\), we have
0.6 等比数列求和公式(Geometric series)
For real \(r \neq 1\), we have
When the summation is infinite and \(|r| < 1\), we have
0.7 离散数学和集合
Let \(A\) and \(B\) be sets.
Union并集,Intersection交集,Difference差集:
- Union: \(A \cup B =\) The set of elements that appear in either \(A\) or \(B\) or both.
- Intersection:\(A \cap B =\) The set of elements that appear in both \(A\) and \(B\).
- Difference:\(A \setminus B\) or \(A - B =\) The set of elements that appear in \(A\) and not in \(B\).
基数:(集合A中元素的个数)
- Cardinality:\(|A| =\) The number of elements in \(A\).
阶乘
- Factorial: The notation \(n!\) is read “\(n\) factorial” and is defined for integer \(n > 0\) as follows:
$$ n! = 1 \times 2 \times \dots \times (n-1) \times n $$
By convention, \(0! = 1\).
Choose选择,Permutations排列,Combinations组合:
- “Choose”: The notation \(\binom{n}{k}\) is read “\(n\) choose \(k\)” because it represents the number of ways to choose \(k\) items from \(n\) distinct items.For integers \(0 \leq k \leq n\), we have:
$$ \binom{n}{k} = \frac{n!}{k!(n-k)!} = \binom{n}{n-k} $$ - Permutations and Combinations: In a set of elements \(A\), the number of ordered permutations of all \(|A|\) elements is \(|A|!\). The number of combinations of \(k\) elements is
$$ \binom{|A|}{k}. $$
排列和组合的最重要区别就是:排列中顺序很重要,而组合中顺序不重要。比如ABC和CAB是两种不同的排列,但是却是2同一个组合。
0.8 Probability
- Random Variables: In probability theory, a random variable is a variable whose possible values are outcomes of a random phenomenon.For example, let \(X\) represent the outcome of rolling a six-sided die.\(X\) can take values \(\{1,2,3,4,5,6\}\).
- Notation:\(P(X = 5) = \tfrac{1}{6}\) means “The probability that \(X\) takes the value \(5\) is \(\tfrac{1}{6}\).”
Expectation 期望
- Expectation: The expectation (or mean) of a random variable \(X\) is denoted by \(E[X]\) and represents the average value it takes. For a discrete random variable, it is computed as:
$$ E[X] = \sum_x x \cdot P(X = x) $$
where the sum is taken over all possible values of \(X\).
Example: Consider a fair six-sided die. Let \(X\) be the outcome of a single roll. The expectation of \(X\) is:
Properties of Expectation:
- \(E[aX + b] = aE[X] + b\) for constants \(a\) and \(b\).
- \(E[X + Y] = E[X] + E[Y]\) for independent random variables \(X\) and \(Y\).
0.9 Ceilings and Floors
- \(\lceil x \rceil = \text{ceiling}(x) =\) the least integer greater than or equal to \(x\)
- \(\lfloor x \rfloor = \text{floor}(x) =\) the greatest integer less than or equal to \(x\)
复杂度分析
在算法分析中,我们采用Asymptotic Notation,也即渐进记法,来分析算法的效率。其包含三个核心概念:
- Big O
- Big Omega \(\Omega\)
- Big Theta \(\Theta\)
Big O
- Definition: The function \(f(n)\) is \(O(g(n))\) if there exist constants \(c > 0\) and \(n_0\) such that
$$ 0 \leq f(n) \leq c \cdot g(n) \quad \text{for all } n \geq n_0. $$ - Example: \(2n^2 + 3n + 1\) is \(O(n^2)\) because for \(c = 3\) and \(n_0 = 1\), we have
$$ 0 \leq 2n^2 + 3n + 1 \leq 2n^2 + 3n^2 + 1 \cdot n^2 \leq 6n^2 , \quad \text{for all } n \geq 1 $$
一般来说,Big O描述了一个函数增长速度的上限(Upper Bound)。可以这样理解:“当输入规模 n 足够大时,函数 f(n) 的增长速度不会超过函数 g(n) 的 c 倍。
通常n0选取为1,或者大于1的一个整数。(虽然在上述定义中没有说明n0必须大于等于1,但是一般在算法分析中我们默认n0是大于等于1的。因为我们在分析复杂性的时候,关心的是渐进性为,目的是描述函数的长期增长趋势,因此如果n0起始于负数,在这个应用中是没有意义的。)
也就是说,在算法分析中,g(n)是f(n)的太牛花瓣,并且我们不关注常数因子。所以当我们去分析一个算法的Big O的时候,我们只需要找到合适的c和n,找到g(n)就可以了。
从数学定义上来说,上面的例子就算给出 O(n³) ,仍然也是一个正确的上限,但它是一个很“松”的上限,没有精确地反映出函数 2n 的增长趋势。这就像问一个小孩多高,你说:“他肯定不超过3米高。” 这句话虽然没错,但没什么用。我们更想听到的是:“他大概1米2高。”所以,当我们分析算法复杂度时,虽然有无数个正确的 Big O 答案,但我们总是约定俗成地去寻找并给出一个最简单、最贴近的那个,也就是 最小的那个增长率 。如果能找到严格上界,有时候也会写作o记号(小o)。
在记录Big O的时候,一般有两种常见写法:
f(n) = O(n²):这是最常见、最通用的写法。它读作 “f(n) is O of n-squared”(f(n) 是 n 平方的 Big O)。虽然这里用的是等号=,但它并不表示数学上严格的“相等”,而是一种约定俗成的表示法,意思是“f(n) 的增长率属于 O(n²) 这个级别”。f(n) ∈ O(n²):这是从数学集合角度来看更严谨的写法。这里的∈符号表示“属于”(is an element of)。O(n²)实际上代表一个 函数的集合 ,这个集合包含了所有增长速度不超过n²的函数。所以f(n) ∈ O(n²)的意思是 “f(n) 是 O(n²) 这个集合中的一员”。
※ 证明Big O性质
如果 f(n) = O(g(n)) 并且 h(n) = O(g(n)),那么 f(n) + h(n) = O(g(n))。
用通俗的语言解释就是: 如果两个函数 f(n) 和 h(n) 的增长率都最多和 g(n) 一样快(或者更慢),那么这两个函数的和 f(n) + h(n) 的增长率也最多和 g(n) 一样快。
这在算法分析中非常有用。比如,如果你有两个连续的代码块,它们的运行时间分别是 O(n) 和 O(n),那么整个过程的运行时间就是 O(n) + O(n),根据这个定理,结果依然是 O(n)。
PROOFS
证明过程是严格按照大O表示法的定义来进行的。我们一步一步来看:
1. 假设 (Suppose)
Suppose f = O(g) and h = O(g).
证明的第一步是假设论点的前提条件成立。这里我们假设 f 的增长率是 O(g),h 的增长率也是 O(g)。
(图片右上角提示,f 是 f(n) 的简写,这在数学证明中很常见。)
2. 展开 f = O(g) 的定义
f = O(g) means f ≤ c*g for n ≥ n₀.
这是大O表示法的正式定义。f(n) = O(g(n)) 的意思是:
存在一个正常数 c 和一个整数 n₀,使得当 n 大于等于 n₀ 时,f(n) 的值总是不超过 c 乘以 g(n) 的值。
c是一个常量系数,它允许我们忽略常数倍的差异。n₀是一个阈值,它表示我们只关心当输入规模n足够大时的情况。
3. 展开 h = O(g) 的定义
h = O(g) means h ≤ d*g for n ≥ n₁.
同理,h(n) = O(g(n)) 的意思是:
存在另一个正常数 d 和另一个整数 n₁,使得当 n 大于等于 n₁ 时,h(n) 的值总是不超过 d 乘以 g(n) 的值。
注意: 这里的常数 d 和阈值 n₁ 可能与上面 f(n) 的 c 和 n₀ 不同。
4. 相加 (Adding gives)
Adding gives f + h ≤ (c+d)g for n ≥ ?
现在,为了证明 f(n) + h(n) 的情况,我们将上面两个不等式相加:
f(n) ≤ c*g(n)
h(n) ≤ d*g(n)
两式相加得到:
f(n) + h(n) ≤ c*g(n) + d*g(n)
提取公因式 g(n),得到:
f(n) + h(n) ≤ (c+d)g(n)
5. 确定新的阈值 n(图片中未写完的部分)
关键问题来了:这个新的不等式 f+h ≤ (c+d)g 在什么条件下成立呢?
- 第一个不等式
f ≤ c*g要求n ≥ n₀。 - 第二个不等式
h ≤ d*g要求n ≥ n₁。 为了让两个不等式同时成立,n必须同时满足n ≥ n₀和n ≥ n₁。因此,我们只需要取两者中较大的那个值作为新的阈值即可。 所以,我们定义一个新的阈值n₂ = max(n₀, n₁)。当n ≥ n₂时,上面两个不等式都成立,因此它们的和也成立。
所以,图片中那个空白的地方应该填 max(n₀, n₁)。
结论
我们已经证明了:
存在一个新的常数 C = c+d 和一个新的阈值 n₂ = max(n₀, n₁),使得当 n ≥ n₂ 时,f(n) + h(n) ≤ C * g(n)。
这完全符合大O表示法的定义!因此,我们得出结论:f(n) + h(n) = O(g(n))。证明完毕。
简单例子
假设 f(n) = 2n + 10,h(n) = 3n + 5,我们要证明 f(n) + h(n) 是 O(n)。
- 证明
f(n) = O(n): 我们需要找到c和n₀使得2n + 10 ≤ c*n。 如果我们选c = 3,那么2n + 10 ≤ 3n->10 ≤ n。所以,当c₁=3, n₀=10时,f(n) = O(n)成立。 - 证明
h(n) = O(n): 我们需要找到d和n₁使得3n + 5 ≤ d*n。 如果我们选d = 4,那么3n + 5 ≤ 4n->5 ≤ n。所以,当c₂=4, n₁=5时,h(n) = O(n)成立。 -
证明
f(n) + h(n) = O(n):f(n) + h(n) = (2n+10) + (3n+5) = 5n + 15。 根据上面的证明,我们应该有f(n) + h(n) ≤ (c₁+c₂)n对于n ≥ max(n₀, n₁)成立。 -
新常数
C = c₁ + c₂ = 3 + 4 = 7。 - 新阈值
n₂ = max(n₀, n₁) = max(10, 5) = 10。 - 我们来验证一下:
5n + 15 ≤ 7n是否在n ≥ 10时成立?15 ≤ 2n->7.5 ≤ n。 因为n ≥ 10已经满足了n ≥ 7.5的条件,所以这个不等式是成立的。
因此,我们成功证明了 f(n) + h(n) = O(n)。
Big Omega
- Definition: The function \(f(n)\) is \(\Omega(g(n))\) if there exist constants \(c > 0\) and \(n_0\) such that
$$ 0 \leq c \cdot g(n) \leq f(n) \quad \text{for all } n \geq n_0. $$ - Example: \(2n^2 + 3n + 1\) is \(\Omega(n^2)\) because for \(c = 2\) and \(n_0 = 1\), we have
$$ 0 \leq 2n^2 \leq 2n^2 + 3n + 1, \quad \text{for all } n \geq 1 $$
一般来说,Big Omega描述了一个函数增长速度的下限(Lower Bound)。可以这样理解:“当输入规模 n 足够大时,函数 f(n) 的增长速度至少和函数 g(n) 的 d 倍一样快。” 也就是说,g(n) 是 f(n) 的一种“地板”,f(n) 的增长再慢也慢不过 g(n)。在算法分析中,它常用来描述一个算法的 最好情况下的时间复杂度 。
对于所有增长的函数 f(n)(比如算法的运行时间),我们几乎总可以说 f(n) = Ω(1)(因为运行时间至少是一个常数,不会是负数)。但是,这同样是一个没有信息量的“松”的下限。
我们使用 Big Omega 是想知道:“这个算法的运行时间最少也要增长得多快?” 说 Ω(1) 等于在说:“这个算法总得花点时间才能运行完。” 这是一句废话。说一个排序算法是 Ω(n) 意味着:“不管输入的数据有多好(比如已经排好序了),你至少也得把每个元素看一遍,所以时间下限是线性增长的。” 这个信息就非常有用了。
所以在实际分析中,和 Big O 一样,我们一半呢寻找的是最紧的下限(Tightest Lower Bound),也就是增长最快的那个下界函数,来提供有意义的分析。如果能找到严格下界,记录时也用小omega,也即\(\omega\)来表示。
Big Theta
- Definition: The function \(f(n)\) is \(\Theta(g(n))\) if it is both \(O(g(n))\) and \(\Omega(g(n))\).
- Example: \(2n^2 + 3n + 1\) is \(\Theta(n^2)\) because it is both \(O(n^2)\) and \(\Omega(n^2)\).
f(n) = Θ(g(n)) 的意思是:存在正常数 c, d 和 n₀,使得对于所有 n ≥ n₀,都有 d * g(n) ≤ f(n) ≤ c * g(n)。Big Theta 描述了一个函数增长速度的 紧密界限 (Tight Bound) 。它其实是 Big O 和 Big Omega 的结合。f(n) = Θ(g(n)) 意味着 f(n) 的增长速度既不比 g(n) 快,也不比 g(n) 慢,它们的增长速率是相同的。也就是说,f(n) 被 g(n) 从上下两个方向“夹住”了。这是对一个算法复杂度最精确的描述。
一般来说,如果我们在找Big O和Big Omega的时候,找到的如果已经是最紧的上限和最紧的下限,那么这个时候用这两个最紧的上下限就能轻松找到那个被夹住的紧密界限。
递归
递归
递归是一种解决问题的方法,在计算机科学中,我们在一个函数内部调用函数自身,就形成了递归。
比如说:
def factorial(n):
# 递归终止条件(基例)
if n == 1:
return 1
# 递归调用
return n * factorial(n - 1)
print(factorial(5)) # 输出:120
其工作原理如下:
factorial(5)
= 5 * factorial(4)
= 5 * (4 * factorial(3))
= 5 * (4 * (3 * factorial(2)))
= 5 * (4 * (3 * (2 * factorial(1))))
= 5 * 4 * 3 * 2 * 1
= 120
在计算机内部,递归的实现依赖于 运行时栈(Runtime Stack) ,也称为 调用栈(Call Stack) 。每次函数调用(无论是调用其他函数还是调用自身)时,计算机都需要记录 当前函数的运行环境 ,以便函数执行完毕后能正确返回,这个机制就是通过栈来实现的。
既然内部是用栈实现的,那么我们当然也可以用一个显式的栈数据结构来实现。在计算机科学中,任何递归算法理论上都可以转换为等价的 迭代(Iterative)算法,而这个迭代算法的核心就是使用一个显式管理的栈结构 。
上面的斐波那契数列改为显示栈的版本如下:
def factorial_stack(n):
stack = [] # 用来模拟递归调用栈
result = 1
# 模拟递归“向下调用”的过程
while n > 1:
stack.append(n)
n -= 1
# 模拟递归“向上返回”的过程
while stack:
result *= stack.pop()
return result
print(factorial_stack(5)) # 输出:120
使用显式栈的好处是可用空间远大于系统调用栈,从而可以处理更深、更大规模的递归问题。此外,显式栈在性能上也更好,因此在后面学到DFS等递归算法时,基本都有对应的迭代版本,且在实际使用中非常常见。
这里要注意,从计算机执行和代码实现的角度来看,迭代实现不算递归,因为它没有用到函数调用栈;然而从算法设计思想和问题分解的角度来看,迭代实现仍然是递归思想的应用。
分治思想
分治是分而治之的意思。分治一定是递归,但递归不一定是分治。分治法(Divide and Conquer)的核心思想就是把一个大问题分解为若干个小问题(或者说子问题),然后递归求解,把子问题的解组合起来得到原问题的解 。
分治通常包含三个步骤 :
- Divide 分: 将原问题分解成 \(k\) 个规模较小的子问题。这些子问题通常是独立的,且与原问题 形式相同 。
- Conquer 治: 如果子问题的规模足够小(达到 基础情况/Base Case ),则直接求解。否则,继续递归调用分治过程。
- Combine 合: 将子问题的解组合起来,形成原问题的最终解。这个“合并”步骤是分治算法中往往最巧妙和关键的部分。
分治策略在许多高效的算法中得到了广泛应用,比如:
归并排序 (Merge Sort)
- 分 (Divide): 将待排序的数组分成左右两个子数组。
- 治 (Conquer): 递归地对这两个子数组进行排序。
- 合 (Combine): 将两个已排序的子数组合并成一个完整的有序数组。
快速排序 (Quick Sort)
- 分 (Divide): 选择一个 基准元素 (Pivot) ,通过一次扫描(分区操作)将数组分为两部分:小于 Pivot 的元素和大于 Pivot 的元素。
- 治 (Conquer): 递归地对这两部分进行排序。
- 合 (Combine): 由于分区操作已经将元素归位, 合并步骤非常简单 (只需按顺序连接两部分和 Pivot 即可,或者可以说合并成本几乎为零)。
二分查找 (Binary Search)
- 分 (Divide): 将查找区间分成两半。
- 治 (Conquer): 根据目标值与中间元素的大小关系,只在其中一半区间内递归查找。
- 合 (Combine): 查找成功则返回索引,查找失败则返回未找到的信号( 没有实际的合并操作 )。
Strassen 矩阵乘法
- 分 (Divide): 将 \(N \times N\) 矩阵分成四个 \((N/2) \times (N/2)\) 的子矩阵。
- 治 (Conquer): 递归地计算七次 \((N/2) \times (N/2)\) 矩阵乘法(而非传统方法的八次)。
- 合 (Combine): 通过对这七个结果进行加减运算,合成最终的 \(N \times N\) 矩阵乘积。
递归式
递归或分治算法的运行时间 \(T(n)\) 通常用递归式 (Recurrence Relation) 来描述和分析。对于一个典型的分治算法:
- 分和合的成本: \(f(n)\)
- 子问题数量 : \(a\)
- 子问题规模 : \(n/b\)
运行时间的递归式通常写成以下形式:
例如,归并排序的递归式为 \(T(n) = 2T(n/2) + O(n)\),其中 \(a=2\) (两个子问题),\(b=2\) (规模减半),\(f(n)=O(n)\) (合并成本)。通过求解这个递归式,我们知道归并排序的时间复杂度为 \(O(n \log n)\)。
写出递归式的目的是分析时间复杂度,计算机科学家们已经总结出了一些非常好用的工具来快速求解递归式,最常用的方法包括:
- 主定理 Master Theorem
- 递归树法 Recursion-Tree Method
- 代入法 Substitution Method
主定理
主定理(Master Theorem)或主方法(Master Method)是一个用来快速求解特定形式的算法递归式,其标准形式如下:
其中 \(a \ge 1\), \(b > 1\) 是常数, \(f(n)\) 是渐近正函数:
- \(a\): 子问题的数量
- \(n/b\): 每个子问题的规模(假设每个子问题规模相同)
- \(f(n)\): 分解问题和合并子问题解所花费的时间(非递归部分)
主方法的核心思想就是通过比较 \(f(n)\) 和 \(n^{\log_b a}\) 的渐近关系,给出 \(T(n)\) 的解:
| 关系 | 情况描述 | 结论 |
|---|---|---|
| 情况 1 | \(f(n) = O(n^{\log_b a - \epsilon})\)(\(n^{\log_b a}\) 更大 ,大得多) | \(T(n) = \Theta(n^{\log_b a})\) |
| 情况 2 | \(f(n) = \Theta(n^{\log_b a})\)(\(n^{\log_b a}\) 相等 ) | \(T(n) = \Theta(n^{\log_b a} \log n)\) |
| 情况 3 | \(f(n) = \Omega(n^{\log_b a + \epsilon})\)(\(n^{\log_b a}\) 更小 ,小得多) | \(T(n) = \Theta(f(n))\) |
注意: \(\epsilon\) 是一个大于 0 的常数
举几个例子说明主方法如何使用:
a.
-
分析:
-
\(f(n) = 1\)
- 比较 \(f(n) = 1\) 和 \(n^{\log_b a} = \sqrt{n}\)。
- 很明显,\(f(n)\) 的增长速度远慢于 \(\sqrt{n}\)。严格来说,\(f(n) = 1 = O(n^{0.5 - \varepsilon})\),例如我们可以取 \(\varepsilon = 0.5\)。
- 这符合主方法的 情况一 (Case 1)。
-
结论:
-
总成本由 \(n^{\log_b a}\) 决定。
-
\[ T(n) = \Theta\!\bigl(n^{\log_b a}\bigr) = \Theta(\sqrt{n}) \]
b.
-
分析:
-
\(f(n) = \sqrt{n}\)
- 比较 \(f(n) = \sqrt{n}\) 和 \(n^{\log_b a} = \sqrt{n}\)。
- 两者渐近相等。严格来说,\(f(n) = \Theta\!\bigl(n^{1/2}\log^0 n\bigr)\),即 \(k = 0\)。
- 这符合主方法的 情况二 (Case 2)。
-
结论:
-
总成本需要在原有基础上追加一个对数因子。
-
\[ T(n) = \Theta\!\bigl(n^{\log_b a}\log^{k+1} n\bigr) = \Theta\!\bigl(\sqrt{n}\log^{0+1} n\bigr) = \Theta\!\bigl(\sqrt{n}\lg n\bigr) \]
c.
-
分析:
-
\(f(n) = \sqrt{n}\,\lg^2 n\)
- 比较 \(f(n) = \sqrt{n}\,\lg^2 n\) 和 \(n^{\log_b a} = \sqrt{n}\)。
- \(f(n)\) 的增长速度比 \(n^{\log_b a}\) 要快,但它只是快了一个对数因子(\(\lg^2 n\)),并不是多项式级别的快。因此,它不满足情况三的条件。
- 我们再来看情况二的通用形式:\(f(n) = \Theta\!\bigl(n^{\log_b a}\log^k n\bigr)\)。
- 这里,\(f(n) = \Theta\!\bigl(\sqrt{n}\log^2 n\bigr)\),即 \(k = 2\)。
- 这依然符合主方法的 情况二 (Case 2)。
-
结论:
-
总成本需要在原有基础上追加一个对数因子。
-
\[ T(n) = \Theta\!\bigl(n^{\log_b a}\log^{k+1} n\bigr) = \Theta\!\bigl(\sqrt{n}\log^{2+1} n\bigr) = \Theta\!\bigl(\sqrt{n}\lg^3 n\bigr) \]
d.
-
分析:
-
\(f(n) = n\)
- 比较 \(f(n) = n\) 和 \(n^{\log_b a} = \sqrt{n}\)。
- \(f(n)\) 的增长速度远快于 \(\sqrt{n}\)。严格来说,\(f(n) = n^1 = \Omega(n^{0.5+\varepsilon})\),我们可以取 \(\varepsilon = 0.5\)。
- 这满足了主方法的 情况三 (Case 3) 的第一个条件。
- 我们还需要检查正则条件:\(a f(n/b) \leq c f(n)\) 是否对某个 \(c < 1\) 成立。
- \(2 \cdot f(n/4) \leq c \cdot n\)
- \(2 \cdot (n/4) \leq c \cdot n\)
- \(n/2 \leq c \cdot n\)
- \(1/2 \leq c\)
- 我们可以选择 \(c = 1/2\)(或 \(0.6, 0.9\) 等),这满足 \(1/2 \leq c < 1\)。所以正则条件成立。
-
结论:
-
总成本由 \(f(n)\) 决定。
-
\[ T(n) = \Theta(f(n)) = \Theta(n) \]
e.
-
分析:
-
\(f(n) = n^2\)
- 比较 \(f(n) = n^2\) 和 \(n^{\log_b a} = \sqrt{n}\)。
- \(f(n)\) 的增长速度远快于 \(\sqrt{n}\)。严格来说,\(f(n) = n^2 = \Omega(n^{0.5+\varepsilon})\),我们可以取 \(\varepsilon = 1.5\)。
- 这同样满足主方法的 情况三 (Case 3) 的第一个条件。
- 我们再检查正则条件:\(a f(n/b) \leq c f(n)\) 是否对某个 \(c < 1\) 成立。
- \(2 \cdot f(n/4) \leq c \cdot n^2\)
- \(2 \cdot (n/4)^2 \leq c \cdot n^2\)
- \(2 \cdot (n^2/16) \leq c \cdot n^2\)
- \(n^2/8 \leq c \cdot n^2\)
- \(1/8 \leq c\)
- 我们可以选择 \(c = 1/8\)(或 \(0.5, 0.9\) 等),这满足 \(1/8 \leq c < 1\)。所以正则条件也成立。
-
结论:
-
总成本由 \(f(n)\) 决定。
-
\[ T(n) = \Theta(f(n)) = \Theta(n^2) \]
.
递归树法
对于不满足主定理条件的递归式,可以尝试用递归树法。
我整理了递归树方法的一般化总结,对于递归形式:
| 符号 | 含义 |
|---|---|
| \(A\) | 每层递归产生的子问题数量 |
| \(B\) | 每个子问题的规模相对于原问题规模的缩减因子 |
| \(w(n)\) | 划分 (Divide) 和合并 (Combine) 阶段的工作量(非递归部分) |
对于Level 0,也就是根节点,其节点数是1,工作量是\(w(n)\)。
对于Level i,也就是任意层,其节点数是\(A^i\),每个节点的规模是\(n/B^i\),每个节点的工作量是\(w(n/B^i)\),该层的总工作量\(C^i\)是:
树的高度\(h\)的确定条件是递归在达到基准情况(Base Case),即子问题规模变为 \(1\) 时终止。设 \(n/B^h = 1\),则高度为:
接着确定叶子的数量,确定条件是所有叶子都在高度 \(h\) 处,那么叶子节点数等于 \(A\) 的 \(h\) 次方:
利用换底公式\(a^{\log_b c} = c^{\log_b a}\):
计算叶子总成本,叶子处的总工作量,通常是基准情况的成本乘以叶子数量。其表示为\(\Theta(\text{叶子数} \times \text{基准情况成本})\)。如果基准情况成本为 \(\Theta(1)\),则:
最后计算总工作量\(T(n)\),总工作量是所有非叶子级别的工作量之和,加上叶子级别的总成本。
也即:
对比上式的左右两边贡献的工作量,对比后找到主导项,占据主导地位的就是最终的时间复杂度。这种一般化总结是Master Method 背后的理论基础。当 \(w(n)\) 是多项式时,我们可以直接使用 Master Method 的三条情况来避免复杂的求和运算。
示例
以QuickSort的递归式为例,我们来看一下如何使用递归树法。
对于递归式:
由于主方法要求所有子问题具有相同的规模,即 \(T(n) = aT(n/b) + f(n)\) 的形式。本递归式中的子问题规模分别为 \(n/4\) 和 \(3n/4\),不相等。递归树是一种通用的可视化方法,尤其适用于子问题规模不等的递归关系,可以清晰地展示每层的工作量和树的高度,因此我们用递归树来解决该式子。

可以看到,递归树是不平衡的,两个递归调用 \(T(n/4)\) 和 \(T(3n/4)\) 产生的子问题规模不相等:
- \(T(n/4)\) 分支的问题规模下降更快
- \(T(3n/4)\)分支的问题规模下降更慢,因此会形成更深的路径
我们可以分析最短路径、最长路径和树的总高度。
最短路径 (Shortest Path/Depth): 由问题规模下降最快的子分支 \(T(n/4)\) 决定。最短深度 \(k_{shortest}\) 是使问题规模降至基线情况(如 1)的深度。
最长路径 (Longest Path/Height): 由问题规模下降最慢的子分支 \(T(3n/4)\) 决定。最长深度 \(k_{longest}\) 是使问题规模降至基线情况(如 1)的深度。
树的总高度: \(h = \Theta(\log n)\) (因为 \(\log_{4/3} n\) 和 \(\log_4 n\) 都属于 \(\Theta(\log n)\))
每层完整级别的工作量:
- Level 0 (根节点): 成本为 \(cn\).
- Level 1: 子问题规模为 \(n/4\) 和 \(3n/4\).
- 总成本: \(c\left(\frac{n}{4}\right) + c\left(\frac{3n}{4}\right) = c\left(\frac{n}{4} + \frac{3n}{4}\right) = c n\).
- Level 2: 子问题规模为 \(n/16, 3n/16, 3n/16, 9n/16\).
- 总成本: \(c\left(\frac{n}{16}\right) + c\left(\frac{3n}{16}\right) + c\left(\frac{3n}{16}\right) + c\left(\frac{9n}{16}\right) = c\left(\frac{1+3+3+9}{16}\right)n = c\left(\frac{16}{16}\right)n = c n\).
- 观察到的模式: 在所有完整的级别上,工作量都是 \(\mathbf{cn}\) 或 \(\mathbf{\Theta(n)}\)。
正式证明 (Justification):
对于任意级别 \(i\)(从 \(i=0\) 到最短深度 \(\log_4 n\)),该级别上的所有节点表示的子问题规模之和始终为 \(n\).
一个节点在第 \(i\) 层,它是由从根到它所经过的 \(j\) 个 \(n/4\) 分裂和 \(i-j\) 个 \(3n/4\) 分裂产生的,其问题规模为 \(\left(\frac{1}{4}\right)^j \left(\frac{3}{4}\right)^{i-j} n\).
该层工作量 \(\text{Cost}_{\text{level } i}\) 是所有节点成本之和:
将 \(cn\) 提出来:
根据二项式定理 \(\sum_{j=0}^{i} \begin{pmatrix} i \\ j \end{pmatrix} x^j y^{i-j} = (x+y)^i\),其中 \(x=1/4\) 且 \(y=3/4\):
这证实了在所有完整的级别上,总工作量始终为 \(cn\) 或 \(\mathbf{\Theta(n)}\)。
猜测 (Guess):
- 工作量/层: \(\Theta(n)\)
- 层数/高度: \(\Theta(\log n)\) (由最长路径 \(\log_{4/3} n\) 决定)
- 总工作量: (工作量/层) \(\times\) (层数) \(\approx \Theta(n) \times \Theta(\log n) = \mathbf{\Theta(n \log n)}\)
1、证明上界 \(O(n \log n)\)****
目标: 证明 \(T(n) \le c_2 n \log n\) 成立,其中 \(c_2 > 0\) 和 \(n_0\) 为常数。
归纳假设: 假设对于所有 \(k < n\),有 \(T(k) \le c_2 k \log k\) 成立。
代入与推导:
验证:
为了使 \(T(n) \le c_2 n \log n\) 成立,我们要求被减去的项 非负:
括号内的项是一个正常数 (近似 0.811)。因此,我们总可以选择一个足够大的常数 \(c_2\) (具体地, \(c_2 \ge d_2 / 0.811\)) 来满足这个不等式。
因此,上界 \(O(n \log n)\) 成立。
2、证明下界 \(\Omega(n \log n)\)****
目标: 证明 \(T(n) \ge c_1 n \log n\) 成立,其中 \(c_1 > 0\) 和 \(n_0\) 为常数。
归纳假设: 假设对于所有 \(k < n\),有 \(T(k) \ge c_1 k \log k\) 成立。
代入与推导:
验证:
为了使 \(T(n) \ge c_1 n \log n\) 成立,我们要求被减去的项 非正:
括号内的项仍是正常数 (近似 0.811)。因此,我们总可以选择一个足够小的正常数 \(c_1\) (具体地, \(0 < c_1 \le d_1 / 0.811\)) 来满足这个不等式。
因此,下界 \(\Omega(n \log n)\) 成立。
由于我们成功证明了上界 \(T(n) = O(n \log n)\) 和下界 \(T(n) = \Omega(n \log n)\),我们可以得出紧界为:
这表明,即使 Quicksort 的枢轴选择不平衡(如 \(n/4\) vs \(3n/4\) 的分割),其渐近运行时间仍然与平衡分割(如 \(n/2\) vs \(n/2\))或平均情况下的 \(\Theta(n \log n)\) 保持一致。
代入法
代入法(Substitution Method)是最严谨的求解方法,可用于验证其他方法猜测出的解,可适用于所有的递归式。
然而,代入法必须先猜测递归式。一般我们会通过画出递归树,来更好地猜测递归式。猜测后,我们就需要用数学归纳法来证明这个猜测是正确的:
- 归纳假设: 假设对于所有 \(m < n\),\(T(m) \le c g(m)\) 成立(其中 \(c\) 是一个常数)。
- 证明: 将归纳假设代入原递归式中,证明 \(T(n) \le c g(n)\) 也成立。
- 检查基础情况: 确保基础情况(如 \(T(1)\))也满足假设。
代入法一般用在主定理和递归树法无法处理的复杂情况中。在实际应用中,我们通常首先尝试使用主定理 。如果主定理不适用,就使用递归树法来猜测解,然后用代入法进行严格证明。
例解
a.
1. 明确目标: 我们要证明 \(T(n) = O(n^2)\)。 根据定义,我们需要找到常数 \(c > 0\) 和 \(n_0\),使得对于所有 \(n \geq n_0\),都有
成立。
2. 归纳假设: 假设对于所有小于 \(n\) 的值 \(k\),结论都成立。即:
特别地,对于 \(k = n-1\):
3. 代入并推导: 将归纳假设代入原递归式:
4. 验证结论: 我们的目标是证明上式 \(\leq c n^2\):
化简得:
为了让这个不等式对足够大的 \(n\) 恒成立,\(n\) 的系数 \((1-2c)\) 必须为负。
- \(1 - 2c < 0 \;\;\Longleftrightarrow\;\; c > 1/2\)
因此,只要我们选择 \(c > 1/2\)(例如 \(c=1\)),当 \(n\) 足够大时,这个式子就恒成立。
5. 结论: 我们成功找到了满足条件的常数(例如 \(c=1\)),因此证明了:
b.
1. 明确目标: 我们将 \(\Theta(1)\) 写为常数 \(d\)。目标是证明存在常数 \(c > 0\) 和 \(n_0\),使得对于 \(n \geq n_0\),都有
2. 归纳假设: 假设对于所有 \(k < n\),都有
3. 代入推导:
4. 验证结论: 我们需要证明
这需要 \(-c + d \leq 0\),即
只要我们选择的证明常数 \(c\) 大于等于 \(o(1)\) 中的常数 \(d\),归纳就成立。
c.
我们需要分别证明 \(O(n \lg n)\) 和 \(\Omega(n \lg n)\)。
证明上界 \(O(n \lg n)\):
- 目标: 证明 \(T(n) \leq c_2 n \lg n\)。
- 假设: 对 \(k < n\),有 \(T(k) \leq c_2 k \lg k\)。
- 代入:
$$ T(n) \leq 2\bigl(c_2 (n/2) \lg (n/2)\bigr) + n = c_2 n \lg n - c_2 n + n $$ 4. 验证: 我们需要
$$ c_2 n \lg n - c_2 n + n \leq c_2 n \lg n, $$
即 \(-c_2 n + n \leq 0\),这要求 \(c_2 \geq 1\)。
证明下界 \(\Omega(n \lg n)\):
- 目标: 证明 \(T(n) \geq c_1 n \lg n\)。
- 假设: 对 \(k < n\),有 \(T(k) \geq c_1 k \lg k\)。
- 代入:
$$ T(n) \geq 2\bigl(c_1 (n/2) \lg (n/2)\bigr) + n = c_1 n \lg n - c_1 n + n $$ 4. 验证: 我们需要
$$ c_1 n \lg n - c_1 n + n \geq c_1 n \lg n, $$
即 \(-c_1 n + n \geq 0\),这要求 \(c_1 \leq 1\)。
结论: 因为我们既可以证明上界,也可以证明下界,所以
成立。
d.
1. 明确目标: 证明存在常数 \(c > 0\) 和 \(n_0\),使得
2. 归纳假设: 假设对所有 \(k < n\),都有
3. 代入推导:
这里的 \(+17\) 比较棘手,但对于足够大的 \(n\),它是一个低阶项。我们可以观察到 \(n/2 + 17\) 不会比 \(n\) 大,并且 \(\lg\) 是一个增长很慢的函数。我们可以放心地说,对于足够大的 \(n\):
因此,代数推导过程与上一个问题 \(c\) 非常相似:
4. 验证结论: 为了使不等式成立,我们需要 \(-cn\) 能够“压制”住 \(+n\) 和其他所有因 \(+17\) 产生的低阶项。只要 \(n\) 足够大,\(-cn + n\) 这一项是主导的。因此,我们只需要
选择一个足够大的 \(c\) 即可。
e.
我们将 \(\Theta(n)\) 写为 \(dn\)。
证明下界 \(\Omega(n)\): 这一步很简单,因为递归式中包含了 \(+dn\) 这一项,所以 \(T(n)\) 至少是 \(dn\),因此
天然成立。
证明上界 \(O(n)\):
- 目标: 证明 \(T(n) \leq cn\)。
- 假设: 对 \(k < n\),有 \(T(k) \leq ck\)。
- 代入:
$$ \begin{aligned} T(n) &= 2T(n/3) + dn \[6pt] &\leq 2\bigl(c(n/3)\bigr) + dn \[6pt] &= (2c/3)n + dn \[6pt] &= (2c/3 + d)n \end{aligned} $$ 4. 验证: 我们需要
$$ (2c/3 + d)n \leq cn, $$
即
$$ 2c/3 + d \leq c. $$
- \(d \leq c - 2c/3 \;\;\Rightarrow\;\; d \leq c/3 \;\;\Rightarrow\;\; c \geq 3d\)。
- 只要我们选择的 \(c\) 至少是 \(d\) 的 3 倍,证明就成立。
结论: 因为上下界都成立,所以
f.
我们将 \(\Theta(n)\) 写为 \(dn\)。
证明下界 \(\Omega(n^2)\):
- 目标: 证明 \(T(n) \geq c_1 n^2\)。
- 假设: 对 \(k < n\),有 \(T(k) \geq c_1 k^2\)。
- 代入: $$ T(n) \geq 4\bigl(c_1 (n/2)^2\bigr) + dn = c_1 n^2 + dn $$
- 验证: 我们需要 \(c_1 n^2 + dn \geq c_1 n^2\)。因为 \(dn\) 是正数,这个不等式显然成立。
证明上界 \(O(n^2)\):
- 目标: 证明 \(T(n) \leq c_2 n^2\)。
- 假设: 对 \(k < n\),有 \(T(k) \leq c_2 k^2\)。
- 代入:
$$ T(n) \leq 4\bigl(c_2 (n/2)^2\bigr) + dn = c_2 n^2 + dn $$ 4. 验证: 我们需要 \(c_2 n^2 + dn \leq c_2 n^2\),即 \(dn \leq 0\),这不可能成立。证明失败。 5. 强化假设: 我们尝试证明
$$ T(n) \leq c_2 n^2 - c_3 n. $$ 6. 新假设: 对 \(k < n\),有 \(T(k) \leq c_2 k^2 - c_3 k\)。 7. 新代入:
$$ \begin{aligned} T(n) &\leq 4\bigl(c_2 (n/2)^2 - c_3 (n/2)\bigr) + dn \[6pt] &= c_2 n^2 - 2c_3 n + dn \end{aligned} $$ 8. 新验证: 我们需要
$$ c_2 n^2 - 2c_3 n + dn \leq c_2 n^2 - c_3 n, $$
即
$$ -2c_3 n + dn \leq -c_3 n \quad \Rightarrow \quad dn \leq c_3 n \quad \Rightarrow \quad c_3 \geq d. $$
只要我们选择的常数 \(c_3\) 大于等于 \(d\),证明就成立。
结论: 因为上下界都成立,所以
.
排序算法
大多数人学习排序算法第一个接触的算法是选择排序(Selection Sort)。选择排序的思路很直观、很简单:
每一轮从未排序区间中,选出最小(或最大)元素,放到已排序区间的末尾。
无论数据是有序还是乱序,比较次数都不会减少。因此选择排序的最好、平均以及最坏时间复杂度均为O(n²)。并且由于选择会交换位置,因此这是一个不稳定的排序方法,并且由于其效率非常低,因此在实践中我们并不会使用该方法。本章节我们来学习一些实践中非常重要的排序方法。
稳定排序
我们把排序后相同元素前后相对位置不变的排序方法叫做稳定排序。
冒泡排序
插入排序
归并排序
计数排序
基数排序
桶排序
堆排序
堆的数据结构参见Tree笔记。
快速排序
快速排序因为很快,所以叫快速排序。然而,对于包含输入size为n的数组来说,快速排序的最坏情况时间复杂度依然是\(O(n^2)\)。虽然理论上的最坏情况很差,但是快速排序依然是实际排序应用中最好的选择。
快速排序的核心思想是分治:
对于一个要排序的队列,先找到一个学生做标杆(pivot),然后让所有比标杆矮的以及相等的站在左边,所有比标杆高的站到右边。
对标杆左边的部分,递归应用同样的方式;对标杆右边的部分,递归应用同样的方式。直到每组只剩一个人或没有人为止,队列就排好了。
依据选取Pivot的不同方式,分为:
- 固定首尾
- 随机pivot
- 三数取中
依据按照pivot分区的方法,分为:
- Lomuto分区方案
- Hoare分区方案
- 三路快排
关于上述不同pivot选取方式和不同的分区方法,我们后面会详细介绍。教学中一般普通快排选择的方案是Lomuto分区方案,也就是用一个单指针进行交换,其代码如下:(因为快排很重要,所以我们就直接记住代码,跳过伪代码)
# 普通快速排序(Lomuto分区方案)
def quicksort(arr, low, high):
if low < high:
pivot = partition(arr, low, high) # 获取分区点pivot
quicksort(arr, low, pivot-1) # 递归pivot左边的部分
quicksort(arr, pivot+1, high) # 递归pivot右边的部分
def partition(arr, low, high):
pivot = arr[high] # 选取最后一个元素作为基准pivot
i = low - 1 # 在Lumuto分区法中,i就是比pivot小的区域的边界,所以一开始在界外
for j in range(low, high):
if arr[j] < = pivot:
i += 1
arr[i], arr[j] = arr[j], arr[i] # 维护边界
arr[i+1], arr[high] = arr[high], arr[i+1] # 把pivot放回正确的位置:边界的右侧
return i+1
我们来看一下普通快速排序的性能,设 \(T(n)\) 为排序 \(n\) 个元素所需的时间,则基本的递归式是:
\(\Theta(n)\) 是 partition 函数的时间,因为它必须要把这一层的所有数字扫描一遍。
(1)最差情况(worst case)的时间复杂度
假设数组已经排好序或者数组里全是重复的元素,那么将high作为pivot会导致切分后所有的pivot左边的数字依然会待在左边,从而导致递归式变成了一个链表形状:
这相当于计算等差数列求和:\(n + (n-1) + (n-2) + ... + 1\)。结果是 \(\frac{n(n+1)}{2}\),也就是 \(O(n^2)\) 。
(2)最好情况(best case)的时间复杂度
这是最理想的情况:每次pivot正好把数组分成了两个部分:
根据主定理(Master Theorem),或者类比归并排序,树的高度是 \(\log_2 n\),每层的工作量是 \(n\),因而结果是 \(O(n \log n)\) 。
(3)平均情况(average case)的时间复杂度
我们不太容易直接算出平均的情况,因此CLRS算法书中在这里给出了一个低于实际情况运行的9:1划分方式:
这种划分不够平衡,树非常歪,左边短右边长,但是树的高度依然是对数级别的(最深也就是 \(\log_{10/9} n\))。在数学上,\(\log_{10/9} n\) 和 \(\log_2 n\) 只是差了一个常数倍数而已。因此即便是9:1的不平衡划分方式,普通快排的平均复杂度依然是 \(O(n \log n)\)。
(4)空间复杂度
在上面的代码示例中,我们使用了原地排序的方法,看起来没有额外开辟数组,但 递归调用是有代价的 (系统栈 Stack)。
在最好/平均情况下,递归树高度为 \(\log n\),所以空间复杂度是 \(O(\log n)\) 。
在最坏情况下,递归树退化成链表形状,高度为 \(n\),所以空间复杂度是 \(O(n)\) 。(如果不做尾递归优化的话,会有栈溢出风险)。
这里退化成链表指的是递归栈的形状,比如说,当递归调用非常均衡时,函数调用的层级关系如下:
[ 处理 100 个数 ]
/ \
[ 处理 50 个 ] [ 处理 50 个 ]
/ \ / \
[25个] [25个] [25个] [25个]
然而,假设我们遇到了最坏情况,那么就会变成链表一样的:
[ 处理 5 个数 ]
|
↓
[ 处理 4 个数 ] (右边是空的,不用管)
|
↓
[ 处理 3 个数 ]
|
↓
[ 处理 2 个数 ]
|
↓
[ 处理 1 个数 ]
在物理上,数据还在数组里,但是在逻辑上,每一个函数只呼叫了下一个函数,从而形成了一条单链。
随机快排
为了避免最差情况,我们可以使用随机化方法,随机选取Pivot。实现方法非常简单,就是在普通快排的基础上,在选取pivot之前随机选一个合法的坐标,然后交换该坐标的数字和原本要选取的最后一个数字即可:
# 随机快排
import random # 加入随机数
def quicksort(arr, low, high):
if low < high:
pivot = partition(arr, low, high) # 获取分区点pivot
quicksort(arr, low, pivot-1) # 递归pivot左边的部分
quicksort(arr, pivot+1, high) # 递归pivot右边的部分
def partition(arr, low, high):
random_index = random.randint(low, high) # 随机选取一个下标
arr[random_index], arr[high] = arr[high], arr[random_index]
# --------下面是普通快排,原封不动即可
pivot = arr[high] # 选取最后一个元素作为基准pivot
i = low - 1 # 在Lumuto分区法中,i就是比pivot小的区域的边界,所以一开始在界外
for j in range(low, high):
if arr[j] < = pivot:
i += 1
arr[i], arr[j] = arr[j], arr[i] # 维护边界
arr[i+1], arr[high] = arr[high], arr[i+1] # 把pivot放回正确的位置:边界的右侧
return i+1
我们来看一下随机快排的递归式。我们假设每一个数字被选为 Pivot 的概率都是 \(\frac{1}{n}\),那么随机快排的递归式将是基于期望运行时间(Expected Running Time)描述的:
虽然这个公式看着吓人,但通过数学推导(替换法或数学归纳法),它的解就是我们熟悉的:
这里要注意,上面说的是期望时间复杂度。换句话说,即便使用了随机数,假设我们运气超级差,依然可能会遇到连续的最差情况,从而导致最差时间复杂度为\(O(n^2)\)。当然,这种理论在现实中几乎很难出现,因为随着层数的增加,最差情况发生概率将趋近于0。
另外,在学校的教程中,随机快排的递归式如下:
随机快排平均运行时间的标准形式如下:
上式中的2/n系数中的2来自于概率空间中的对称性。
三路取中
三路取中(Median-of-Three) 和随机快排一样,是针对pivot选择方案的。在工业界,三路取中往往效果好于随机快排。这是因为随机数在计算机底层是一个很贵的操作,需要复杂的数学运算。同时,三路取中是确定性的,可以方便调试。
和随机快排一样,三路取中也是在pivot选取之前增加一个比较三路然后取中并交换就可以,实现起来非常简单:
# 三路取中
def quicksort(arr, low, high):
if low < high:
pivot = partition(arr, low, high)
quicksort(arr, low, pivot-1)
quicksort(arr, pivot+1, high)
def partition(arr, low, high):
# 三路取中
mid = (low + high) // 2
# 先让 low 成为最小的那个
if arr[low] > arr[mid]:
arr[low], arr[mid] = arr[mid], arr[low]
if arr[low] > arr[high]:
arr[low], arr[high] = arr[high], arr[low]
# 接着让 high 成为中间的那个
if arr[high] > arr[mid]:
arr[mid], arr[high] = arr[high], arr[mid]
# ---------下面是原封不动的普通快排(Lomuto分区方案)
pivot = arr[high]
i = low - 1
for j in range(low, high):
if arr[j] <= pivot:
i += 1
arr[i], arr[j] = arr[j], arr[i]
arr[i+1], arr[high] = arr[high], arr[i+1]
return i+1
三路取中的核心目的就是让 Pivot 更大概率接近数组的 真实中位数 ,从而让左右划分更均匀(接近 1:1)。理想情况下,递归式将更加接近均匀划分:
然而,三路取中在数学上的最坏情况依然是\(O(n^2)\)。
在实践中,普通的随机快排递归式常数项大概是 \(2n \ln n \approx 1.39n \log_2 n\) 。 三路取中优化后的常数项会降低到约 \(1.18n \log_2 n\) 左右,也就是比普通随机快了约15%~20%。
这个1.18并非随便估计出来的,而是通过解一个复杂的递归式得出的精确解。设 \(C_n\) 是排序 \(n\) 个元素所需的比较次数:
这里最关键的是 \(P(pivot=k)\)(选中第 \(k\) 小的元素做基准的概率):在三路取中里,只有当选出的三个样本中,一个小于 \(k\),一个大于 \(k\),且\(k\)自身被选中时,\(k\) 才会成为中位数。这是一个组合数学问题,其概率为:
其含义是:从比 \(k\) 小的 \(k-1\) 个里选1个,从比 \(k\) 大的 \(n-k\) 个里选1个,除以总共选3个的组合数。把这个概率代入递归式,经过极其复杂的数学变换(通常使用生成函数或微分方程求解),我们会得到比较次数的通项公式:
上面的公式是自然对数 \(\ln n\)。而我们在计算机科学里习惯说 \(\log_2 n\)。我们需要做一个换算:
即可得到1.88:
值得注意的是,三路取中会造成一个著名的安全漏洞,从而让黑客可以针对该漏洞专门构造一个针对三路取中的杀手序列(Killer Sequence),来让排序服务退化到\(O(n^2)\),进而导致DoS拒绝服务供给。因此在更高安全要求的场景中,工业界会采用三路取中的升级版:九路取中(Tukey's Ninther),从而让黑客难以攻击。
MoM
Median of Medians (MoM)是快速排序中另一种pivot选择的策略,该策略可以保证快速排序在最坏情况下的时间复杂度为 \(O(n \log n)\),与其平均时间复杂度相同。相比之下,传统的快速排序(例如随机快排或三路取中)在最坏情况下可能退化到 \(O(n^2)\)。不过请注意,MoM只是在理论上比三路取中更好,然而在实践中三路取中通常更好。
MoM 不直接寻找真实中位数,而是通过 分组 、 求中位数 、递归求中位数的中位数的方法,找到一个保证至少能排除掉 固定比例 (大于 30%)元素的近似中位数 \(p\)。
分组大小 \(g\) 的选择是 MoM 算法的关键,它必须满足一个数学条件,才能保证算法在线性时间内完成。要保证算法在 \(O(n)\) 时间内运行,递归关系式中的两个递归项相加必须严格小于 1:
其中\(1/g\)是递归寻找“中位数的中位数” \(p\) 的子问题大小比例;\(\alpha\)是分区后,最坏情况下需要递归处理的子数组大小比例。
\(g=5\) 是满足这个条件的最小奇数分组大小,因此被选中以平衡分组内部排序的常数开销和递归调用的效率。如果 \(g=3\): \(\alpha = 2/3\)。递归项和为 \(1/3 + 2/3 = 1\)。这导致时间复杂度为 \(O(n \log n)\),不符合线性时间要求。
下面我们来看一下MoM的实现步骤。假设我们要在数组 \(A\) 中找到一个好的主元 \(p\):
- 分组 (Divide): 将 \(n\) 个元素分成 \(\lceil n/5 \rceil\) 个小组,每组 5 个元素。
- 求小组中位数 (Find Local Medians): 对每个小组内部进行排序(例如插入排序),并确定其中位数 \(m_i\)。
- 递归求 MoM (Recursive Call): 递归地调用 MoM 算法,找出所有这些小组中位数 \(M = \{m_1, m_2, \ldots\}\) 的中位数 \(p\)。这个 \(p\) 就是我们最终的主元(“中位数的中位数”)。
- 分区 (Partition): 使用 \(p\) 对原始数组 \(A\) 进行分区操作,将 \(A\) 划分为小于 \(p\) (\(A_L\))、等于 \(p\) (\(A_E\)) 和大于 \(p\) (\(A_G\)) 三部分。
- 返回主元: 将 \(p\) 作为主元,用于快速排序。
最后来看一下MoM选择算法本身的递归式(最坏情况):
以及使用MoM后,快速排序的最坏情况:
该递归式求解后是\(T(n) = O(n \log n)\),也就是说MoM可以让快速排序最差情况也不会退化到\(O(n^2)\)。
三路快排
三路快排不同于三路取中和随机快排,三路快排针对的是pivot选取之后的切分方法。
在普通快排和随机快排中,我们区分的是小于等于pivot和大于pivot的部分,也就是将数组切分成了两份,因此也叫做2-Way快排。二路快排的缺点就是如果有很多个和pivot一样大的数字,比如说如果有 100 万个 5,普通快排会把这些 5 甚至还会继续递归处理,非常浪费。
三路快排(3-Way QuickSort)就是把数组切分为三份:小于pivot、等于pivot、大于pivot的。这样一来,那些等于 Pivot 的部分,已经在正确位置了, 下一轮递归直接跳过它们 ,只排“小于”和“大于”的部分。这种处理方法在有大量重复元素的情况下非常好用。
双轴快排
Tim Sort
Tim Sort是现代排序实践中的集大成者,也是python内置的排序算法。
总结与对比
这里注意要总结一下常数项的对比,根据数学期望可以算出来:
- 普通随机快排\(\approx 1.386 n \log_2 n\)
- 归并排序\(\approx 1.0 \cdot n \log_2 n\)
然而,在实际使用中,快速排序的i是连续递增的,CPU 预取器能完美工作,数据早就在 L1 Cache 里等着了。这种比较极其廉价;而归并排序涉及从两个不同的数组段读数据并写入第三个辅助数组,内存吞吐压力大,Cache Miss 率相对较高。因此在实际运行速度比较中,快速排序比归并排序更快。
最后我们来分析一下排序算法的下界,………………
搜索
对于一个array,我们可以直接遍历整个array来一一确定是否有想要查找的符合要求的内容,其用时上界是array的长度。但是这显然太低效了。因此针对一些特别的情况,我们有特别的查找方法。
二分查找
二分查找思路非常简单,但是却有着惊人的应用广度。
经典应用
最小化最大值
问题 :给定 \(N\) 个包裹和 \(K\) 艘船,要求将所有包裹分配给 \(K\) 艘船,使得所有船中 最大载重最小 。
最大化最小值
问题 :给定一条长度为 \(L\) 的绳子,上面有 \(N\) 个标记点,需要从中剪出 \(K\) 段绳子,使得 最短那段绳子的长度最大 。
指数搜索
主要用于无界搜索问题(Unbounded Search),即当你不知道一个数组的长度时,你可以用指数快速确定该数组的长度。
快速选择
在算法理论中,SELECT通常指在一个无序列表中找到第 \(k\) 小(或第 \(k\) 大)的元素,即顺序统计量(Order Statistic)。
快速选择是快速排序的副产品,可以快速找到第k小的数。
随机快速选择
随机快排的:
随机选择的:
.
常见基础算法
本章节介绍一些在LeetCode和面试等场景下常见的基础算法。本节介绍的主要是大多数人刚入门刷题的时候遇到的一些应用,稍微复杂一点的算法,如string、tree、graph、dp等方面的,都会在专门的章节中收录。
Boyer-Moore Majority Vote
Prefix Sums
Sliding Window
Two Pointers
Floyd's Cycle Detection
Group and Reverse in Linked List
Hashing
对应CLRS11
LC应用:Linear Structures/In-place Hashing
Bit Manipulation
Roadmap
基本数学运算
Roadmap/Math&Calculation