推荐|数据结构与算法分析（四）--- 时间与空间复杂度

文章目录

一、复杂度分析
二、最好、最坏、平均、均摊时间复杂度
更多文章：

一、复杂度分析

数据结构和算法本身解决的是“快”和“省”的问题，即如何让代码运行得更快，如何让代码更省存储空间。所以，执行效率是算法一个非常重要的考量指标。那如何来衡量你编写的算法代码的执行效率呢？这里就要用到一把衡量标尺：时间、空间复杂度分析。

你可能会有些疑惑，我把代码跑一遍，通过统计、监控，就能得到算法执行的时间和占用的内存大小。为什么还要做时间、空间复杂度分析呢？这种分析方法能比我实实在在跑一遍得到的数据更准确吗？很多数据结构和算法书籍将这种评估方法称作事后统计法，在工程中使用这种方法评估算法执行效率的方法也是正确的。

但是，这种统计方法有非常大的局限性。其一，测试结果非常依赖测试环境；其二，测试结果受数据规模的影响很大。所以，我们需要一个不用具体的测试数据来测试，就可以粗略地估计算法的执行效率的方法，也就是时间、空间复杂度分析方法。

算法的执行效率，粗略地讲，就是算法代码执行的时间。但是，如何在不运行代码的情况下，用“肉眼”得到一段代码的执行时间呢？比如下面这段代码：

int cal(int n)
{   
	int sum = 0;   
	int i = 1;
	int j = 1;   
	for (; i <= n; ++i){     
		for (; j <= n; ++j){       
			sum = sum +  i * j;     
		}   
	} 
}
1
2
3
4
5
6
7
8
9
10
11

从 CPU 的角度来看，这段代码的每一行都执行着类似的操作：读数据-运算-写数据。尽管每行代码对应的 CPU 执行的个数、执行的时间都不一样，但是，我们这里只是粗略估计，所以可以假设每行代码执行的时间都一样，为 unit_time。在这个假设的基础之上，这段代码的总执行时间是多少呢？

第 3、4、5 行代码，每行都需要 1 个 unit_time 的执行时间，第 6 行代码循环执行了 n 遍，需要 n * unit_time 的执行时间，第 7、8 行代码循环执行了 n²遍，所以需要 2n² * unit_time 的执行时间。所以，整段代码总的执行时间 T(n) = (2n² + n + 3) * unit_time。尽管我们不知道 unit_time 的具体值，但是通过这段代码执行时间的推导过程，我们可以得到一个规律，所有代码的执行时间 T(n) 与每行代码的执行次数 n 成正比。

1.1 大O表示法

对算法复杂度的分析主要是看算法执行时间随数据量增长的变化趋势，可以理解为当数据规模趋近于无穷大时，算法执行需要耗费的时间增长趋势是怎样的，也即趋近于无穷大的快慢程度。

既然算法复杂度主要表示的是一个相对于数据量的增长速度，并不是一个精确的衡量指标，我们需要用一个“上界”和一个“下界”来涵盖复杂度这个相对增长率。数学上，对“上界”与“下界”的定义如下：

如果存在正常数c和n0，使得当N>=n0时T(N)<=c·f(N)，则记为T(N)=O(f(N))；
如果存在正常数c和n0，使得当N>=n0时T(N)>=c·f(N)，则记为T(N)=Ω(f(N))；

第一个定义的意思就是：当N超过某个值后，c·f(N)总是至少比T(N)要大。忽略常数因子，即f(N)至少与T(N)一样大。第二个定义意思就是：当N超过某个值后，c·f(N)总是最多和T(N)一样大。

当我们说T(N)=O(f(N))时，其实就是说“T(N)是在以不快于f(N)的速度增长”，类似的T(N)=Ω(f(N))即“T(N)是在以不慢于f(N)的速度增长”。不难发现，O(f(N))就是T(N)的“上界”，Ω(f(N))就是T(N)的“下界”。由于对算法进行复杂度分析时往往考虑“最坏情况”，所以我们通常计算的是O(f(N))，即“上界”，俗称“大O阶”。

使用大O阶表示代码执行时间T(N)与代码执行总次数f(N)（N表示数据规模的大小）之间的关系式为：T(N)=O(f(N))。

文章开头例子中的 T(n) = O(2n² + n + 3)，这就是大 O 时间复杂度表示法。大 O 时间复杂度实际上并不具体表示代码真正的执行时间，而是表示代码执行时间随数据规模增长的变化趋势，所以，也叫作渐进时间复杂度（asymptotic time complexity），简称时间复杂度。

当 n 很大时，你可以把它想象成 10000、100000，此时公式中的低阶、常量、系数三部分并不左右增长趋势，所以都可以忽略，我们只需要记录一个最大量级就可以了，如果用大 O 表示法表示上面示例那段代码的时间复杂度，就可以记为：T(n) = O(n²)。

1.2 时间复杂度分析技巧

前面介绍了大 O 时间复杂度的由来和表示方法。现在我们来看下，如何分析一段代码的时间复杂度？

只关注循环执行次数最多的一段代码

刚才说了，大 O 这种复杂度表示方法只是表示一种变化趋势。我们通常会忽略掉公式中的常量、低阶、系数，只需要记录一个最大阶的量级就可以了。所以，我们在分析一个算法、一段代码的时间复杂度的时候，也只关注循环执行次数最多的那一段代码就可以了，这段核心代码执行次数的 n 的量级，就是整段要分析代码的时间复杂度。

加法法则：总复杂度等于量级最大的那段代码的复杂度

这个规律实际上是对上面那个规律的扩展，还是取其中最大的量级。我们将这个规律抽象成公式就是：如果 T1(n)=O(f(n))，T2(n)=O(g(n))；那么 T(n)=T1(n)+T2(n)=max(O(f(n)), O(g(n))) =O(max(f(n), g(n)))。

乘法法则：嵌套代码的复杂度等于嵌套内外代码复杂度的乘积

文章开头给出的示例代码就是一个循环嵌套代码，嵌套内外层代码的时间复杂度都是O(n)，所以总的时间复杂度就是O(n * n)。我们将这个规律抽象成公式就是：如果 T1(n)=O(f(n))，T2(n)=O(g(n))；那么 T(n)=T1(n)*T2(n)=O(f(n))*O(g(n))=O(f(n)*g(n))。

1.3 几种常见的时间复杂度

虽然代码千差万别，但是常见的复杂度量级并不多，下面这几个复杂度量级几乎可以涵盖我们将要遇到的绝大多数算法的复杂度量级。
常见复杂度量级
常见复杂度随数据规模的增长率
对于刚罗列的复杂度量级，我们可以粗略地分为两类：多项式量级和非多项式量级。其中，非多项式量级只有两个：O(2n) 和 O(n!)。

我们把时间复杂度为非多项式量级的算法问题叫作 NP（Non-Deterministic Polynomial，非确定多项式）问题。当数据规模 n 越来越大时，非多项式量级算法的执行时间会急剧增加，求解问题的执行时间会无限增长。所以，非多项式时间复杂度的算法其实是非常低效的算法。因此，关于 NP 时间复杂度这里就不展开讲了，我们主要来看几种常见的多项式时间复杂度。

O(1)

只要代码的执行时间不随 n 的增大而增长，这样代码的时间复杂度我们都记作 O(1)。或者说，一般情况下，只要算法中不存在循环语句、递归语句，即使有成千上万行的代码，其时间复杂度也是Ο(1)。

O(logn)、O(nlogn)

对数阶时间复杂度非常常见，同时也是最难分析的一种时间复杂度。这里再给出一个示例：

i=1; 
while (i <= n)  
{   
	i = i * 2; 
}
1
2
3
4
5

根据我们前面讲的复杂度分析方法，第三行代码是循环执行次数最多的。所以，我们只要能计算出这行代码被执行了多少次，就能知道整段代码的时间复杂度。

从代码中可以看出，变量 i 的值从 1 开始取，每循环一次就乘以 2。当大于 n 时，循环结束。还记得我们高中学过的等比数列吗？实际上，变量 i 的取值就是一个等比数列。如果把它一个一个列出来，就应该是这个样子的：2⁰ 、 2¹ 、 2² 、 …、 2^x , 我们只要知道 x 值是多少，就知道这行代码执行的次数了。通过 2^x=n 求解 x，得x=log₂n，所以，这段代码的时间复杂度就是 O(log₂n)。

如果我们将上面循环体中的 i = i * 2 改为 i = i * 3再计算时间复杂度是多少呢？根据刚刚讲的思路，很简单就能看出来，修改后代码的时间复杂度为 O(log₃n)。

实际上，不管是以 2 为底、以 3 为底，还是以 10 为底，我们可以把所有对数阶的时间复杂度都记为 O(logn)。为什么呢？我们知道，对数之间是可以互相转换的，log₃n 就等于 log₃2 * log₂n，所以 O(log₃n) = O(C * log₂n)，其中 C=log₃2 是一个常量。基于我们前面的一个理论：在采用大 O 标记复杂度的时候，可以忽略系数，即 O(Cf(n)) = O(f(n))。所以，O(log₂n) 就等于 O(log₃n)。因此，在对数阶时间复杂度的表示方法里，我们忽略对数的“底”，统一表示为 O(logn)。

理解了 O(logn)，那 O(nlogn) 就很容易理解了。还记得我们刚讲的乘法法则吗？如果一段代码的时间复杂度是 O(logn)，我们循环执行 n 遍，时间复杂度就是 O(nlogn) 了。而且，O(nlogn) 也是一种非常常见的算法时间复杂度，比如归并排序、快速排序的时间复杂度都是 O(nlogn)。

O(m+n)、O(m*n)

这个时间复杂度跟前面介绍的不一样，代码的复杂度由两个数据的规模m和n来共同决定。我们无法事先评估 m 和 n 谁的量级大，所以我们在表示复杂度的时候，就不能简单地利用加法法则，省略掉其中一个。所以，上面代码的时间复杂度就是 O(m+n)。针对这种情况，原来的加法法则就不正确了，我们需要将加法规则改为：T1(m) + T2(n) = O(f(m) + g(n))。但是乘法法则继续有效：T1(m) * T2(n) = O(f(m) * f(n))。

1.4 空间复杂度分析

前面花了很长时间讲大 O 表示法和时间复杂度分析，理解了前面讲的内容，空间复杂度分析方法学起来就非常简单了。

前面介绍过，时间复杂度的全称是渐进时间复杂度，表示算法的执行时间与数据规模之间的增长关系。类比一下，空间复杂度全称就是渐进空间复杂度（asymptotic space complexity），表示算法的存储空间与数据规模之间的增长关系。

我们常见的空间复杂度就是 O(1)、O(n)、O(n²)，像 O(logn)、O(nlogn) 这样的对数阶复杂度平时都用不到。而且，空间复杂度分析比时间复杂度分析要简单很多。需要提醒的一点时，有些空间是可以重复使用的，比如我们分配O(n)空间使用后释放，这个过程重复n遍，空间复杂度依然是O(n)。

二、最好、最坏、平均、均摊时间复杂度

2.1 最好、最坏时间复杂度

有些程序的时间复杂度并不那么容易确定，比如下面这段代码：

int find(int[] array, int n, int x) 
{  
	int i = 0;  
	int pos = -1;  
	for (; i < n; ++i){    
		if (array[i] == x){
			pos = i;
			break;
		}
	}  
	return pos;
}
1
2
3
4
5
6
7
8
9
10
11
12

这段代码要实现的功能是，在一个无序的数组（array）中，查找变量 x 出现的位置，如果没有找到，就返回 -1。那么，这段代码的时间复杂度是多少呢？前面介绍的时间复杂度分析方法，解决不了这个问题。

因为，要查找的变量 x 可能出现在数组的任意位置。如果数组中第一个元素正好是要查找的变量 x，那就不需要继续遍历剩下的 n-1 个数据了，那时间复杂度就是 O(1)。但如果数组中不存在变量 x，那我们就需要把整个数组都遍历一遍，时间复杂度就成了 O(n)。所以，不同的情况下，这段代码的时间复杂度是不一样的。

为了表示代码在不同情况下的不同时间复杂度，我们需要引入三个概念：最好情况时间复杂度、最坏情况时间复杂度和平均情况时间复杂度。

顾名思义，最好情况时间复杂度就是，在最理想的情况下，执行这段代码的时间复杂度。就像我们刚刚讲到的，在最理想的情况下，要查找的变量 x 正好是数组的第一个元素，这个时候对应的时间复杂度就是最好情况时间复杂度。

同理，最坏情况时间复杂度就是，在最糟糕的情况下，执行这段代码的时间复杂度。就像刚举的那个例子，如果数组中没有要查找的变量 x，我们需要把整个数组都遍历一遍才行，所以这种最糟糕情况下对应的时间复杂度就是最坏情况时间复杂度。

2.2 平均时间复杂度

最好情况时间复杂度和最坏情况时间复杂度对应的都是极端情况下的代码复杂度，发生的概率其实并不大。为了更好地表示平均情况下的复杂度，我们需要引入另一个概念：平均情况时间复杂度，简称为平均时间复杂度。

平均时间复杂度又该怎么分析呢？还借助刚才查找变量 x 的例子，要查找的变量 x 在数组中的位置，有 n+1 种情况：在数组的 0～n-1 位置中和不在数组中。假设变量x在数组中与不在数组中的概率都是1/2，且要查找的数据出现在 0～n-1 这n个位置的概率也是一样的，为1/n。那么，根据概率乘法法则，要查找的数据出现在 0～n-1 中任意位置的概率就是 1/(2n)。

我们把每种情况下，查找需要遍历的元素个数乘以该种情况出现的概率，最后将各种情况累加起来，就可以得到需要遍历的元素个数的平均值，即：
平均时间复杂度分析1
这个值就是概率论中的加权平均值，也叫作期望值，所以平均时间复杂度的全称应该叫加权平均时间复杂度或者期望时间复杂度。前面那段代码的加权平均值为 (3n+1)/4，用大 O 表示法来表示，去掉系数和常量，这段代码的加权平均时间复杂度就是 O(n)。

平均时间复杂度的分析比较复杂，还要涉及概率论的知识。不过，在大多数情况下，我们并不需要区分最好、最坏、平均情况时间复杂度三种情况，很多时候，我们使用一个复杂度就可以满足需求了。只有同一块代码在不同的情况下，时间复杂度有量级的差距，我们才会使用这三种复杂度表示法来区分。

2.3 均摊时间复杂度

均摊时间复杂度，听起来跟平均时间复杂度有点儿像。对于初学者来说，这两个概念确实非常容易弄混。前面说了，大部分情况下，我们并不需要区分最好、最坏、平均三种复杂度。平均复杂度只在某些特殊情况下才会用到，而均摊时间复杂度应用的场景比它更加特殊、更加有限。

再分析下面这段代码的时间复杂度：

// array表示一个长度为n的数组，代码中的array.length就等于n

int[] array = new int[n]; 
int count = 0;

void insert(int val)
{    
	if (count == array.length) 
	{       
		int sum = 0;       
		for (int i = 0; i < array.length; ++i){          
			sum = sum + array[i];       
		}       
		array[0] = sum;       
		count = 1;    
	}    
	array[count] = val;    
	++count; 
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

这段代码实现了一个往数组中插入数据的功能。当数组满了之后，也就是代码中的 count == array.length 时，我们用 for 循环遍历数组求和，并清空数组，将求和之后的 sum 值放到数组的第一个位置，然后再将新的数据插入。但如果数组一开始就有空闲空间，则直接将数据插入数组。

那这段代码的时间复杂度是多少呢？我们可以先用上面刚介绍的三种时间复杂度的分析方法来分析一下。最理想的情况下，数组中有空闲空间，我们只需要将数据插入到数组下标为 count 的位置就可以了，所以最好情况时间复杂度为 O(1)。最坏的情况下，数组中没有空闲空间了，我们需要先做一次数组的遍历求和，然后再将数据插入，所以最坏情况时间复杂度为 O(n)。

那平均时间复杂度是多少呢？我们可以通过前面介绍的概率论的方法来分析，假设数组的长度是 n，根据数据插入的位置的不同，我们可以分为 n 种情况，每种情况的时间复杂度是 O(1)。除此之外，还有一种“额外”的情况，就是在数组没有空闲空间时插入一个数据，这个时候的时间复杂度是 O(n)。而且，这 n+1 种情况发生的概率一样，都是 1/(n+1)。所以，根据加权平均的计算方法，我们求得的平均时间复杂度就是：
平均时间复杂度分析2
我们对比一下这个 insert() 的例子和前面那个 find() 的例子，你就会发现这两者有很大差别。首先，find() 函数在极端情况下，复杂度才为 O(1)。但 insert() 在大部分情况下，时间复杂度都为 O(1)，只有个别情况下，复杂度才为 O(n)。其次，对于 insert() 函数来说，O(1) 时间复杂度的插入和 O(n) 时间复杂度的插入，出现的频率是非常有规律的，而且有一定的前后时序关系，一般都是一个 O(n) 插入之后，紧跟着 n-1 个 O(1) 的插入操作，循环往复。

针对上面insert()函数这种特殊场景的复杂度分析，我们并不需要像平均复杂度分析方法那样，找出所有的输入情况及相应的发生概率，然后再计算加权平均值。针对这种特殊的场景，我们引入了一种更加简单的分析方法：摊还分析法，通过摊还分析得到的时间复杂度我们起了一个名字，叫均摊时间复杂度。

那究竟如何使用摊还分析法来分析算法的均摊时间复杂度呢？我们还是继续看在数组中插入数据的这个例子。每一次 O(n) 的插入操作，都会跟着 n-1 次 O(1) 的插入操作，所以把耗时多的那次操作均摊到接下来的 n-1 次耗时少的操作上，均摊下来，这一组连续的操作的均摊时间复杂度就是 O(1)，这就是均摊分析的大致思路。

均摊时间复杂度可以看作是一种特殊的平均时间复杂度，均摊时间复杂度和摊还分析的应用场景比较特殊。那么，什么情况下可以使用均摊时间复杂度和摊还分析呢？

一般的，对一个数据结构进行一组连续操作中，大部分情况下时间复杂度都很低，只有个别情况下时间复杂度比较高，而且这些操作之间存在前后连贯的时序关系，这个时候，我们就可以将这一组操作放在一块儿分析，看是否能将较高时间复杂度那次操作的耗时，平摊到其他那些时间复杂度比较低的操作上。而且，在能够应用均摊时间复杂度分析的场合，一般均摊时间复杂度就等于最好情况时间复杂度。