Python中迭代器与生成器（为什么for循环可以遍历list）

23-11-14 09:43

4451

8542

blog.csdn.net

Python中迭代器与生成器（为什么for循环可以遍历list）

文章目录

Python中迭代器与生成器（为什么for循环可以遍历list）

1 引言

只要你学了Python语言，就不会不知道for循环，也肯定用for循环来遍历一个列表(list)，那为什么for循环可以遍历list，而不能遍历int类型对象呢？怎么让一个自定义的对象可遍历？

这篇博客中，我们来一起探索一下这个问题，在这个过程中，我们会介绍到迭代器、可迭代对象、生成器，更进一步的，我们会详细介绍他们的原理、异同。

2 迭代器与可迭代对象

在开始下面内容之前，我们先说说标题中的“迭代”一词。什么是迭代？我认为，迭代一个完整过程中的一个重复，或者说每一次对过程的重复称为一次“迭代”，而每一次迭代得到的结果会作为下一次迭代的初始值，举一个类比来说：一个人类家族的发展是一个完整过程，需要经过数代人的努力，每一代都会以接着上一代的成果继续发展，所以每一代都是迭代。

2.1 迭代器

(1)怎么判断是否可迭代

作为一门设计语言，Python提供了许多必要的数据类型，例如基本数据类型int、bool、str，还有容器类型list、tuple、dict、set。这些类型当中，有些是可迭代的，有些不可迭代，怎么判断呢？

在Python中，我们把所有可以迭代的对象统称为可迭代对象，有一个类专门与之对应：Iterable。所以，要判断一个类是否可迭代，只要判断是否是Iterable类的实例即可。

from collections import Iterable
isinstance(123, Iterable)
False
isinstance(True, Iterable)
False
isinstance('abc', Iterable)
True
isinstance([], Iterable)
True
isinstance({}, Iterable)
True
isinstance((), Iterable)
True
1
2
3
4
5
6
7
8
9
10
11
12
13

所以，整型、布尔不可迭代，字符串、列表、字典、元组可迭代。

怎么让一个对象可迭代呢？毕竟，很多时候，我们需要用到的对象不止Python内置的这些数据类型，还有自定义的数据类型。答案就是实现__iter__()方法，只要一个对象定义了__iter__()方法，那么它就是可迭代对象。

from collections.abc import Iterable
class A():
    def __iter__(self):
        pass
print('A()是可迭代对象吗：',isinstance(A(),Iterable))
1
2
3
4
5

结果输出为：

A()是可迭代对象吗： True

瞧，我们在__iter__()方法里面甚至没写任何东西，反正我们在类A中定义则__iter__()方法，那么，它就是一个可迭代对象。

重要的事情说3遍：

只要一个对象定义了__iter__()方法，那么它就是可迭代对象。

2.2 迭代器

迭代器是对可迭代对象的改造升级，上面说过，一个对象定义了__iter__()方法，那么它就是可迭代对象，进一步地，如果一个对象同时实现了__iter__()和__next()__()方法，那么它就是迭代器。

来，跟我读三遍：

如果一个对象同时实现了__iter__()和__next()__()方法，那么它就是迭代器。

在Python中，也有一个类与迭代器对应：Iterator。所以，要判断一个类是否是迭代器，只要判断是否是Iterator类的实例即可。

from collections.abc import Iterable
from collections.abc import Iterator
class B():
    def __iter__(self):
        pass
    def __next__(self):
        pass
print('B()是可迭代对象吗：',isinstance(B(), Iterable))
print('B()是迭代器吗：',isinstance(B(), Iterator))
1
2
3
4
5
6
7
8
9

结果输出如下：

B()是可迭代对象吗： True

B()是迭代器吗： True
1
2
3

可见，迭代器一定是可迭代对象，但可迭代对象不一定是迭代器。

所以整型、布尔一定不是迭代器，因为他们连可迭代对象都算不上。那么，字符串、列表、字典、元组是迭代器吗？猜猜！

from collections.abc import Iterator
isinstance('abc', Iterator)
False
isinstance([], Iterator)
False
isinstance({}, Iterator)
False
isinstance((), Iterator)
False
1
2
3
4
5
6
7
8
9

惊不惊喜，意不意外，字符串、列表、字典、元组都不是迭代器。那为什么它们可以在for循环中遍历呢？而且，我想，看到这里，就算你已经可以在形式上区分可迭代对象和迭代器，但是你可能会问，这有什么卵用吗？确实，没多少卵用，因为我们还不知道__iter__()、next()到底是个什么鬼东西。

接下来，我们通过继续探究for循环的本质来解答这些问题。

2.3 for循环的本质

说到__iter__()和__next__()方法，就很有必要介绍一下iter()和next()方法了。

(1)iter()与__iter__()

iter()的作用是返回一个迭代器，虽然上面说过，只要实现了__iter__()方法就是可迭代对象，但是，没有实现功能(返回迭代器)总归是有问题的，就像一个村长，当选之后，那就是村长了，但是如果尸位素餐不做事，那总是有问题的。

iter()方法毕竟是一个特殊方法，不适合直接调用，所以Python提供了iter()方法。iter()是Python提供的一个内置方法，可以不用导入，直接调用即可。

from collections.abc import Iterator
class A():
    def __iter__(self):
        print('A类的__iter__()方法被调用')
        return B()
class B():
    def __iter__(self):
        print('B类的__iter__()方法被调用')
        return self
    def __next__(self):
        pass
a = A()
print('对A类对象调用iter()方法前，a是迭代器吗：', isinstance(a, Iterator))
a1 = iter(a)
print('对A类对象调用iter()方法后，a1是迭代器吗：', isinstance(a1, Iterator))
b = B()
print('对B类对象调用iter()方法前，b是迭代器吗：', isinstance(b, Iterator))
b1 = iter(b)
print('对B类对象调用iter()方法后，b1是迭代器吗：', isinstance(b1, Iterator))
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

运行结果如下：

对A类对象调用iter()方法前，a是迭代器吗： False

A类的__iter__()方法被调用

对A类对象调用iter()方法后，a1是迭代器吗： True

对B类对象调用iter()方法前，b是迭代器吗： True

B类的__iter__()方法被调用

对B类对象调用iter()方法后，b1是迭代器吗： True
1
2
3
4
5
6
7
8
9
10
11

对于B类，因为B类本身就是迭代器，所以可以直接返回B类的实例，也就是说self，当然，你要是返回其他迭代器也没毛病。对于类A，它只是一个可迭代对象，iter()方法需要返回一个迭代器，所以返回了B类的实例，如果返回的不是一个迭代器，调用iter()方法时就会报以下错误：

TypeError: iter() returned non-iterator of type 'A'
1

(2)next()与__next__()

next()的作用是返回遍历过程中的下一个元素，如果没有下一个元素则主动抛出StopIteration异常。而next()就是Python提供的一个用于调用__next__()方法的内置方法。

下面，我们通过next()方法来遍历一个list：

 list_1 = [1, 2, 3]
 next(list_1)
 Traceback (most recent call last):
 File "", line 1, in <module>
 next(list_1)
 TypeError: 'list' object is not an iterator
 list_2 = iter(list_1)
 next(list_2)
 1
 next(list_2)
 2
 next(list_2)
 3
 next(list_2)
 Traceback (most recent call last):
 File "", line 1, in <module>
 next(list_2)
 StopIteration
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

因为列表只是可迭代对象，不是迭代器，所以对list_1直接调用next()方法会产生异常。对list_1调用iter()后就可以获得是迭代器的list_2，对list_2每一次调用next()方法都会取出一个元素，当没有下一个元素时继续调用next()就抛出了StopIteration异常。

 class A():
 　　def __init__(self, lst):
 　　self.lst = lst
 　　def __iter__(self):
 　　print('A.__iter__()方法被调用')
 　　return B(self.lst)
 class B():
 　　def __init__(self, lst):
 　　self.lst = lst
 　　self.index = 0
 　　def __iter__(self):
 　　print('B.__iter__()方法被调用')
 　　return self
 　　def __next__(self):
 　　try:
 　　   print('B.__next__()方法被调用')
 　　    value = self.lst[self.index]
 　　    self.index += 1
 　　    return value
 　　 except IndexError:
 　　  raise StopIteration()
 a = A([1, 2, 3])
 a1 = iter(a)
 A.__iter__()方法被调用
 next(a1)
 B.__next__()方法被调用
 1
 next(a1)
 B.__next__()方法被调用
 2
 next(a1)
 B.__next__()方法被调用
 3
 next(a1)
 B.__next__()方法被调用
 Traceback (most recent call last):
 File "", line 11, in __next__
 value = self.lst[self.index]
 IndexError: list index out of range

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "", line 1, in <module>
    next(a1)
  File "", line 15, in __next__
    raise StopIteration()
StopIteration
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48

A类实例化出来的实例a只是可迭代对象，不是迭代器，调用iter()方法后，返回了一个B类的实例a1，每次对a1调用next()方法，都用调用B类的__next__()方法。

接下来，我们用for循环遍历一下A类实例：

 for i in A([1, 2, 3]):
 　　　　print('for循环中取出值:',i)
1
2

A.__iter__()方法被调用
B.__next__()方法被调用
for循环中取出值: 1
B.__next__()方法被调用
for循环中取出值: 2
B.__next__()方法被调用
for循环中取出值: 3
B.__next__()方法被调用
1
2
3
4
5
6
7
8

通过for循环对一个可迭代对象进行迭代时，for循环内部机制会自动通过调用iter()方法执行可迭代对象内部定义的__iter__()方法来获取一个迭代器，然后一次又一次得迭代过程中通过调用next()方法执行迭代器内部定义的__next__()方法获取下一个元素，当没有下一个元素时，for循环自动捕获并处理StopIteration异常。如果你还没明白，请看下面用while循环实现for循环功能，整个过程、原理都是一样的：

 a = A([1, 2, 3])
 a1 = iter(a)
 A.__iter__()方法被调用
 while True:
 　　　　try:
 　　　　　　i = next(a1)
 　　　　　　print('for循环中取出值:', i)
 　　　　except StopIteration:
 　　　　　　break
1
2
3
4
5
6
7
8
9

B.__next__()方法被调用
for循环中取出值: 1
B.__next__()方法被调用
for循环中取出值: 2
B.__next__()方法被调用
for循环中取出值: 3
B.__next__()方法被调用
1
2
3
4
5
6
7

作为一个迭代器，B类对象也可以通过for循环来迭代：

for i in B([1, 2, 3]):
　　　　print('for循环中取出值:',i)
1
2

B.__iter__()方法被调用
B.__next__()方法被调用
for循环中取出值: 1
B.__next__()方法被调用
for循环中取出值: 2
B.__next__()方法被调用
for循环中取出值: 3
B.__next__()方法被调用
1
2
3
4
5
6
7
8

看出来了吗？这就是for循环的本质。

3 生成器

3.1 迭代器与生成器

如果一个函数体内部使用yield关键字，这个函数就称为生成器函数，生成器函数调用时产生的对象就是生成器。生成器是一个特殊的迭代器，在调用该生成器函数时，Python会自动在其内部添加__iter__()方法和__next__()方法。把生成器传给 next() 函数时，生成器函数会向前继续执行，执行到函数定义体中的下一个 yield 语句时，返回产出的值，并在函数定义体的当前位置暂停，下一次通过next()方法执行生成器时，又从上一次暂停位置继续向下……，最终，函数内的所有yield都执行完，如果继续通过yield调用生成器，则会抛出StopIteration 异常——这一点与迭代器协议一致。

from collections.abc import Iterable
from collections.abc import Iterator
def gen():
　　print('第1次执行')
　　yield 1
　　print('第2次执行')
　　yield 2
　　print('第3次执行')
　　yield 3
 
 
g = gen()
isinstance(g, Iterable)
True
isinstance(g, Iterator)
True
g
<generator object gen at 0x0000021CE9A39A98>
next(g)
第1次执行
1
next(g)
第2次执行
2
next(g)
第3次执行
3
next(g)
Traceback (most recent call last):
File "", line 1, in <module>
next(g)
StopIteration
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

可以看到，生成器的执行机制与迭代器是极其相似的，生成器本就是迭代器，只不过，有些特殊。那么，生成器特殊在哪呢？或者说，有了迭代器，为什么还要用生成器？

从上面的介绍和代码中可以看出，生成器采用的是一种惰性计算机制，一次调用也只会产生一个值，它不会将所有的值一次性返回给你，你需要一个那就调用一次next()方法取一个值，这样做的好处是如果元素有很多(数以亿计甚至更多)，如果用列表一次性返回所有元素，那么会消耗很大内存，如果我们只是想要对所有元素依次一个一个取出来处理，那么，使用生成器就正好，一次返回一个，并不会占用太大内存。

举个例子，假设我们现在要取1亿以内的所有偶数，如果用列表来实现，代码如下：

def fun_list():
    index = 1
    temp_list = []
    while index < 100000000:
        if index % 2 == 0:
            temp_list.append(index)
            print(index)
        index += 1
    return temp_list
1
2
3
4
5
6
7
8
9

上面程序会先获取所有符合要求的偶数，然后一次性返回。如果你运行了代码，你就会发现两个问题——运行时间很长、消耗很多内存。

有时候，我们并不一定需要一次性获得所有的对象，需要一个使用一个就可以，这样的话，可以用生成器来实现：

def fun_gen():
　　index = 1
　　while index < 100000000:
　　  if index % 2 == 0:
　　      yield index
　　  index += 1
 
 
fun_gen()
<generator object fun_gen at 0x00000222DC2F4360>
g = fun_gen()
next(g)
2
next(g)
4
next(g)
6
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

看到了吗？对生成器没执行一次next()方法，就会返回一个元素，这样的话无论在速度上还是机器性能消耗上都会好很多。如果你还没感受到生成器的优势，我再说一个应用场景，假如需要取出远程数据库中的100万条记录进行处理，如果一次性获取所有记录，网络带宽、内存都会有很大消耗，但是如果使用生成器，就可以取一条，就在本地处理一条。

不过，生成器也有不足，正因为采用了惰性计算，你不会知道下一个元素是什么，更不会知道后面还有多少元素，所以，对于列表、元组等结构，我们能调用len()方法获知长度，但是对于生成器却不能。

总结一下迭代器与生成器的异同：

(1)生成器是一种特殊的迭代器，拥有迭代器的所有特性；

(2)迭代器使用return返回值而生成器使用yield返回值每一次对生成器执行next()都会在yield处暂停；

(3)迭代器和生成器虽然都执行next()方法时返回下一个元素，迭代器在实例化前就已知所有元素，但是采用惰性计算机制，共有多少元素，下一个元素是什么都是未知的，每一次对生成器对象执行next()方法才会产生下一个元素。

3.2 生成器解析式

使用过列表解析式吗？语法格式为：[返回值 for 元素 in 可迭代对象 if 条件]

看下面代码：

li = []
for i in range(5):
　　if i%2==0:
　　li.append(i**2)
 
 
li
[0, 4, 16]
1
2
3
4
5
6
7
8

我们可以用列表解析式实现同样功能：

 li = [i**2 for i in range(5) if i%2==0]
 li
 [0, 4, 16]
 type(li)
 <class 'list'>
1
2
3
4
5

很简单对不对？简洁了很多，返回的li就是一个列表。咳咳……偏题了，我们要说的是生成器解析式，而且我相信打开我这篇博文的同学大多都熟悉列表解析式，回归正题。

生成器解析式语法格式为：(返回值 for 元素 in 可迭代对象 if 条件)

你没看错，跟列表解析式相比，生成器解析式只是把方括号换成了原括号。来感受一下：

 g = (i**2 for i in range(5) if i%2==0)
 g
 <generator object <genexpr> at 0x00000222DC2F4468>
 next(g)
 0
 next(g)
 4
 next(g)
 16
 next(g)
 Traceback (most recent call last):
 File "", line 1, in <module>
 next(g)
 StopIteration
1
2
3
4
5
6
7
8
9
10
11
12
13
14

可以看到，生成器解析式返回的就是一个生成器对象，换句话说生成器解析式是生成器的一种定义方式，这种方式简单快捷，当然实现的功能不能太复杂。

4 总结

本文全面总结了Python中可迭代对象、迭代器、生成器知识，我相信，只要你认真消化我这篇博文，就能深刻领悟迭代器生成器。

《AUTOSAR谱系分解(ETAS工具链)》之总目录

id="article_content" class="article_content clearfix" style="height: 2000px; overflow: hidden;"> id="content_views" class="markdown_views prism-tomorrow-night">

class="toc">

个人主页：道友老李

欢迎加入社区：道友老李的学习社区

介绍

爬虫（Web Crawler 或 Web Spider）是一种自动化程序或脚本，它通过互联网上的链接从一个网页到另一个网页地抓取数据。爬虫通常用于搜索引擎索引、数据分析、内容聚合等目的。它们按照一定的规则遍历网页，下载页面内容，并将这些信息存储起来以供后续处理。

爬虫的工作原理

种子 URL：爬虫从一组初始的 URL（称为“种子”）开始。
获取页面：访问每个种子 URL，下载对应的网页内容。
解析页面：分析网页的 HTML 结构，提取有用的数据和所有指向其他页面的链接。
更新队列：将新发现的链接添加到待访问列表中，确保不会重复抓取已经访问过的页面。
存储数据：保存所提取的数据到数据库或其他形式的持久化存储中。
遵守规范：遵循网站的 robots.txt 文件和其他相关协议，尊重网站设定的爬行限制。

爬虫的主要类型

通用爬虫（General Purpose Crawlers）：如谷歌、百度等搜索引擎使用的爬虫，目的是尽可能广泛地收集互联网上的信息，构建大型索引库。
聚焦爬虫（Focused Crawlers）：专注于特定主题或领域的网页，比如只抓取与科技新闻相关的网站。
增量式爬虫（Incremental Crawlers）：定期重新抓取已知页面，以捕捉任何更新或变化的内容。
深度优先搜索爬虫（DFS Crawlers）：尽可能深地沿着一条路径前进，直到无法继续为止，然后回溯并选择另一条路径。
广度优先搜索爬虫（BFS Crawlers）：先抓取同一层级的所有页面，再向下一层级扩展。

构建爬虫的技术栈

编程语言：Python 是最常用的语言之一，因为它有丰富的库支持，如 Scrapy、BeautifulSoup、Requests 等；此外，Java、JavaScript（Node.js）、Ruby 也有相应的框架。
HTTP 请求库：例如 Python 的 Requests 库，用于发送 HTTP 请求并接收响应。
HTML 解析器：如 BeautifulSoup、lxml，用于解析 HTML 文档结构，提取所需信息。
异步 I/O 和多线程：为了提高效率，可以使用异步 I/O 模型（如 asyncio）或多线程技术来并发处理多个请求。
数据库/文件系统：用来存储抓取下来的数据，可以选择关系型数据库（MySQL、PostgreSQL）、NoSQL 数据库（MongoDB）或者直接写入文件系统。
代理服务和 IP 轮换：为了避免被目标网站封禁 IP 地址，可以通过代理服务器分散请求来源，甚至动态更换 IP。
浏览器模拟工具：对于需要执行 JavaScript 渲染才能显示内容的网站，可以使用 Selenium、Puppeteer 等工具来模拟真实用户的浏览器行为。

爬虫的最佳实践

遵守法律和道德准则：确保你的爬虫活动符合法律法规，并且不侵犯个人隐私或版权。
尊重网站规则：检查并遵守目标网站的 robots.txt 文件中的指示，不要对服务器造成过大的负载。
设置合理的抓取频率：避免过于频繁地请求同一个站点，以免影响其正常运作。
处理异常情况：为网络故障、超时等问题设计好容错机制。
数据清洗和验证：确保抓取到的数据是准确无误的，并对其进行必要的清理和转换。

面临的挑战

反爬虫措施：许多网站会采取各种手段防止被恶意爬虫滥用，如验证码、登录验证、IP 黑名单等。
动态内容加载：随着 AJAX 和前端框架的发展，越来越多的网站采用异步加载方式，这增加了爬虫抓取完整页面内容的难度。
数据一致性：在分布式环境中，保证不同节点之间数据的一致性和准确性是一个复杂的问题。

总之，构建一个高效的爬虫需要综合考虑技术实现、性能优化以及伦理问题等多个方面。正确地设计和部署爬虫可以帮助我们更好地理解和利用互联网上的海量信息资源。

XPath解析数据

在这里插入图片描述

XPath
- 全称： XML Path Language是一种小型的查询语言
- 是一门在XML文档中查找信息的语言
XPath的优点
- 可在XML中查找信息
- 支持HTML的查找
- 可通过元素和属性进行导航
Xpath需要依赖lxml库
- 安装方式 : pip install lxml

XML的树形结构

在这里插入图片描述

选取节点

在这里插入图片描述

案例

import requests
from lxml import etree

url = 'https://www.qidian.com/rank/yuepiao'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}

# 发送请求
resp = requests.get(url, headers)
e = etree.HTML(resp.text)  # 类型转换 将str类型转换成class 'lxml.etree._Element'
# print(type(e))
names = e.xpath('//div[@class="book-mid-info"]/h4/a.txt/text()')
authors = e.xpath('//p[@class="author"]/a.txt[1]/text()')
# print(names)
# print(authors)
for name, author in zip(names, authors):
    print(name, ":", author)
 class="hljs-button signin active" data-title="登录复制" data-report-click="{"spm":"1001.2101.3001.4334"}">

Python中迭代器与生成器（为什么for循环可以遍历list）

文章目录

1 引言

2 迭代器与可迭代对象

2.1 迭代器

2.2 迭代器

2.3 for循环的本质

3 生成器

3.1 迭代器与生成器

3.2 生成器解析式

4 总结

文章目录

介绍

爬虫的工作原理

爬虫的主要类型

构建爬虫的技术栈

爬虫的最佳实践

面临的挑战

XPath解析数据

XML的树形结构

选取节点

案例

BeautifulSoup解析数据

解析器

提取数据常用方法

案例1

欢迎大家来到道友老李的博客

案例2

案例3

正则表达式

正则语法

特殊序列

正则处理函数

案例1

案例2

pyquery解析数据

初始化方式

使用方式

案例

评论记录：