1.11 Python 中的可迭代对象、迭代器与生成器¶

前言¶

Hi，大家好，我是可乐， 迭代器 与 生成器 是 Python 学习中不可避免的两个有趣的知识点，实际开发中也比较常用。

我们在处理大量数据时，有时会导致计算机内存不足，我们需要将数据分块处理，只处理所需的数据，这将大大减少计算机内存的消耗，这便是迭代器与生成器最直观的作用。

今天，我们一起来探索 迭代器 与 生成器 的相关知识，并附上相关案例代码，便于吸收、理解。

聊到这，我们不得不提起 可迭代对象 这个概念，首先我们用一张图片来展示它们三者之间的关系。

可迭代对象¶

可迭代对象（Iteratable Object） 是能够一次返回其中一个成员的对象，通常使用我们之前介绍过的 for 循环 来完成此操作，如字符串、列表、元组、集合、字典等等之类的对象都属于可迭代对象。

简单来理解，任何你可以循环遍历的对象都是可迭代对象。

1、使用 isinstance()函数 判断对象是否是可迭代对象

# 导入 collections 模块的 Iterable 对比对象
>>> from collections import Iterable
# 字符串是可迭代对象
>>> isinstance("kele", Iterable)
True
# 列表是可迭代对象
>>> isinstance(["kele"], Iterable)
True
# 字典是可迭代对象
>>> isinstance({"name":"kele"}, Iterable)
True
# 集合是可迭代对象
>>> isinstance({1,2}, Iterable)
True
# 数字不是可迭代对象
>>> isinstance(18, Iterable)
False

2、使用 dir()函数 查看对象内所有的属性与方法

# 字符串的所有属性与方法
>>> dir("kele")
[..., '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', ...]

# 列表的所有属性与方法
>>> dir(["kele"])
[..., '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__',...]

# 字典的所有属性与方法
>>> dir({"name":"kele"})
[..., '__iter__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__reduce__', ...]

# 数字的所有属性与方法
# 并没有找到 __iter__
>>> dir(18)
['__abs__', '__add__', '__and__', '__bool__', '__ceil__', '__class__', '__delattr__', '__dir__', '__divmod__', '__doc__', '__eq__', '__float__', '__floor__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getnewargs__', '__gt__', '__hash__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__le__', '__lshift__', '__lt__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfloordiv__', '__rlshift__', '__rmod__', '__rmul__', '__ror__', '__round__', '__rpow__', '__rrshift__', '__rshift__', '__rsub__', '__rtruediv__', '__rxor__', '__setattr__', '__sizeof__', '__str__', '__sub__', '__subclasshook__', '__truediv__', '__trunc__', '__xor__', 'bit_length', 'conjugate', 'denominator', 'from_bytes', 'imag', 'numerator', 'real', 'to_bytes']

3、对比可迭代对象与不可迭代对象的所有属性与方法，我们发现：可迭代对象都构建了 ``__iter__`` 方法，而不可迭代对象没有构建，因此我们也可通过此特点来判断某一对象是不是可迭代对象。

4、我们来验证一下这个结论

# 没有定义 __iter__ 方法则是不可迭代对象
>>> from collections import Iterable
>>> class IsIterable:
        pass
>>> isinstance(IsIterable(), Iterable)
False

# 定义 __iter__ 方法则是可迭代对象
>>> class IsIterable:
        def __iter__(self):
            pass
>>> isinstance(IsIterable(), Iterable)
True

5、看到这里，抛出一个思考， __iter__ 方法有什么作用，执行它我们能得到什么？

# 调用后，得到了一个与调用对象对应的对象 - iterator
>>> "kele".__iter__()
<str_iterator object at 0x0462CB30>
>>> ["kele"].__iter__()
<list_iterator object at 0x0462CA50>

这里得到的新对象，正是我们接下来要介绍的内容 - 迭代器。

迭代器¶

迭代器（Iterator） 是同时实现__iter__() 与 __next__() 方法的对象。

它可通过 __next__() 方法或者一般的 for 循环进行遍历，能够记录每次遍历的位置，迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完结束，迭代器只能往前不能后退，终止迭代则会抛出 StopIteration 异常。

1、迭代器是可迭代对象

>>> from collections import Iterable
# 以我们前面得到的迭代器为例
>>> isinstance("kele".__iter__(), Iterable)
True

2、使用 dir()函数 查看迭代器所有的属性与方法

>>> dir("kele".__iter__(), Iterable)
# 我们可以看到迭代器同时实现
# __iter__ 与 __next__ 方法
[..., '__iter__', '__le__', '__length_hint__', '__lt__', '__ne__', '__new__', '__next__', ...]

3、使用 __next__() 方法获取迭代器中的元素

>>> str_iterator = "kele".__iter__()
>>> str_iterator.__next__()
'k'
>>> str_iterator.__next__()
'e'
>>> str_iterator.__next__()
'l'
>>> str_iterator.__next__()
'e'
>>> str_iterator.__next__()
# 终止迭代则会抛出 StopIteration 异常
Traceback (most recent call last):
  File "<input>", line 1, in <module>
StopIteration

4、使用 next() 与 iter() 方法来实现相同的效果

# 使用 iter() 方法获取一个迭代器
>>> str_iterator = iter("kele")
# 使用 next() 方法获取迭代器中的元素
>>> next(str_iterator)
'k'
>>> next(str_iterator)
'e'
>>> next(str_iterator)
'l'
>>> next(str_iterator)
'e'
>>> next(str_iterator)
# 终止迭代则会抛出 StopIteration 异常
Traceback (most recent call last):
  File "<input>", line 1, in <module>
StopIteration

5、自己动手实现一个迭代器类，返回偶数

>>> class MyIterator:
        """
        迭代器类
        Author：可乐python说
        """
        # 类构造函数，调用时最先执行
        # 用于分配执行最初所需的任何值
        def __init__(self):
            self.num = 0
        # iter()和next()方法使这个类变成迭代器
        def __iter__(self):
            # 类本身就是迭代器，故直接返回本身
            return self
        def __next__(self):
            # 返回当前值
            return_num = self.num
            # 并改变下一次调用的状态
            self.num += 2
            return return_num

>>> my_iterator = MyIterator()
>>> next(my_iterator)
0
>>> next(my_iterator)
2
>>> next(my_iterator)
4
# 思考：for 循环为什么能够自动结束遍历？

6、前文实现的迭代器类，并没有写结束的条件，这里优化一下

>>> class MyIterator:
        """
        迭代器类
        Author：可乐python说
        """
        def __init__(self):
            self.num = 0
        def __iter__(self):
            return self
        def __next__(self):
            return_num = self.num
            # 只要值大于等于6，就停止迭代
            if return_num >= 6:
                raise StopIteration
            self.num += 2
            return return_num

>>> my_iterator = MyIterator()
>>> next(my_iterator)
0
>>> next(my_iterator)
2
>>> next(my_iterator)
4
>>> next(my_iterator)
Traceback (most recent call last):
  File "<input>", line 1, in <module>
StopIteration

7、我们还可对异常进行处理，获取到 StopIteration 异常便退出循环

>>> class MyIterator:
        # 以上略...
        def __next__(self):
            return_num = self.num
            # 只要值大于等于6，就停止迭代
            if return_num >= 6:
                raise StopIteration
            self.num += 2
            return return_num

>>> my_iterator = MyIterator()
>>> while True:
        try:
            my_num = next(my_iterator)
        except StopIteration:
            break
        print(my_num)

0
2
4

我们对迭代器捕获异常后，其实就是实现了与 for 循环类似的效果，这也正是 for 循环底层实现的方式，当迭代一个可迭代对象时，for 循环通过 iter() 方法获取要迭代的项，并使用 next() 方法返回后续的项。

迭代器可通过两种方式获取：一种是调用迭代器类中的方法直接返回迭代器，另一种是可迭代对象通过执行 __ iter()__ 方法获取，迭代器在一定程度上节省了内存，需要时才去获取对应的数据。

在某些情况下，我们不想遵循迭代器协议，即不想实现__iter__() 与 __next__() 方法，但我们又想实现与迭代器相同的功能，这时，就需要使用到一种特殊的迭代器，这正是我们接下来要介绍的内容 - 生成器。

生成器¶

Python 中，提供了两种 生成器（Generator） ，一种是生成器函数，另一种是生成器表达式。

生成器函数，定义与常规函数相同，区别在于，它使用 yield 语句 而不是 return 语句 返回结果， yield 语句一次返回一个结果，在每个结果中间，会暂停并保存当前所有的运行信息，以便下一次执行 next() 方法时从当前位置继续运行。

生成器表达式，与列表推导式类似，区别在于，它使用小括号 - () 包裹，而不是中括号，生成器返回按需产生结果的一个对象，而不是一次构建完整的列表。

1、动手实现一个生成器函数

>>> def my_generator():
        my_num = 0
        while my_num < 5:
            yield my_num
            my_num += 1

>>> generator_ = my_generator()
# 得到一个生成器对象
>>> type(generator_)
<class 'generator'>

2、生成器也是迭代器

# 以上略...
>>> generator_ = my_generator()
# 可发现 __iter__ 与 __next__ 方法
>>> dir(generator)
[..., '__iter__', '__le__', '__lt__', '__name__', '__ne__', '__new__', '__next__', ..., 'send', 'throw']

3、传统方式获取生成器的元素

# 以上略...
>>> generator_ = my_generator()
>>> next(generator_)
0
>>> next(generator_)
1
>>> next(generator_)
2
>>> next(generator_)
3
>>> next(generator_)
4
>>> next(generator_)
# 终止迭代则会抛出 StopIteration 异常
Traceback (most recent call last):
  File "<input>", line 1, in <module>
StopIteration

4、使用 for 循环获取生成器元素

# 以上略...
>>> generator_ = my_generator()
>>> for num_ in generator_:
        print(num_)

0
1
2
3
4

5、生成器表达式与列表生成式

聊到这，大家不妨思考一下，我们为什么要使用生成器？

我们以一个简单例子来对比一下，两者实现相同功能的内存消耗。

使用列表生成式获取一个包括 100 万个元素的列表，借用 sys 模块计算内存

>>> import sys
>>> my_list = [i for i in range(1000000)]
# 调用 sys.getsizeof() 获取内存消耗
>>> print("列表消耗的内存：{}".format(sys.getsizeof(my_list)))
列表消耗的内存：4348736

下面，我们看看生成器表达式

>>> import sys
>>> my_generator = [i for i in range(1000000)]
>>> print("生成器消耗的内存：{}".format(sys.getsizeof(my_generator)))
列表消耗的内存：56

很明显，对于相同数量的项，列表生成式和生成器在内存消耗上存在巨大差异，这就是我们为什么要使用生成器的原因。

应用 - 使用 yield 实现斐波那契数列¶

斐波那契数列（Fibonacci sequence），又称黄金分割数列、因数学家列昂纳多·斐波那契（Leonardoda Fibonacci）以兔子繁殖为例子而引入，故又称为“兔子数列”。

指的是这样一个数列：1、1、2、3、5、8、13、21、34、……在数学上，斐波纳契数列以如下被以递推的方法定义：F(1)=1，F(2)=1, F(n)=F(n-1)+F(n-2)

今天，我们使用 Python 中的 yield 来实现

>>> def fibonacci(n):
        """斐波那契数列实现"""
        a, b = 0, 1
        while n > 0:
            a, b = b, a + b
            n -= 1
            yield a
# 获取斐波那契数列前 10 个成员
>>> fibonacci_ = fibonacci(10)
    for i in fibonacci_:
        print(i)

1
1
2
3
5
8
13
21
34
55

扩展 - itertools 库简介¶

itertools 中的大多数函数是返回各种迭代器对象，如果自己去实现同样的功能，代码量会非常大，而在运行效率上反而更低，因此，我们很有必要了解一下这个标准库。

获取指定数目内正整数的累加和

>>> import itertools
# 获取 10 以内的正整数累加和
>>> cumulative_sum = itertools.accumulate(range(10))
# 转换为列表
>>> print(list(cumulative_sum))

[0, 1, 3, 6, 10, 15, 21, 28, 36, 45]

获取指定数目元素的所有排列（顺序有关）

>>> import itertools
# 获取元素 1、2、3 的所有排列结果
>>> array_result = itertools.permutations((1, 2, 3))
# 转换为列表
>>> print(list(array_result))

[(1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)]

总结¶

迭代器属于可迭代对象，生成器是特殊的迭代器。

可迭代对象都构建了 __iter__ 方法，迭代器还需构建 __next__() 方法。

生成器是一种特殊的迭代器，内部支持了生成器协议，不需要明确定义 __iter__ 方法和 __next__() 方法。

列表生成式的效率远高于 for 循环语句嵌套，生成器的效率远高于列表生成式。

获取可迭代对象的元素时，强烈推荐 for 循环，因为它具备自动处理异常的能力。

Python 中，包含 yield 关键词的普通函数就是生成器。

文中难免会出现一些描述不当之处（尽管我已反复检查多次），欢迎在留言区指正，也可分享迭代器、与生成器相关的技巧、以及有趣的案例。

原创文章已全部更新至 Github ：https://github.com/kelepython/kelepython

本文永久博客地址：https://kelepython.readthedocs.io/zh/latest/c01/c01_11.html