.. include:: ../LINKS.rst
﻿

.. _tut-structures:

************************
数据结构
************************

本章深入讲述一些你已经学过的东西, 当然也同样增加了一些新的内容.

.. _tut-morelists:

深入列表
======================

列表数据类型还有一些方法. 这里把列表对象的所有的方法都列了出来:


.. method:: list.append(x)
   :noindex:

   在列表的尾部添加一个项; 等价于 ``a[len(a):] = [x]``.


.. method:: list.extend(L)
   :noindex:

   用给入的列表将当前列表接长; 等价于 ``a[len(a):] = L``.

.. method:: list.insert(i, x)
   :noindex:

   在给定的位置上插入项. 第一个参数就是准备在它之前插入的元素的索引, 因此
   ``a.insert(0, x)`` 会在列表的头部插入, 而 ``a.insert(len(a), x)``
   则等价于 ``a.append(x)``.


.. method:: list.remove(x)
   :noindex:

   移除列表中第一个值为 *x* 的项. 没有符合要求的项时, 会产生一个错误.


.. method:: list.pop([i])
   :noindex:

   删除列表给定位置的项, 并返回它. 如果没有指定索引, ``a.pop`` 移除并返回列表的最后一项.
   (函式原型的 *i* **在中方括号中** 意味着它是一个可选参数, 而不是你应当在那里键入一个方括号.
   你将会在 Python 库参考中经常见到这种表示法.)


.. method:: list.index(x)
   :noindex:

   返回列表中第一个值为 *x* 的项索引值. 如果没有匹配的项, 则产生一个错误.


.. method:: list.count(x)
   :noindex:

   返回列表中 *x* 出现的次数.


.. method:: list.sort()
   :noindex:

   就地完成列表排序.


.. method:: list.reverse()
   :noindex:

   就地完成列表项的翻转.

下面这个示例演示了列表的大部分方法::

   >>> a = [66.25, 333, 333, 1, 1234.5]
   >>> print(a.count(333), a.count(66.25), a.count('x'))
   2 1 0
   >>> a.insert(2, -1)
   >>> a.append(333)
   >>> a
   [66.25, 333, -1, 333, 1, 1234.5, 333]
   >>> a.index(333)
   1
   >>> a.remove(333)
   >>> a
   [66.25, -1, 333, 1, 1234.5, 333]
   >>> a.reverse()
   >>> a
   [333, 1234.5, 1, 333, -1, 66.25]
   >>> a.sort()
   >>> a
   [-1, 1, 66.25, 333, 333, 1234.5]


.. _tut-lists-as-stacks:

把列表当成堆栈用
--------------------------------------

.. sectionauthor:: Ka-Ping Yee <ping@lfw.org>


列表的方法使得其能十分简便的当成堆栈来使用,
堆栈的特性是最后添加的元素就是第一个取出的元素
(即"后入先出").
要在栈顶添加一个项, 就使用 :meth:`append`. 
要从栈顶取回一个项, 就使用不带显式索引的 :meth:`pop`. 例如::

   >>> stack = [3, 4, 5]
   >>> stack.append(6)
   >>> stack.append(7)
   >>> stack
   [3, 4, 5, 6, 7]
   >>> stack.pop()
   7
   >>> stack
   [3, 4, 5, 6]
   >>> stack.pop()
   6
   >>> stack.pop()
   5
   >>> stack
   [3, 4]


.. _tut-lists-as-queues:

把列表当队列使用
--------------------------------------

.. sectionauthor:: Ka-Ping Yee <ping@lfw.org>

也可以把列表当成队列使用, 队列的特性是第一个添加的元素就是第一个取回的元素
(即"先入先出"); 
然而, 这时列表是低效的. 
从列表的尾部添加和弹出是很快的,
而在列表的开头插入或弹出是慢的 (因为所有元素都得移动一个位置).

要实现一个队列, 使用 :class:`collection.deque`, 
它被设计成在两端添加和弹出都很快.
例如::

   >>> from collections import deque
   >>> queue = deque(["Eric", "John", "Michael"])
   >>> queue.append("Terry")           # Terry 进入
   >>> queue.append("Graham")          # Graham 进入
   >>> queue.popleft()                 # 第一个进入的现在离开
   'Eric'
   >>> queue.popleft()                 # 第二个进入的现在离开
   'John'
   >>> queue                           # 剩余的队列, 它按照进入的顺序排列
   deque(['Michael', 'Terry', 'Graham'])


.. _tut-listcomps:

列表推导式
----------------------------

列表推导式提供了从序列中创建列表的简便途径.
通常程序会对序列的每一个元素做些操作,并以其结果作为新列表的元素,
或者根据指定的条件来创建子序列.

而列表推导式的结构是, 在一个方括号里, 首先是一个表达式, 随后是一个 :keyword:`for` 子句,
然后是零个或更多的 :keyword:`for` 或 :keyword:`if` 子句.
结果将是通过计算 :keyword:`for` 和 :keyword:`if` 子句来获得的一个列表.
如果要使表达式推导式出元组, 就必须用圆括号.

这里我们将一个数字列表每个元素翻三倍从而生成一个新列表::

   >>> vec = [2, 4, 6]
   >>> [3*x for x in vec]
   [6, 12, 18]

现在加点儿小花样::

   >>> [[x, x**2] for x in vec]
   [[2, 4], [4, 16], [6, 36]]

这里我们对序列里每一项逐个调用某方法::

   >>> freshfruit = ['  banana', '  loganberry ', 'passion fruit  ']
   >>> [weapon.strip() for weapon in freshfruit]
   ['banana', 'loganberry', 'passion fruit']

我们可以用 :keyword:`if` 子句来进行过滤::

   >>> [3*x for x in vec if x > 3]
   [12, 18]
   >>> [3*x for x in vec if x < 2]
   []

元组经常能不用圆括号而创建, 但这里不行::

   >>> [x, x**2 for x in vec]  # error - parens required for tuples
     File "<stdin>", line 1, in ?
       [x, x**2 for x in vec]
                  ^
   SyntaxError: invalid syntax
   >>> [(x, x**2) for x in vec]
   [(2, 4), (4, 16), (6, 36)]

这里是一些循环的嵌套和其它技巧的演示::

   >>> vec1 = [2, 4, 6]
   >>> vec2 = [4, 3, -9]
   >>> [x*y for x in vec1 for y in vec2]
   [8, 6, -18, 16, 12, -36, 24, 18, -54]
   >>> [x+y for x in vec1 for y in vec2]
   [6, 5, -7, 8, 7, -5, 10, 9, -3]
   >>> [vec1[i]*vec2[i] for i in range(len(vec1))]
   [8, 12, -54]

列表推导式可使用复杂的表达式和嵌套的函式::

   >>> [str(round(355/113, i)) for i in range(1, 6)]
   ['3.1', '3.14', '3.142', '3.1416', '3.14159']


嵌套列表推导式
---------------------------------------

如果你受的了的话, 其实列表推导式是可以嵌套的. 
它的确是个强大的工具, 但 -- 就像所有强大的工具一样 -- 需要被小心地使用,

考虑下面的例子, 有一个 3x3 的矩阵, 存储为一个包含三个列表的列表, 每一行一个列表::

    >>> mat = [
    ...        [1, 2, 3],
    ...        [4, 5, 6],
    ...        [7, 8, 9],
    ...       ]

现在, 如果你想交换行和列, 可以使用列表推导式::

    >>> print([[row[i] for row in mat] for i in [0, 1, 2]])
    [[1, 4, 7], [2, 5, 8], [3, 6, 9]]

使用*嵌套*列表推导式时特别需要注意:

    从右至左地阅读嵌套列表推导式更容易理解.

该代码的冗长版本, 就明白地表述了流程::

    for i in [0, 1, 2]:
        for row in mat:
            print(row[i], end="")
        print()

现实中, 你应当选择内建函式来处理复杂流程. 这里, 函式 :func:`zip` 就非常好用.

    >>> list(zip(*mat))
    [(1, 4, 7), (2, 5, 8), (3, 6, 9)]

参见 :ref:`tut-unpacking-arguments` 了解本行中星号的详细内容.

.. _tut-del:

:keyword:`del` 语句
================================================

这有一种通过给定索引而不是值, 来删除列表中项的方法: 用 :keyword:`del` 语句.
它与返回一个值的 :meth:`pop` 方法不同. :keyword:`del` 语句也可以移除列表中的切片,
或者清除整个列表 (之前我们通过给切片赋值为空列表来完成这点). 例如::

   >>> a = [-1, 1, 66.25, 333, 333, 1234.5]
   >>> del a[0]
   >>> a
   [1, 66.25, 333, 333, 1234.5]
   >>> del a[2:4]
   >>> a
   [1, 66.25, 1234.5]
   >>> del a[:]
   >>> a
   []

:keyword:`del` 也可以用于删除变量实体::

   >>> del a

在这之后引用 ``a`` 的话会产生一个错误 (至少到给它赋另一个值之前). 我们将在后面找到
:keyword:`del` 的其它用法.


.. _tut-tuples:

元组和序列
===============================

我们看到列表和字串有很多通用的属性, 例如索引和切片操作.
它们是 **序列** 数据类型的两个例子 (参考 :ref:`typesseq`).
Python 作为一门进化中的语言, 可能还有其它序列类型会被加入.
这里就有另一种标准序列数据类型: **元组** .

元组由若干逗号分隔的值组成, 例如::

   >>> t = 12345, 54321, 'hello!'
   >>> t[0]
   12345
   >>> t
   (12345, 54321, 'hello!')
   >>> # Tuples may be nested:
   ... u = t, (1, 2, 3, 4, 5)
   >>> u
   ((12345, 54321, 'hello!'), (1, 2, 3, 4, 5))

如你所见, 元组输出时用圆括号包围, 以便正确表达元组的嵌套;
在输入时圆括号可加可不加, 不过圆括号经常是必要的
(特别是当元组是更大的表达式的一部分时).

元组有许多用途. 例如: (x, y) 坐标对, 数据库里的员工记录等. 
元组同字串都是不可变的: 无法对元组指定项进行赋值 (尽管可通过切片和连接来模拟这个操作).
元组中可以包含可变的对象, 如列表.

构造包含 0 或 1 个项的元组是个特殊问题: 语法上为了适应这一情况,有些额外的规则.
空元组由一对空的圆括号构造; 一个项的元组由一个值后面跟着一个逗号构造
(把一个值放入一对圆括号里并不足以构造一个元组). 丑陋, 但有效. 例如::

   >>> empty = ()
   >>> singleton = 'hello',    # <-- 注意后面的逗号
   >>> len(empty)
   0
   >>> len(singleton)
   1
   >>> singleton
   ('hello',)

语句 ``t = 12345, 54321, 'hello!'`` 是 **元组打包** 的一个例子:
值 ``12345``, ``54321`` 和 ``'hello!'`` 被打包进一个元组.
反过来, 这个操作也是可行的::

   >>> x, y, z = t

这种对右侧任一序列的处理很合适称为 **序列解包** .
序列解包时要求等号左边的值个数与右边序列元素个数相等.
注意, 多重赋值其实是联合使用了元组打包和序列解包.
(虽然元组和列表都算序列,但是必须有所不同)

.. XXX Add a bit on the difference between tuples and lists.


.. _tut-sets:

集合(Set)
=========

Python 还包含了 *集合(set)* 数据类型. 集合是种无序不重复的元素集.
基本用途包括成员关系测试和重复条目消除. 
集合对象也支持合(union),交(intersection), 差(difference), 和对称差(sysmmetric difference)等数学操作.

花括号或函式 :func:`set` 可用于创建集合. 注意: 创建一个空集合只能使用
``set()``, 而不能使用 ``{}``; 后者是创建一个空字典, 字典我们会在下一节里讨论.

以下是简明示范:

   >>> basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
   >>> print(basket)                      # 重复的被移除了
   {'orange', 'banana', 'pear', 'apple'}
   >>> 'orange' in basket                 # 快速成员关系测试
   True
   >>> 'crabgrass' in basket
   False

   >>> # 在两个单词的不重复的字母里演示集合操作
   ...
   >>> a = set('abracadabra')
   >>> b = set('alacazam')
   >>> a                                  # a 中的不重复字母
   {'a', 'r', 'b', 'c', 'd'}
   >>> a - b                              # a 中有而 b 中没有的字母
   {'r', 'd', 'b'}
   >>> a | b                              # 既有 a 的字母又有 b 的字母
   {'a', 'c', 'r', 'd', 'b', 'm', 'z', 'l'}
   >>> a & b                              # a 和 b 中都有的字母
   {'a', 'c'}
   >>> a ^ b                              # a 或 b 中只有一个有的字母
   {'r', 'd', 'b', 'm', 'z', 'l'}

就像 :ref:`列表 <tut-listcomps>`, 集合也支持推导式::

   >>> a = {x for x in 'abracadabra' if x not in 'abc'}
   >>> a
   {'r', 'd'}


.. _tut-dictionaries:

字典
=================

Python 中另一很有用的内建数据类型为 *字典* (参考 :ref:`typesmapping`).
在其它语言中字典一般被叫做 "关联存储" 或 "关联数组". 与使用某个范围作为索引的序列不一样,
字典通过 *键* 来索引, 而键可以是任意不可变类型; 通常用字符串和数字作为键.
如果元组只包含字符串和数字, 元组也可以作为键; 
但是, 当元组直接或间接地包含可变对象时, 就不能用作一个键. 
不能使用列表作为键, 因为列表可以通过索引, 切片, 或如
:meth:`append` 和 :meth:`extend` 方法原地赋值而被改变.

最好把字典看成是一个没有顺序的 *键:值* 对集合, 键必须是唯一的 (在一个字典里).
一对花括号创建一个空字典: ``{}``.
在括号中间放置的以逗号分隔的 ``键:值对`` 列表就是字典的初始 ``键:值对``.
这也是字典输出时的格式.

字典最主要的操作是通过某键存储一个值, 以及从给定的键里提取它的值.
使用 ``del`` 可以删除一个键:值对. 如果你使用一个已被使用的键进行存储操作,
该键的旧值就没有了. 使用一个不存在的键提取值会产生一个错误.

在一个字典上执行 ``list(d.keys())`` 返回该字典中所使用键的列表, 该列表的顺序不确定
(如果需要有序, 只要使用 ``sorted(d.keys())``). [#]_ 要检查某一个键是否在字典里,
使用 :keyword:`in` 关键字.

这是一个使用字典的小例子::

   >>> tel = {'jack': 4098, 'sape': 4139}
   >>> tel['guido'] = 4127
   >>> tel
   {'sape': 4139, 'guido': 4127, 'jack': 4098}
   >>> tel['jack']
   4098
   >>> del tel['sape']
   >>> tel['irv'] = 4127
   >>> tel
   {'guido': 4127, 'irv': 4127, 'jack': 4098}
   >>> list(tel.keys())
   ['irv', 'guido', 'jack']
   >>> sorted(tel.keys())
   ['guido', 'irv', 'jack']
   >>> 'guido' in tel
   True
   >>> 'jack' not in tel
   False

构造器 :func:`dict()` 从键-值对序列里直接生成字典,如果有固定的模式,可在列表推导式指定特定的键值对::

   >>> dict([('sape', 4139), ('guido', 4127), ('jack', 4098)])
   {'sape': 4139, 'jack': 4098, 'guido': 4127}
   >>> dict([(x, x**2) for x in (2, 4, 6)])     # 使用列表推导式
   {2: 4, 4: 16, 6: 36}


在本教程后面的章节, 会学习到生成器表达式, 这更适于为 :func:`dict()` 构造器生成键-值对序列.
若键为字符串, 有时用关键字参数指定键-值对更为简单::

   >>> dict(sape=4139, guido=4127, jack=4098)
   {'sape': 4139, 'jack': 4098, 'guido': 4127}


.. _tut-loopidioms:

遍历技巧
===========================

当对字典遍历时, 可用 :meth:`items` 方法同时取回键和对应的值. ::

   >>> knights = {'gallahad': 'the pure', 'robin': 'the brave'}
   >>> for k, v in knights.items():
   ...     print(k, v)
   ...
   gallahad the pure
   robin the brave

对序列遍历时, 可以使用 :func:`enumerate` 函式来同时取回位置索引和相应的值.

   >>> for i, v in enumerate(['tic', 'tac', 'toe']):
   ...     print(i, v)
   ...
   0 tic
   1 tac
   2 toe

同时对两个或更多的序列进行遍历时, 可用 :func:`zip` 进行组合 ::

   >>> questions = ['name', 'quest', 'favorite color']
   >>> answers = ['lancelot', 'the holy grail', 'blue']
   >>> for q, a in zip(questions, answers):
   ...     print('What is your {0}?  It is {1}.'.format(q, a))
   ...
   What is your name?  It is lancelot.
   What is your quest?  It is the holy grail.
   What is your favorite color?  It is blue.

反向遍历序列时, 先指定这个序列, 然后调用 :func:`reversed` 函式 ::

   >>> for i in reversed(range(1, 10, 2)):
   ...     print(i)
   ...
   9
   7
   5
   3
   1

想有序地遍历一个序列, 用 :func:`sorted` 函式返回排序后的序列,原序列将不被触及 ::

   >>> basket = ['apple', 'orange', 'apple', 'pear', 'orange', 'banana']
   >>> for f in sorted(set(basket)):
   ...     print(f)
   ...
   apple
   banana
   orange
   pear


.. _tut-conditions:

深入条件控制
===========================

在 ``while`` 和 ``if`` 语句中使用的条件可以包含任何操作符, 而不仅仅是比较.

- 比较操作符 ``in`` 和 ``not in`` 检查一个值是否在序列中. 
- 操作符 ``is`` 和 ``is not`` 比较两个对象是否为同一对象; 这只对诸如列表的可变对象有用.

所有比较操作符具有相同的优先级, 低于所有的数值操作.

比较操作符可以连起来使用. 例如, 
- ``a < b == c`` 测试 ``a`` 小于 ``b`` 且 ``b`` 与 ``c`` 相等.

比较操作(或其它任何布尔表达式)都能用逻辑操作符 ``and`` 和 ``or`` 连接, 结果值可以用 ``not`` 取反.

- 逻辑操作符的优先级又低于比较操作符;
- 这其中, ``not`` 优先级最高, 而 ``or`` 的优先级最低, 因此 ``A and not B or C`` 等价于 ``(A and (not B)) or C`` . 同样, 可以使用圆括号来表达想要的结果.
- 逻辑操作符 ``and`` 和 ``or`` 被称为 *短路* 操作符: 它从左至右计算参数,并且当结果确定时计算就立即停止. 

   - 例如, 如果 ``A`` 和 ``C`` 为真, 而 ``B`` 为假时, ``A and B and C`` 不会计算表达式 ``C``.
   - 当把短路操作符的返回值作为一个常规值而不是布尔值时, 它的值就是最后计算的参数值.

可以把比较式或其它逻辑表达式的值赋给一个变量. 例如, ::

   >>> string1, string2, string3 = '', 'Trondheim', 'Hammer Dance'
   >>> non_null = string1 or string2 or string3
   >>> non_null
   'Trondheim'

注意, 在 Python 中, 不像 C, 赋值不可以发生在表达式内部. C 程序员可能对此有抱怨,
但是这样就避免了 C 程序中常见的一类错误,比如说: 

- 在使用 ``==`` 的表达式里键入了 ``=`` .


.. _tut-comparing:

序列和其它类型的比较
======================================================

序列对象可以与同一类型的其它对象比较. 
使用 *字典编纂* 顺序比较:

- 首先比较头两项, 如果它们不同, 它们的比较就决定整个比较的结果;
- 如果它们相同, 就比较下两项, 就这样直到其中有序列被比较完了.
- 如果要被比较的两项本身就是相同类型的序列, 那么就递归进行比较.
- 如果两个序列所有的项都相等, 那么, 它们就相等. 
- 如果一个序列是另一个序列的初始子序列(initial sub-sequence),那么短的就是较小的. 
- 字符串的 *字典编纂* 顺序由单个字符的 Unicode 字码来决定.

以下是比较相同类型序列的例子::

   (1, 2, 3)              < (1, 2, 4)
   [1, 2, 3]              < [1, 2, 4]
   'ABC' < 'C' < 'Pascal' < 'Python'
   (1, 2, 3, 4)           < (1, 2, 4)
   (1, 2)                 < (1, 2, -1)
   (1, 2, 3)             == (1.0, 2.0, 3.0)
   (1, 2, ('aa', 'ab'))   < (1, 2, ('abc', 'a'), 4)


注意, 使用 ``<`` 或 ``>`` 比较两个不同类型的对象有时候是合法的,
条件是它们要有合适的比较方法. 例如, 不同的数字类型可以按照它们的数字大小来比较,
因此 0 等于 0.0, 等等. 否则, 解释器不会提供一个任意的顺序, 而会抛出一个 :exc:`TypeError`
异常.


.. rubric:: Footnotes

.. [#] 调用 ``d.keys()`` 将返回一个 :dfn:`dictionary view` 对象.
       它支持类似成员关系测试以及迭代操作, 但是它的内容不是独立于原始字典的 -- 它只是一个*视图*.


.. seealso:: (^.^)

    - 原文: http://docs.python.org/py3k/tutorial/datastructures.html
    - 初译: `刘鑫`_
    - 精译: `DocsPy3zh`_
    - 校对: `Zoom.Quiet`_
    - 复审: