Python对象

1 属性

Python对象的三个属性:

  • 身份:对象的唯一身份标识,可以使用内建函数id()查看,可被认为是对象的内存地址;
  • 类型:对象保存的类型,可以使用内建函数type()查看;
  • 值:对象表示的数据像。

2 标准类型

  • 数字:
  • Integer整型:
  • Boolean布尔型:
  • Long integer长整型:
  • Floating point real number浮点型:
  • Complex number复数型:1+2j
  • String字符串:’string’
  • List列表:[1,2,’3′],元素个数和元素的值可以改变。
  • Tuple元组:(‘robots’, 77, 93, ‘string’),元组不可以改变,可看作是只读的列表。
  • Dictionary 字典:映射数据类型,由key-value构成,{‘country’:’China’,’sex’:’male’,’name’:’Jack’}

3 其他内建类型

  • 类型:type(),所有对象的类型都是type(type(type(*)))
  • Null对象: Null对象或者NoneType,值为None,None类型类似C语言void,所有对象都可进行布尔测试,空对象,值为0的对象或Null对象布尔值都为0;
  • 文件:
  • 集合/固定集合
  • 函数/方法
  • 模块

4 对象身份的比较

foo1=foo2=1.2

值为1.2的对象被创建,并将对象引用被赋值给foo1和foo2对象,所以foo1 is foo2和id(foo1) == id(foo2)都为True

5 标准类型的内建函数

  • cmp(obj1,obj2):比较对象结果返回整型i,如果obj1<obj2 i<0,obj1>obj2 i>0,obj1==obj2 i=0
  • repr(obj):同obj,返回对象的字符串表示;
  • str(obj):返回对象可读性较好的字符串表示
  • type(obj):返回type对象

repr()和str()的区别:尽管str(),repr()和运算在特性和功能方面都非常相似,但str()则有所不同,str()致力于生成一个对象的可读性好的字符串表示,它的返回结果通常无法用于eval()求值,但很适合用于print语句输出。

对象值比较( type(num) == type.IntType )和对象身份(type(num) is type.IntType)比较,在运行时期,只有一个类型对象来表示整型类型,type(0)、type(42)、type(-100)都是同一个对象<type ‘int’>(types.IntType也是这个对象)
如果是同一个对象,就没必要去比较他们的值,故比较对象本身就是一个最好的方案:
即 if type(num) is type.IntType 或者 type(0)

isinstance()判断对象类型,本身可以接受元组参数,方便判断。

6 访问模型

以访问类型分类:

  • 直接访问:数字
  • 顺序访问:字符串、列表、元组
  • 映射访问:字典

以标准类型分类:

  • 数字:标量、不可改变、直接访问
  • 字符串:标量、不可改变、顺序访问
  • 列表:容器、可改变、顺序访问
  • 元组:容器、不可改变、顺序访问
  • 字典:容器、可改变、映射访问(Hash)

7 不支持的类型

  • char或byte:长度为1的字符串;
  • 指针:不支持,Python管理;
  • int vs short vs long:用户无需关心,超时范围自动增长;
  • float vs double:默认为双精度浮点类型,如果想要更精确,需要导入Decimal。

数字

1 删除引用

删除数字对象引用:del

2 整型表达范围

Python的长整型所表达的数值范围与机器内存相关,即可以表达很大的整型范围;

3 移位运算

在数字 x 上左移 y 比特得到 x * 2y.如9 << 2 = 36

4 除法

地板除:整数相除,舍去小时部分,保留整数

引入//作为地板除

5 数值运算内建函数

  • abs(num):返回绝对值;
  •  coerce(num1,num2):将num1和num2转换为统一类型,然后以一元组的形式返回:
  • divmod(num1,num2):除法取余的结合,返回一元组:
  • pow(num1,num2,mod=1):取num1的num2次方,如果提供mod参数,则计算计算再对mod进行取余计算
  • round(flt,ndig=1):接受一个浮点型flt,对其四舍五入,保存ndig小数,如不提供ndig参数,则默认小数点后0位

6 转换

  • hex(num):将num转换为16进制,并以字符串形式返回
  • oct(num):将num转换为8进制,并以字符串形式返回;
  • chr(num):将ASCII值的数字转为ASCII的字符,num范围为0~255;
  • ord(num):接受一个ASCII或Unicode字符(长度为1的字符串),返回相应的ASCII值或Unicode值;
  • unichr(num):接受Unicode码值,返回对应的Unicode字符,所接受的码值范围依赖于Python构建于UCS-2还是UCS-4。

序列:字符串、列表、元组

1 序列

操作符:in, not in, seq[index], seq[ind1,ind2],seq*expr,

步长索引:seq[::-1]”翻转”, seq[::2] “隔一个取一个”

利用None作为索引值

类型转换的内建函数

list(iter):

str(obj): 把对象打印输出时非常有用。

unicode(obj): str()的unicode版

basestring(): 抽象工厂函数,仅为str()和unicode()函数提供父类,不能被实例化,也不能被调用

tuple(iter): 把一个可迭代的对象换成一元组对象

浅拷贝:只拷贝对对象的索引,而不是重新建立一个对象

深拷贝:完全拷贝一个对象(包括递归,如果你的对象是一个包含在容器中的容器)

可操作的内建函数:

enumerate(iter):接受一个可迭代的对象作为参数,返回一个enumerate对象(同时一个迭代器),该对象生成由iter每个元素的index值和item值组成的元组

len(seq): 返回seq的长度

max(iter, key=None):

max(agr0,arg1…key=None):

min(iter, key=None):

min(agr0,arg1…key=None):

reversed(seq):

sorted(iter,func=None,key=None,reverse=False): 接受一个序列作为参数,返回一个有序的列表

sum(seq,init=0): 返回seq和可选参数init的总和,效果等同于reduce

zip(it0,it1,…,itN): 返回一个列表,其第一个元素为it0,it1,…,itN的第一个元素组成的元组,第二个……依次类推。

2 字符串

转义字符串只在双引号字符串中其中用,单引号括起来的字符串中不起作用

反向索引:从-1开始,向字符串开始的反向计数,最后一个数为-len(seq)。

成员操作符:

in,not in:判断包含关系

string模块预定义的字符串:

其他函数

结果:

检测字符串是否可以作为用户id小脚本:

备注:从性能方面考虑,尽量不要把重复操作作为参数放到循环里面(while i < len(string))。处于性能方面考虑,不建议使用string模块,使用String模块。

 

字符串格式化输出:

3 列表

列表可以使用append()方法来追加。

可以利用del删除列表元素或者列表本身。

标准操作符:列表比较利用内建的cmp()函数,比较元素,直到有一方的元素胜出。

可以在列表切片的基础上再进行切片,如:

成员关系:in, not in

连接操作符+,必须同类型的才可以连接,不然会报错:

可以使用extend()方法连接,区别+操作符是新建一个新的列表,list.extend()是把列表加到原有列表里面。

重复操作符*:

sorted()和reversed(),排序是ASCII码值的字典序,不是字母序。

enumerate()和zip():

list()和tuple(): 都可以接受迭代对象作为参数,并通过浅拷贝数据来创建一个新的列表和元组,常用于两种类型的转换。

查看list的内建函数:

sort()、extend()和reverse()这些操作会改变现有的内容。

堆栈例子:

队列的例子:

4 元组

一种不可变类型,意味着一旦一个对象被创建了,它的值就不能再被更新,除非重现创建一个新的对象。

不可变并非坏事,比如我们把数据传给一个不了解的API时,可以确保数据不被修改。

元组比较

并非完全不可变:

list()和tuple()函数允许列表和元组之间的转换。

对象拷贝:浅拷贝和深拷贝

对一个对象进行浅拷贝,其实是新创建了一个类型跟援对象一样,内容是原对象的元素引用,即对象是新的,但内容不是。序列对象的浅拷贝是默认类型拷贝,通过以下方式进行:

  • 完全切片操作[:]
  • 利用工厂函数,比如list() 、dict()等
  • 利用copy模块的copy()函数

上例中,wifey对象名称被赋值时,hubby的名称未发生改变,原因是第一个元素是不可变的字符串类型,第二个元素是个可变的列表。在拷贝时,字符串被显式拷贝,并创建一个字符串对象,但列表元素只是把他的引用复制一下,并非它的成员,故改变名称时没有问题,但改变列表元素时,会随之改变。可以通过id()查看改变前后,字符串元素id发生了改变,但列表的id并未发生改变。

对一个对象的深拷贝,即创建了一个新的容器对象,包含原有对象元素(引用)的全新拷贝的引用,需要使用copy.deepcopy()函数,重写上例:

深拷贝时,列表元素的并未发生改变,通过id()查看两个对象的元素是不同的。

映射和类型集合

1 字典

可以利用dict()来创建字典:

可以利用fromkeys()来创建一个“默认”字典

访问字典中的值,直接访问,或利用key()方法或in循环访问

访问、更新与删除

in和not in检查某个键是否存在字典中

字典比较算法,cmp()比较顺序如下:

  • 比较字典长度,前者长度大,返回正值,反之为复制;
  • 长度相同时,比较字典键,键的比较顺序与keys()方法返回键的顺序相同,当前者第一个不同键大于后者的第一个不同键时,cmp()返回正值;
  • 字典长度并且键值完全匹配时,则比较相同键所对应的值,一档出现不匹配的值,就比较值,如果前者的值大与后者,返回正值;
  • 完全匹配时,返回0。

看下面具体例子:

映射类型相关函数

  • dict()

  • len()

  • hash()

函数本身不是为字典设计,主要是判断摸个udoxiang是否可以作为一个字典的键,结果返回对象的哈希值,只有对象可哈希,才可作为字典的键,如下:

映射类型的内建方法

  • key():返回一个包含字典中键的列表

  • clear():删除字典中所有元素
  • fromkeys(seq, val=None):创建并返回一个新字典,以 seq 中的元素做该字典的键,val 做该字典中所有键对应的初始值(如果不提供此值,则默认为 None

  • copy():返回字典(浅复制)的一个副本

  • get(key):对字典 dict 中的键 key,返回它对应的值 value,如果字典中不存在此键,则返回 default 的值(注意,参数 default 的默认值为 None)。

  • items():返回一个包含字典中(键, 值)对元组的列表

 

  • values() :返回一个包含字典中所有值的列表

  • pop(key[, default]):和方法 get()相似,如果字典中 key 键存在,删除并返回 dict[key],如果 key 键不存在,且没有给出 default 的值,引发 KeyError 异常

  • setdefault(key, default=None):和方法 set()相似,如果字典中不存在 key 键,由 dict[key]=default 为它赋值
  • update(dict2) 将字典 dict2 的键-值对添加到字典 dict

注意:字典中键不允许一个键对应多个值,并且键是可哈希的。

2 集合

set是不用元素组成对集合,集合的成员称为集合对象,是一组无序排列的可哈希值。

工厂方法set()和frozenset():set是可变的,有add(),remove()等方法。既然是可变的,所以它不存在哈希值。

frozenset是冻结的集合,它是不可变的,存在哈希值,好处是它可以作为字典的key,也可以作为其它集合的元素。缺点是一旦创建便不能更改,没有add,remove方法。

元素访问

更新与删除

子集与超集:加上等号就是非严格

类型操作符:| &  – ^

如果同为可变set,如下:

如果不可变,

内建方法:

  • s.issubset(t)
  • s.issuperset(t)
  • s.union(t)
  • s.inersection(t)
  • s.difference(t)
  • s.symmetric_difference(t):返回一个新集合,是s或t的成员,但不包s和t的公共成员;
  • s.copy()

仅可变适用于可变集合的方法:

  • s.update(t)
  • s.intersection_update(t)
  • s.difference_update(t)
  • s.symmetric_difference_update(t)
  • s.add(obj)
  • s.remove(obj)
  • s.discard(obj)
  • s.pop()
  • s.clear()

条件和循环

if语句

多重表达式可以利用and、or、not连接实现

单一语句代码块(不推荐)

else语句

elif语句

条件表达式(三元运算符)

while语句

文件输入输出

TODO

错误和异常

TODO

函数和函数式编程

TODO

模块

代码量变大时,利用模块组织代码段,可以是包含数据成员的类,也可以是相互独立的操作函数。Python允许引入模块实现重用。

1 模块与文件

模块是按照逻辑组织python代码的方法,文件是物理层上组织模块的方法。文件被认为是独立的模块,模块的文件名就是“模块名.py”,为了避免不同模块间的命名冲突,需要利用全称(Fully qualified name)。

模块导入时的路径搜索:

修改,加上自定义的模块

然后引入自定义的模块即可。

2 名称空间

名称空间是名称(标识符)到对象的映射。

Python解释器首先加载内建空间名称,它由__builtins__模块中名字组成,随后加载执行模块的全局名称空间,它会在模块开始执行后变为活动的名称空间。如果执行期间调用了一个函数,那么将创建第三个名称空间,即局部名称空间,可以通过globals()和locals()内建函数判断某个名字属于那个名称空间。

3 导入

导入顺序:Python标准库模块,Python第三方模块,应用程序自定义模块。

指定名称导入到当前作用域

扩展import语句as,用来导入时替换原来模块的名称

4 导入特性

加载只在第一次导入发生

导入到当前名称空间的名称,使用*会污染名称空间,避免使用

导入模块名字时,可能会覆盖具有相同的名称对象,解决方法是使用import和完整的标识符名称。

5 模块内建函数

__import__():满足特殊用户需求,可以覆盖import,实现自定义的导入算法,例如

globals()和locals():分别返回调用者全局和局部名称空间的字典。在全局名称空间下,两者返回相同字典,例如:

结果如下:

reload():重新导入一个已存在的模块。语法为reload(module),前提是模块必须是全部导入,必须被成功导入。模块中在import时被执行一次,但reload()不是只执行一次。

6 包

具备层次的文件目录结构,有模块和子包组成。解决以下问题:

  • 加入有层次的目录结构
  • 运行程序员将关联模块组合在一起
  • 运行分发者使用目录结构而不是一堆混乱文件
  • 帮助解决有冲突的模块名称

导入:

以上为绝对导入,相对导入的例子如下

7 其他特性

  • 自动导入模块:标准模式下启动时,自动导入一些模块,用于系统相关操作;
  • 阻止属性导入:不想让模块的属性被”from module import *”导入,可以利用_屏蔽,如import foo._bar
  • 源代码编码:默认是ASCII编码,额外编码需要声明,用于制定编码解析源码,例如UTF-8编码,
  • 循环导入:解决大型项目中模块循环依赖的问题。

面向对象的编程

__init__():类构造器

类的继承:类声明和构造器中体现,资料可以直接调用父类的方法

类相关的编码风格:类名通常大写字母开头,数据属性应该是数据值的名字,方法应该之处对象或值的行为,使用动词加对象命名,推荐使用驼峰命名+下划线的方式,比如update_phone、set_mail等等。类也叫尽量细致命名,比如AddrBookEntry、RepairShop等。

Python一开始设计就是面向对象的,并且结构上支持OOP,但Python没有限定或强制使用OO代码。

常用术语:抽象实现、封装接口、合成(聚合)、派生/继承/继承结构(多代派生,族谱)、泛化特化、多态、自省/发射。

Python并不支持纯虚函数(C++中)或者抽象方法(Java中),这要求程序员在子类中定义方法,在Python中,可以在基类方法中引发NotImplementedError异常。

类的静态变量

pass关键字作用:一般用做占位语句,当你在编写一个程序时,执行语句部分思路还没有完成,这时你可以用pass语句来占位,也可以当做是一个标记,是要过后来完成的代码。比如下面这样:

定义一个函数iplaypython,但函数体部分暂时还没有完成,又不能空着不写内容,因此可以用pass来替代占个位置。

pass语句在循环中的作用

pass也常用于为复合语句编写一个空的主体,比如说你想一个while语句的无限循环,每次迭代时不需要任何操作,你可以这样写:

查看类的属性可以可用dir()内建函数,或者使用访问类的字典函数__dict__。

实例属性:python不仅是动态类型,而且是在运行时,允许这些对象属性的动态创建。但使用要谨慎,避免因在条件语句中创建实例属性,但条件不满足时,属性不存在,访问会出错。

组合:让不同的类混合并加入到其他类中。可以在大类中创建自己的类实例。

正则表达式

TODO

网络编程

1 套接字:通信端点

Python支持AF_UNIX、AF_NETLINK和AF_INET。

套接字地址:主机与端口

端口号:0~65535,0~1024系统预留端口。

面向连接的TCP:套接字类型为SOCK_STREAM

无连接的UDP:套接字类型为SOCK_DGRAM(datagram数据报)

2 Socket()模块函数

Python中的socket()模块,套接字对象的内建方法

  • 面向服务器端的
    • socket.bind():绑定地址到套接字
    • socket.listen():开始TCP监听
    • socket.accept():被动接受TCP客户端连接,阻塞式等待连接的到来
  • 面向客户端的
    • socket.connect():主动初始化TCP服务连接
    • socket.connect_ex():connect()函数的扩展版本,出错时返回错误码,并非抛出异常
  • 公共用途的
    • socket.recv():接受TCP数据
    • socket.send():发送TCP数据
    • socket.sendall():完整发送TCP数据
    • socket.recvfrom():接受UDP数据
    • socket.sendto():发送UDP数据
    • socket.getpeername():连接到当前套接字的远程地址(TCP连接)
    • socket.getsockname():当前套接字的地址
    • socket.getsockopt():返回指定套接字参数
    • socket.setsockopt():设置指定套接字参数
    • socket.close():关闭套接字
  • 面向模块的
    • socket.setblocking():设置套接字的阻塞和非阻塞模式
    • socket.settimeout():设置阻塞套接字的超时时间
    • socket.gettimeout():获取阻塞套接字的超时时间
  • 面向文件的
    • socket.fileno():套接字的文字描述符
    • socket.makefile():创建一个与该套接字关联的文件对象

TCP范例:

服务器端Socket:

客户端Socket:

UDP范例

服务器端:

客户端:

3 SocketServer模块

标准库中高级别模块,为了简化实现网络客户端和服务器的样板代码,模块中可供实现的类

  • BaseServer: 包含服务器的核心功能,与max-in类挂钩,此类只能派生,不能生成该类示例,考虑使用TCPServer或UDPServer;
  • TCPServer/UDPServer: 基本的网络同步TCP/UDP服务器;
  • UnitxStreamServer/UnixDatagramServer: 基本的基于文件同步的TCP/UDP服务器;
  • ForkingMixIn/ThreadingMixIn: 实现核心的进程化或线程化的功能,作为混合类,与服务器类一并使用,以提供一些异步特性,不会被实例化
  • ForkingTCPServing/ForkingMixIn:
  • ThreadingTCPServer/ThreadUDPServer
  • BaseRequestHandler: 包含处理服务器请求的核心功能,该类只能派生,考虑使用StreamRequestHandler/DatagramRequestHandler
  • StreamRequestHandler/DatagramRequestHandler: 用于TCP/UDP服务器的服务处理工具。

SocketServer范例

服务器端:

客户端:

备注:服务器端执行失败!

网络客户端编程

1 FTP

ftplib.FTP类方法:

  • login(user=’anonymous’,passwd=”, acct=”) :登录到 FTP 服务器,所有的参数都是可选的
  • pwd():得到当前工作目录
  • cwd(path): 把当前工作目录设置为 path
  • dir([path[,…[,cb]]) :显示 path 目录里的内容,可选的参数 cb 是一个回调函数,它会被传给 retrlines()方法
  • nlst([path[,…]) :与 dir()类似,但返回一个文件名的列表,而不是显示这些文件名
  • retrlines(cmd [, cb]) :给定 FTP 命令(如“RETR filename”),用于下载文本文件。可选的回调函数 cb 用于处理文件的每一行
  • retrbinary(cmd, cb[, bs=8192[, ra]]) :与 retrlines()类似,只是这个指令处理二进制文件。回调函数 cb 用于处理每一块(块大小默认为 8K)下载的数据。
  • storlines(cmd, f) :给定 FTP 命令(如“STOR filename”),以上传文本文件。要给定一个文件对象 f
  • storbinary(cmd, f[, bs=8192]):与 storlines()类似,只是这个指令处理二进制文件。要给定一个文件对象 f,上传块大小 bs 默认为 8Kbs=8192])
  • rename(old, new) 把远程文件 old 改名为 new
  • delete(path) : 删除位于 path 的远程文件
  • mkd(directory) :创建远程目录
  • rmd(directory) :删除远程目录
  • quit():关闭连接并退出

交互式:

客户端FTP程序:

2 电子邮件

poplib.POP3类方法:

  • user(username):发送用户命令,响应应该指示需要密码
    pass_(password):发送密码,响应包括邮件数量和邮箱大小。注意:服务器上的邮箱被锁定,直到调用 quit()
  • stat():获取邮箱状态。结果是2个整数的元组:(message count, mailbox size)
  • list([which]):请求消息列表,结果以 (response, [‘mesg_num octets’, …], octets) 的形式。如果设置了 which,则它是要列出的消息
  • retr(which):检索整个消息号 which,并设置其看到的标志。结果为 (response, [‘line’, …], octets) 格式
  • dele(which):标记消息号 which 以进行删除。在大多数服务器上,删除直到QUIT才被实际执行(主要例外是Eudora QPOP,它通过在任何断开连接上进行未决删除而故意违反RFC)
  • noop():没做什么。可能用作保持活动
  • utf8():尝试切换到UTF-8模式。如果成功,返回服务器响应,如果不成功则提升 error_proto。在 RFC 6856 中指定。
  • quit():注销:提交更改,解锁邮箱,删除连接。

交互模式:

SMTP和POP3范例:

多线程编程

TODO

Web编程

1 urlparse模块

  • urlparse.urlparse():将urlstring解析成6个部分,它从urlstring中取得URL,并返回元组 (scheme, netloc, path, parameters, query, fragment);
  • urlparse.urlunparse():从一个元组构建一个url,元组类似urlparse返回的,它接收元组(scheme, netloc, path, parameters, query, fragment)后,会重新组成一个具有正确格式的URL,以便供Python的其他HTML解析模块使用;
  • urlparse.urlsplit():主要是分析urlstring,返回一个包含5个字符串项目的元组:协议、位置、路径、查询、片段。allow_fragments为False时,该元组的组后一个项目总是空,不管urlstring有没有片段,省略项目的也是空。urlsplit()和urlparse()差不多。不过它不切分URL的参数。适用于遵循RFC2396的URL,每个路径段都支持参数。这样返回的元组就只有5个元素。
  • urlparse.urljoin(): urljoin主要是拼接URL,它以base作为其基地址,然后与url中的相对地址相结合组成一个绝对URL地址。函数urljoin在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。需要注意的是,如果基地址并非以字符/结尾的话,那么URL基地址最右边部分就会被这个相对路径所替换。如果希望在该路径中保留末端目录,应确保URL基地址以字符/结尾。

2 urllib模块

urllib模块提供了一个高级的Web交流库,支持Web协议、HTTP、FTP等等,同时也支持本地文件访问。从而可以实现数据下载。可以避免使用httplib、ftplib等低层模块。

  • urllib.urlopen():打开一个给定URL字符串与web连接,并返回文件类的对象,urlopen(urlstr,postQueryData=None),第二个参数是否为请求类型(GET或POST);
  • urllib.urlretrieve():可以帮助完成下载文档的处理
  • urllib.quote():获取URL数据,并将其编码,quote(urldata,safe=’/’)
  • urllib.quote_plus():类似quote(),它还可以将空格编码成(+)号。
  • urllib.unquote():与quote()功能相反。
  • urllib.unquote_plus()
  • urllib.urlencode()

3 urllib2模块

urllib2可以处理更复杂URL打开问题,例如登录验证。

示例:

备注:handler_version方法会执行失败。

4 CGI

Python自带的Web服务器: CGIHTTPServer

默认端口8000

简单页面示例

friends.htm

后端处理页面:在向 CGI 脚本返回结果时,须先返回一个适当的 HTTP 头文件再返回 HTML 结果页面。另外,为了区分这些头文件和 HTML 结果页面,需要在两者之间插入一个空行(两个换行符)

浏览器访问:http://192.168.100.81:9090/friends.htm,然后可以得到提交的结果。

合并版本:页面friendsB.py

浏览器访问:http://192.168.100.81:9090/cgi-bin/friendB.py

 

5 高级Web客户端

简单的网络爬虫

 

数据库编程

TODO

 

参考

内容及源码主要来自《Python核心编程·第二版