黄色美女动漫视频,免费下载美女视频,韩国主播美女视频

Python encode和decode

rongq2007 >《python》

2020.09.02

今天在寫一個(gè)StringIO.write(int)示例時(shí)思維那么一發(fā)散就拐到了字符集的問題上，順手搜索一發(fā)，除了極少數(shù)以外，絕大多數(shù)中文博客都解釋的慘不忍睹，再鑒于被此問題在oracle的字符集體系中蹂躪過，因此在過往筆記的基礎(chǔ)上增刪了幾個(gè)示例貼出來。

Python2:

首先清楚兩個(gè)Python 2中的概念：str和unicode 這是python2中的兩種用于表示文本的類型，一般來說你直接打出的字符都屬于前者，加了u前綴的字符則屬于后者。

str is text representation in bytes, unicode is text representation in characters.

此觀點(diǎn)來自stackoverflow，是得票最多的一個(gè)回答，也是我認(rèn)為最好的一個(gè)，但是從我個(gè)人的角度來看這個(gè)表述依然不足，最適合的表述應(yīng)當(dāng)是：

str is text representation in bytes, unicode is text representation in unicode characters（or unicode bytes）.

貌似沒多大區(qū)別......可能會(huì)被人打，但我的意思是python2里的unicode是字符和編碼綁定的，只要是unicode類型那么他的編碼和字符都已經(jīng)固定了，但是str類型卻只有編碼，只有最初打出它的人才知道他的字符是什么（或者說才能通過適當(dāng)?shù)淖址獯a為人眼可懂的字符）。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Python2里的str是十六進(jìn)制表示的二進(jìn)制編碼，unicode是一個(gè)字符：

通俗點(diǎn)來說就是Python2里的str類型是一堆二進(jìn)制編碼，如果不知道是什么字符集那么你除了一堆十六進(jìn)制

數(shù)什么都看不出來(當(dāng)然平時(shí)你使用的工具都是能看到的，因?yàn)楣ぞ咭呀?jīng)做了轉(zhuǎn)碼)，通過decode可以將其按固定的字符集解碼，生成unicode字符。

例如下例（python2環(huán)境下的windows cmd窗口）：

>>> a='你好'

>>> a.decode('utf-8')

Traceback (most recent call last):

File "<stdin>", line 1, in <module>

File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode

return codecs.utf_8_decode(input, errors, True)

UnicodeDecodeError: 'utf8' codec can't decode byte 0xc4 in position 0: invalid continuation byte

錯(cuò)誤的原因是這里的“你好”字符是cp936編碼（相當(dāng)于gbk），utf-8屬于非ANSI體系的編碼，“你好”的gbk二進(jìn)制碼不符合unicode體系的編碼規(guī)則因此報(bào)錯(cuò)。

>>> print a.decode('gbk'),type(a.decode('gbk'))

你好 <type 'unicode'>

這樣就可以啦，既然a是gbk編碼的str那么按gbk進(jìn)行decode解碼，自然能得到unicode的你好字符。

1

2

3

4

5

decode: str to unicode，decode的輸入必須是str類型，輸出一定是unicode類型

str.decode(encoding='UTF-8',errors='strict')

encode: unicode to str，encode的輸入必須是unicode類型，輸出一定是str類型

unicode_char.encode(encoding='gbk',errors='strict')

Python3：

在Python3中str調(diào)用decode()方法會(huì)遇到： AttributeError: 'str' object has no attribute 'decode' .

why?

這是因?yàn)閜ython3中表示文本的只有一種類型了，那就是str，你以為這是python2里的那個(gè)str嗎？No! 這個(gè)str是python2中的unicode類型......

那么原來的str哪里去了？被命名為bytes類型了，decode方法也隨之給了bytes類型,encode給了str類型。

這樣做的好處是：

在Python2中str和unicode都有decode，encode兩種方法，但是字符集參數(shù)不設(shè)置正確的話，函數(shù)經(jīng)常報(bào)錯(cuò)，文本能否正確流通取決于大家是否清楚輸入編碼的字符集，這對(duì)于全球化的網(wǎng)站來說是個(gè)巨坑，而在Python3中無論你輸入什么字符，統(tǒng)一都是str類型的（也就是python2里的unicode類型），通過bytes和str類型的分離將decode，encode這兩種方法分離，encode函數(shù)不會(huì)出錯(cuò)，因?yàn)榫幋a與字符集是綁定的，你可以隨意將unicode字符轉(zhuǎn)化為任意ANSI體系字符集的bytes類型，此時(shí)在已知ANSI字符集的情況下，你對(duì)bytes類型的decode轉(zhuǎn)碼一定不會(huì)出錯(cuò)。通過這種方式就避免了python2中輸入str類型帶來的編碼混亂問題。

1

2

3

4

5

6

7

8

9

10

11

12