歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
Linux教程網 >> Linux編程 >> Linux編程 >> Python中的編碼與解碼

Python中的編碼與解碼

日期:2017/3/1 9:29:22   编辑:Linux編程

編碼與解碼

首先,明確一點,計算機中存儲的信息都是二進制的

編碼/解碼本質上是一種映射(對應關系),比如‘a’用ascii編碼則是65,計算機中存儲的就是00110101,但是顯示的時候不能顯示00110101,還是要顯示'a',但計算機怎麼知道00110101是'a'呢,這就需要解碼,當選擇用ascii解碼時,當計算機讀到00110101時就到對應的ascii表裡一查發現是'a',就顯示為'a'

編碼:真實字符與二進制串的對應關系,真實字符→二進制串

解碼:二進制串與真實字符的對應關系,二進制串→真實字符

ASCII & UTF-8

大家熟知的ASCII以1字節8個bit位表示一個字符,首位全是0,表示的字符集明顯不夠

unicode編碼系統是為表達任意語言而設計的,為了防止存儲上的冗余(比如,對應ascii碼的部分),其采用了變長編碼,但變長編碼給解碼帶來了困難,無法判斷是幾個字節表示一個字符

UTF-8是針對unicode變長編碼設計的一種前綴嗎,根據前綴可判斷是幾個字節表示一個字符

如果一個字節的第一位是0,則這個字節單獨就是一個字符;如果第一位是1,則連續有多少個1,就表示當前字符占用多少個字節。

比如"嚴"的unicode是4E25(100111000100101),4E25處在第三行的范圍內(0000 0800-0000 FFFF),因此"嚴"的UTF-8編碼需要三個字節,即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然後,從"嚴"的最後一個二進制位開始,依次從後向前填入格式中的x,高位補0,得到"嚴"的UTF-8編碼是"11100100 10111000 10100101"。

python中的解碼和編碼

在python中,編碼解碼其實是不同編碼系統間的轉換,默認情況下,轉換目標是Unicode,即編碼unicode→str,解碼str→unicode,其中str指的是字節流

而str.decode是將字節流str按給定的解碼方式解碼,並轉換成utf-8形式,u.encode是將unicode類按給定的編碼方式轉換成字節流str

注意調用encode方法的是unicode對象生成的是字節流,調用decode方法的是str對象(字節流)生成的是unicode對象,若str對象調用encode會默認先按系統默認編碼方式decode成unicode對象再encode,忽視了中間默認的decode往往導致報錯

自己寫代碼時只需記住str字節流調用decode,unicode對象調用

s = u'嚴'

s

print type(s), s

第一行定義了一個unicode對象(不是utf8)
第二行會輸出u'\u4e25'

第三行輸出<type 'unicode'> 嚴

u = s.encode('utf8')

u

print type(u),u

倘若這時我用s.encode('utf8'),則將s使用utf-8編碼並將編碼結果保存為字節流

第二行輸出'\xe4\xb8\xa5'

第三行輸出<type 'str'> 涓

還有要注意的是,終端默認的編碼格式是gbk,windows cmd中可以通過chcp查看以及改變,也可以到注冊表修改終端默認編碼(HKEY_CURRENT_USER console或者powershell下的codepage),936為簡體中文,65001為utf8,兩者都可顯示中文,但為了方便中文輸入,我將其默認設為936

當調用print函數將內容格式化輸出到終端時,會將unicode對象轉換為終端的編碼方式輸出,如上面第一次print的結果是正常的,print utf8字節流時,終端按其默認gbk解碼顯示時就會出問題,這裡恰巧'\xe4\xb8'為gbk下的“涓”

t = s.encode('utf8').decode('utf8')

t

第二行會輸出u'\u4e25'

文件的編碼格式

保存文本時也有編碼格式,比如txt文件保存可選擇則ASCII、utf8等,在python中讀取文件

fr = open('encode.py','r')

fstr = fr.read()

只要記住fstr是字節流,其他的操作參看上面即可

注:以上操作均在cmd或powershell下完成,在python自帶的解釋器下會有問題,s=u'你好',然後s,顯示的雖然是unicode對象,但是編碼卻是gbk的而不是unicode

無需操作系統直接運行 Python 代碼 http://www.linuxidc.com/Linux/2015-05/117357.htm

CentOS上源碼安裝Python3.4 http://www.linuxidc.com/Linux/2015-01/111870.htm

《Python核心編程 第二版》.(Wesley J. Chun ).[高清PDF中文版] http://www.linuxidc.com/Linux/2013-06/85425.htm

《Python開發技術詳解》.( 周偉,宗傑).[高清PDF掃描版+隨書視頻+代碼] http://www.linuxidc.com/Linux/2013-11/92693.htm

Python腳本獲取Linux系統信息 http://www.linuxidc.com/Linux/2013-08/88531.htm

在Ubuntu下用Python搭建桌面算法交易研究環境 http://www.linuxidc.com/Linux/2013-11/92534.htm

Python 語言的發展簡史 http://www.linuxidc.com/Linux/2014-09/107206.htm

Python 的詳細介紹:請點這裡
Python 的下載地址:請點這裡

Copyright © Linux教程網 All Rights Reserved