Linux教程網 >> Linux基礎 >> Linux教程 >> Linux中vi顯示中文亂碼的問題

Linux中vi顯示中文亂碼的問題

日期：2017/2/28 14:53:50 编辑：Linux教程

方法一：

由於在Windows下默認是gb編碼，而我的vim默認是utf-8（gedit默認也是utf-8），所以打開會成亂碼。修改了一下配置文件，使vi支持gb編碼就好了。

$vi ~/.vimrc

let &termencoding=&encoding

set fileencodings=utf-8,gbk

$:wq

再次打開vi，顯示就正常了。

vim中編輯不同編碼的文件時需要注意的一些地方

此文講解的是vim編輯多字節編碼文檔（中文）所要了解的一些基礎知識，注意其沒有涉及gvim，純指字符終端下的vim。

vim編碼方面的基礎知識：

1，存在3個變量：

encoding—-該選項使用於緩沖的文本(你正在編輯的文件)，寄存器，Vim 腳本文件等等。你可以把 ‘encoding’ 選項當作是對 Vim 內部運行機制的設定。

fileencoding—-該選項是vim寫入文件時采用的編碼類型。

termencoding—-該選項代表輸出到客戶終端（Term）采用的編碼類型。

2，此3個變量的默認值：

encoding—-與系統當前locale相同，所以編輯文件的時候要考慮當前locale，否則要設置的東西就比較多了。

fileencoding—-vim打開文件時自動辨認其編碼，fileencoding就為辨認的值。為空則保存文件時采用encoding的編碼，如果沒有修改encoding，那值就是系統當前locale了。

termencoding—-默認空值，也就是輸出到終端不進行編碼轉換。

由此可見，編輯不同編碼文件需要注意的地方不僅僅是這3個變量，還有系統當前locale和、文件本身編碼以及自動編碼識別、客戶運行vim的終端所使用的編碼類型3個關鍵點，這3個關鍵點影響著3個變量的設定。

如果有人問：為什麼我用vim打開中文文檔的時候出現亂碼？

答案是不確定的，原因上面已經講了，不搞清楚這3個關鍵點和這3個變量的設定值，出現亂碼是正常的，倒是不出現亂碼那反倒是湊巧的。

再來看一下常見情況下這三個關鍵點的值以及在這種情況下這3個變量的值：

1，locale—-目前大部分Linux系統已經將utf-8作為默認locale了，不過也有可能不是，例如有些系統使用中文locale zh_CN.GB18030。在locale為utf-8的情況下，啟動vim後encoding將會設置為utf-8，這是兼容性最好的方式，因為內部處理使用utf-8的話，無論外部存儲編碼為何都可以進行無缺損轉換。locale決定了vim內部處理數據的編碼，也就是encoding。

2，文件的編碼以及自動編碼識別—-這方面牽扯到各種編碼的規則，就不一一細講了。但需要明白的是，文件編碼類型並不是保存在文件內的，也就是說沒有任何描述性的字段來記錄文檔是何種編碼類型的。因此我們在編輯文檔的時候，要麼必須知道這文檔保存時是以什麼編碼保存的，要麼通過另外的一些手段來斷定編碼類型，這另外的手段，就是通過某些編碼的碼表特征來斷定，例如每個字符占用的字節數，每個字符的ascii值是否都大於某個字段來斷定這個文件屬於何種編碼。這種方式vim也使用了，這就是vim的自動編碼識別機制了。但這種機制由於編碼各式各樣，不可能每種編碼都有顯著的特征來辨別，所以是不可能 100%准確的。對於我們GB2312編碼，由於其中文是使用了2個acsii值高於127的字符組成漢字字符的，因此不可能把gb2312編碼的文件與 latin1編碼區分開來，因此自動識別編碼的機制對於gb2312是不成功的，它只會將文件辨識為latin1編碼。此問題同樣出現在gbk，big5 上等。因此我們在編輯此類文檔時，需要手工設定encoding和fileencoding。如果文檔編碼為utf-8時，一般vim都能自動識別正確的編碼。

3，客戶運行vim的終端所使用的編碼類型—-同第二條一樣，這也是一個比較難以斷定的關鍵點。第二個關鍵點決定著從文件讀取內容和寫入內容到文件時使用的編碼，而此關鍵點則決定vim輸出內容到終端時使用的編碼，如果此編碼類型和終端認為它收到的數據的編碼類型不同，則又會產生亂碼問題。在 linux本地X環境下，一般終端都認為其接收的數據的編碼類型和系統locale類型相符，因此不需關心此方面是否存在問題。但如果牽涉到遠程終端，例如ssh登錄服務器，則問題就有可能出現了。例如從1台locale為GB2310的系統（稱作客戶機）ssh到locale為utf-8的系統（稱作服務器）並開啟vim編輯文檔，在不加任何改動的情況下，服務器返回的數據為utf-8的，但客戶機認為服務器返回的數據是gb2312的，按照 gb2312來解釋數據，則肯定就是亂碼了，這時就需要設置termencoding為gb2312來解決這個問題。此問題更多出現在我們的 windows desktop機遠程ssh登錄服務器的情況下，這裡牽扯到不同系統的編碼轉換問題。所以又與windows本身以及ssh客戶端有很大相關性。在 windows下存在兩種編碼類型的軟件，一種是本身就為unicode編碼方式編寫的軟件，一種是ansi軟件，也就是程序處理數據直接采用字節流，不關心編碼。前一種程序可以在任何語言的windows上正確顯示多國語言，而後一種則編寫在何種語言的系統上則只能在何種語言的系統上顯示正確的文字。對於這兩種類型的程序，我們需要區別對待。以ssh客戶端為例，我們使用的putty是unicode軟件，而secure CRT則是ansi 軟件。對於前者，我們要正確處理中文，只要保證vim輸出到終端的編碼為utf-8即可，就是termencoding=utf-8。但對於後者，一方面我們要確認我們的windows系統默認代碼頁為cp936（中文windows默認值），另一方面要確認vim設置的termencoding= cp936。