close
Reference:藍森林-自由軟件
使用提智能轉換工具zh-autoconvert,操作的命令有兩個autogb/autob5。該軟件能通過對常用詞語的比較來實現自動判斷文件的類型,這比那些需要手動指定輸入輸出編碼的軟件要方便很多,如果文章有一定的長度(比如1000字),識別準確度將達到100%。
舉例說明:
zh-autoconvert是直接對stdin/stdout進行操作,最簡單的使用方法就是在終端中運行autogb,然後輸入簡體中文,然後按Ctrl+D,標準輸出上就會出現一堆亂碼,實際上就是您所輸入的內容的Big5繁體版,反之亦可。如果想將一未知編碼(非UTF-8)的文件轉換為簡體GB文檔,命令是
| autogb < in.txt > out.txt;
若要獲得繁體Big5文檔,則是
| autob5 < in.txt > out.txt。
因為UTF-8文檔中可能同時包含簡繁,甚至XX語字符,因此自動判斷功能不太適用。假如已知待處理的中文文檔是UTF-8編碼,則可以使用"-i utf8"參數,例如autogb -i utf8 < in.txt > out.txt,繁體類推。以上只是zh-autoconvert最簡單的使用方法,實際上zh-autoconvert可支持在大部分中文編碼之間任意轉換,包括gb, big5, hz, unicode, utf7 和 utf8。因此,在整理一些老舊文檔時,也會特別有用。但如果你的文檔內同時存在幾種不同編碼,那zh-autoconvert也幫不上你了。
全站熱搜
留言列表