close

Reference:藍森林-自由軟件

使用提智能轉換工具zh-autoconvert,操作的命令有兩個autogb/autob5。該軟件能通過對常用詞語的比較來實現自動判斷文件的類型,這比那些需要手動指定輸入輸出編碼的軟件要方便很多,如果文章有一定的長度(比如1000字),識別準確度將達到100%。

舉例說明:

zh-autoconvert是直接對stdin/stdout進行操作,最簡單的使用方法就是在終端中運行autogb,然後輸入簡體中文,然後按Ctrl+D,標準輸出上就會出現一堆亂碼,實際上就是您所輸入的內容的Big5繁體版,反之亦可。如果想將一未知編碼(非UTF-8)的文件轉換為簡體GB文檔,命令是

| autogb < in.txt > out.txt;

若要獲得繁體Big5文檔,則是

| autob5 < in.txt > out.txt。

因為UTF-8文檔中可能同時包含簡繁,甚至XX語字符,因此自動判斷功能不太適用。假如已知待處理的中文文檔是UTF-8編碼,則可以使用"-i utf8"參數,例如autogb -i utf8 < in.txt > out.txt,繁體類推。以上只是zh-autoconvert最簡單的使用方法,實際上zh-autoconvert可支持在大部分中文編碼之間任意轉換,包括gb, big5, hz, unicode, utf7 和 utf8。因此,在整理一些老舊文檔時,也會特別有用。但如果你的文檔內同時存在幾種不同編碼,那zh-autoconvert也幫不上你了。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 doroson 的頭像
    doroson

    DoRoSoN

    doroson 發表在 痞客邦 留言(0) 人氣()