平時使用掃描件或者pdf查看文檔,但是在ipad上當文字比較小的時候不能有效放大,過著每次閱讀需要移動屏幕,十分不方便,為此想將pdf或者圖片中的文字截取出來,可以有效處理,當然需要ocr技術了,現在我們就來考慮和解決這個問題。
1、技術准備:
os為 linux mint 13(基於Ubuntu 12.04的)
ocr軟件:tesseract,執行文件為tesseract
gocr
pdf處理軟件:pdftoxxx,比如pdftotext等
tiff處理如案件:比如tiff2pdf等等
2、安裝軟件
sudo apt-get install gocr
sudo apt-get install tesseract-ocr
sudo apt-get install libtiff-tools
對於tesseract需要設置語言包,可以在觀望上下載具體中文語言包,比如簡體的就是chi_sim,然後加入到一個環境變量中
mv chi_sim.traineddata /usr/local/share/tessdata
export TESSDATA_PREFIX=/usr/local/share/
3、tif文件轉文字 tif-->text
直接使用tesseract即可,如下:
tesseract a.tif a.txt -l chi_sim
以上支持多頁單文件tif
4、pdf文件轉文字 pdf-->text
如果pdf本來就是文字格式的,那麼很簡單,直接轉換即可
pdftotext a.pdf a.txt
如果pdf內部內容是圖片,則無法通過以上方法去的內容,首相將pdf轉換成為ppm,然後從ppm裝換為文字:pdf-->多個ppm-->多個txt
pdf2ppm a.pdf a
產生a1.ppm,a2.ppm.....
然後通過tesseract轉換
tesseract a1.tif a1.txt -l chi_sim