歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
Linux教程網 >> Linux基礎 >> Linux教程 >> Ubuntu下的ocr文字識別(pdf、tif等)

Ubuntu下的ocr文字識別(pdf、tif等)

日期:2017/2/28 15:32:04   编辑:Linux教程

平時使用掃描件或者pdf查看文檔,但是在ipad上當文字比較小的時候不能有效放大,過著每次閱讀需要移動屏幕,十分不方便,為此想將pdf或者圖片中的文字截取出來,可以有效處理,當然需要ocr技術了,現在我們就來考慮和解決這個問題。

1、技術准備:

os為 linux mint 13(基於Ubuntu 12.04的)

ocr軟件:tesseract,執行文件為tesseract

gocr

pdf處理軟件:pdftoxxx,比如pdftotext等

tiff處理如案件:比如tiff2pdf等等

2、安裝軟件

sudo apt-get install gocr

sudo apt-get install tesseract-ocr

sudo apt-get install libtiff-tools

對於tesseract需要設置語言包,可以在觀望上下載具體中文語言包,比如簡體的就是chi_sim,然後加入到一個環境變量中

mv chi_sim.traineddata /usr/local/share/tessdata

export TESSDATA_PREFIX=/usr/local/share/

3、tif文件轉文字 tif-->text

直接使用tesseract即可,如下:

tesseract a.tif a.txt -l chi_sim

以上支持多頁單文件tif

4、pdf文件轉文字 pdf-->text

如果pdf本來就是文字格式的,那麼很簡單,直接轉換即可

pdftotext a.pdf a.txt

如果pdf內部內容是圖片,則無法通過以上方法去的內容,首相將pdf轉換成為ppm,然後從ppm裝換為文字:pdf-->多個ppm-->多個txt

pdf2ppm a.pdf a

產生a1.ppm,a2.ppm.....

然後通過tesseract轉換

tesseract a1.tif a1.txt -l chi_sim

Copyright © Linux教程網 All Rights Reserved