tesseract-ocr是開源的光學字符識別引擎,有Google的支持,支持很多種語言的識別,下面說一下 我在Ubuntu下安裝步驟
其實官方文檔上說的很細,下面列出其中的命令,
- sudo apt-get install autoconf automake libtool
- sudo apt-get install libpng12-dev
- sudo apt-get install libjpeg62-dev
- sudo apt-get install libtiff4-dev
- sudo apt-get install zlib1g-dev
注意最後一個zlib1g-dev中的1g是數字1,而不是小寫字母l,
- sudo apt-get install libleptonica-dev
下載源文件包解壓(目前是3.0),進入目錄
- ./runautoconf
- ./configure
- make
- sudo make install
下載語言數據包解壓:你可以在這找到更多的語言包
- gzip -d eng.traineddata.gz
移動到數據包安裝目錄下,默認為 /usr/local/share/tessdata
- mv eng.traineddata /usr/local/share/tessdata
-
- export TESSDATA_PREFIX=/usr/local/share/
安裝圖片格式轉換工具,因為tesseract只識別tif格式的圖片。
- apt-get install imagemagick
你可以使用下面的命令轉換圖片
- convert a.jpg a.tif
好了,測試一下吧
- tesseract <image> <outputbasename> [-l lang] [configs]
-
- tesseract a.tif a
默認為英語,如果你要識別其它語言請使用-l 參數指定,如
- tesseract a.tif a -l chi_sim
-
- cat a.txt
你將會看到識別出的文字,太棒了。好了,下面就可以用程序去調用識別文字了,
對於java你也可以使用tess4j封裝的API,對於PHP你可以使用exec調用再對文件進行處理,
如果你遇到 lib **.so 找不到請運行
- sudo ldconfig