歡迎來到Linux教程網

設為首頁加入收藏

Linux教程網

Linux教程網

Linux教程網

首頁 Linux基礎 Linux管理 Linux編程 Linux綜合 Unix知識

您现在的位置： Linux教程網 >> UnixLinux > >> Linux基礎 >> Linux教程

Ubuntu下安裝使用 tesseract-ocr

tesseract-ocr是開源的光學字符識別引擎，有Google的支持，支持很多種語言的識別，下面說一下我在Ubuntu下安裝步驟

其實官方文檔上說的很細，下面列出其中的命令，

sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev

注意最後一個zlib1g-dev中的1g是數字1，而不是小寫字母l,

sudo apt-get install libleptonica-dev

下載源文件包解壓（目前是3.0），進入目錄

./runautoconf
./configure
make
sudo make install

下載語言數據包解壓：你可以在這找到更多的語言包

gzip -d eng.traineddata.gz

移動到數據包安裝目錄下，默認為 /usr/local/share/tessdata

mv eng.traineddata /usr/local/share/tessdata
export TESSDATA_PREFIX=/usr/local/share/

安裝圖片格式轉換工具，因為tesseract只識別tif格式的圖片。

apt-get install imagemagick

你可以使用下面的命令轉換圖片

convert a.jpg a.tif

好了，測試一下吧

tesseract <image> <outputbasename> [-l lang] [configs]
tesseract a.tif a

默認為英語，如果你要識別其它語言請使用-l 參數指定，如

tesseract a.tif a -l chi_sim
cat a.txt

你將會看到識別出的文字，太棒了。好了，下面就可以用程序去調用識別文字了，

對於java你也可以使用tess4j封裝的API，對於PHP你可以使用exec調用再對文件進行處理，

如果你遇到 lib **.so 找不到請運行

sudo ldconfig

上一篇文章： openSUSE 11.2 SSH安裝並啟動SSH無法登錄解決
下一篇文章： Linux下解決sudo輸入命令不能自動補全

Linux教程

Ubuntu 16.04 下安裝 Ubuntu Tweak

Ubuntu 16.04安裝使用Docker

Ubuntu下安裝使用nvm

Ubuntu 14.04下libxml2的安裝和使用

Ubuntu 12.04安裝使用Texlive2012

使用Ubuntu 8.10 Server 版定制安裝Mini Ubuntu

[圖文]Ubuntu 8.04安裝使用飛信

ubuntu下使用Tesseract

相關文章

Linux基礎知識

Copyright © Linux教程網 All Rights Reserved