歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
Linux教程網 >> Linux基礎 >> Linux教程 >> Ubuntu下安裝使用 tesseract-ocr

Ubuntu下安裝使用 tesseract-ocr

日期:2017/2/28 16:10:55   编辑:Linux教程
tesseract-ocr是開源的光學字符識別引擎,有Google的支持,支持很多種語言的識別,下面說一下 我在Ubuntu下安裝步驟

其實官方文檔上說的很細,下面列出其中的命令,

  1. sudo apt-get install autoconf automake libtool
  2. sudo apt-get install libpng12-dev
  3. sudo apt-get install libjpeg62-dev
  4. sudo apt-get install libtiff4-dev
  5. sudo apt-get install zlib1g-dev

注意最後一個zlib1g-dev中的1g是數字1,而不是小寫字母l,

  1. sudo apt-get install libleptonica-dev

下載源文件包解壓(目前是3.0),進入目錄

  1. ./runautoconf
  2. ./configure
  3. make
  4. sudo make install

下載語言數據包解壓:你可以在這找到更多的語言包

  1. gzip -d eng.traineddata.gz

移動到數據包安裝目錄下,默認為 /usr/local/share/tessdata

  1. mv eng.traineddata /usr/local/share/tessdata
  2. export TESSDATA_PREFIX=/usr/local/share/

安裝圖片格式轉換工具,因為tesseract只識別tif格式的圖片。

  1. apt-get install imagemagick

你可以使用下面的命令轉換圖片

  1. convert a.jpg a.tif

好了,測試一下吧

  1. tesseract <image> <outputbasename> [-l lang] [configs]
  2. tesseract a.tif a
默認為英語,如果你要識別其它語言請使用-l 參數指定,如
  1. tesseract a.tif a -l chi_sim
  2. cat a.txt

你將會看到識別出的文字,太棒了。好了,下面就可以用程序去調用識別文字了,

對於java你也可以使用tess4j封裝的API,對於PHP你可以使用exec調用再對文件進行處理,

如果你遇到 lib **.so 找不到請運行

  1. sudo ldconfig
Copyright © Linux教程網 All Rights Reserved