歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux基礎 >> Linux教程

Ubuntu下安裝使用 tesseract-ocr

tesseract-ocr是開源的光學字符識別引擎,有Google的支持,支持很多種語言的識別,下面說一下 我在Ubuntu下安裝步驟

其實官方文檔上說的很細,下面列出其中的命令,

  1. sudo apt-get install autoconf automake libtool  
  2. sudo apt-get install libpng12-dev  
  3. sudo apt-get install libjpeg62-dev  
  4. sudo apt-get install libtiff4-dev  
  5. sudo apt-get install zlib1g-dev  

注意最後一個zlib1g-dev中的1g是數字1,而不是小寫字母l,

  1. sudo apt-get install libleptonica-dev  

下載源文件包解壓(目前是3.0),進入目錄

  1. ./runautoconf  
  2. ./configure  
  3. make  
  4. sudo make install  

下載語言數據包解壓:你可以在這找到更多的語言包

  1. gzip -d eng.traineddata.gz  

移動到數據包安裝目錄下,默認為 /usr/local/share/tessdata

  1. mv eng.traineddata /usr/local/share/tessdata  
  2.   
  3. export TESSDATA_PREFIX=/usr/local/share/  

安裝圖片格式轉換工具,因為tesseract只識別tif格式的圖片。

  1. apt-get install imagemagick  

你可以使用下面的命令轉換圖片

  1. convert a.jpg a.tif  

好了,測試一下吧

  1. tesseract <image> <outputbasename> [-l lang] [configs]  
  2.   
  3. tesseract a.tif a  
默認為英語,如果你要識別其它語言請使用-l 參數指定,如
  1. tesseract a.tif a -l chi_sim  
  2.   
  3. cat a.txt  

你將會看到識別出的文字,太棒了。好了,下面就可以用程序去調用識別文字了,

對於java你也可以使用tess4j封裝的API,對於PHP你可以使用exec調用再對文件進行處理,

如果你遇到 lib **.so 找不到請運行

  1. sudo ldconfig  
Copyright © Linux教程網 All Rights Reserved