Linux教程網 >> Linux基礎 >> Linux教程 >> Ubuntu下的ocr文字識別（pdf、tif等）

Ubuntu下的ocr文字識別（pdf、tif等）

日期：2017/2/28 15:32:04 编辑：Linux教程

平時使用掃描件或者pdf查看文檔，但是在ipad上當文字比較小的時候不能有效放大，過著每次閱讀需要移動屏幕，十分不方便，為此想將pdf或者圖片中的文字截取出來，可以有效處理，當然需要ocr技術了，現在我們就來考慮和解決這個問題。

1、技術准備：

os為 linux mint 13(基於Ubuntu 12.04的）

ocr軟件：tesseract，執行文件為tesseract

gocr

pdf處理軟件：pdftoxxx，比如pdftotext等

tiff處理如案件：比如tiff2pdf等等

2、安裝軟件

sudo apt-get install gocr

sudo apt-get install tesseract-ocr

sudo apt-get install libtiff-tools

對於tesseract需要設置語言包，可以在觀望上下載具體中文語言包，比如簡體的就是chi_sim,然後加入到一個環境變量中

mv chi_sim.traineddata /usr/local/share/tessdata

export TESSDATA_PREFIX=/usr/local/share/

3、tif文件轉文字 tif-->text

直接使用tesseract即可，如下：

tesseract a.tif a.txt -l chi_sim

以上支持多頁單文件tif

4、pdf文件轉文字 pdf-->text

如果pdf本來就是文字格式的，那麼很簡單，直接轉換即可

pdftotext a.pdf a.txt

如果pdf內部內容是圖片，則無法通過以上方法去的內容，首相將pdf轉換成為ppm，然後從ppm裝換為文字：pdf-->多個ppm-->多個txt

pdf2ppm a.pdf a

產生a1.ppm，a2.ppm.....

然後通過tesseract轉換

tesseract a1.tif a1.txt -l chi_sim

上一頁:Linux Mount Windows域用戶限制的共享文件夾
下一頁:Linux中find命令使用

Linux教程

Java序列化與JSON序列化大比拼

一、背景有項目需要傳輸Map結構的數據，有人傾向用Ja

更改Ubuntu登陸界面

使用 backupninja 為 Debian 定制備份計劃

Linux下遠程桌面的成功配置

Linux中的隨機數文件 /dev/random /dev/urandom

Ubuntu16.04 LTS下apt安裝WireShark

Ubuntu dpkg出現致命錯誤解決方案

Ubuntu中root用戶沒有辦法使用命令

Pig 安裝部署及MapReduce模式下測試

Linux教程網

Linux文件權限概念

一、Linux文件屬性　　1、第一列代表這個文件的類型與權限（permission）: 共有1

CentOS 6.0圖形界面安裝

Linux不能成為商標 Linux之父注冊宣告失敗

Linux Smart 解壓文件

Python面向對象的繼承

【ANSI轉UTF

PowerShell與Linux的前世、今生、未來

CentOS 6.5 下的截圖方法

一步一步學Linux C ---getch()詳解

Linux基礎知識 Linux入門 Linux技術 Linux教程 Linux服務器關於Linux

文章推荐

在 FreeBSD 10.1中安裝 Mate 桌面

塊設備和OpenStack

Linux x86-64模式下分析內存映射流程

主從和監控sentinel

热点聚焦

Windows與Ubuntu雙系統重裝WIN7後修復Grub2

Ubuntu 7.10下Compiz Fusion特效設置

從ubuntu 7.04升級到ubuntu 7.10時桌面效果不能啟動的解決

Ubuntu 13.04 安裝 Cinnamon 1.8 (含新功能介紹)

Ubuntu Feisty 中安裝Amarok 1.4.7(圖)

Ubuntu下安裝PDF 文檔閱讀器Adobe Reader 9.5.5

WebSphere7.0 Java6.26安裝

解決Thinkpad在Linux下的電池充電問題

Linux中find命令的用法

Linux free命令詳解