linux 下 pdf 转换成txt

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了linux 下 pdf 转换成txt相关的知识,希望对你有一定的参考价值。

pdf有转换,如果是非扫描的,转换很快,识别率100%,很多软件可以转;如果是扫描的,就比较麻烦需要用到OCR技术(文字识别)。


在linux下:

依赖包  poppler-utils  tesseract tesseract-ocr-chi-sim 

情况一:pdftotxt 命令 可以转换非扫描版,免费又方便,只是格式、字体都没了

情况二:pdftoppm + tesseracr 可以实现扫面版的转换


情况一操作 pdftotxt  name.pdf   new.txt

情况二操作 第一步:pdftoppm name.pdf new   会生成new-1.ppm new-2.ppm 每页一个;

第二步: tesseracr new-1.ppm  result    会生成result.txt;可通过写脚本逐个转换,最后合到一个txt里


我的脚本如下:

第一步:pdftoppm test.pdf b -r 450 -freetype yes   ;经过我测试 当DPI为450是识别效果较好,ppm文件也不是很大,单个在60M左右

第二步:脚本

for i in `ls b-*.ppm`  #注意路径
do
n=1
    while [ $n -eq 1 ]   #监测任务
    do
    num=`ps aux|grep tesser|wc -l`  #并发任务不超过四个,可自行修改,注意内存和CPU
        if  [ $num -le 4 ]
        then
            tesseract $i $i -l chi_sim &   #任务  -l chi_sim是指定内容是中文,会生成很多txt,最后不要忘了合并。
            n=0
        else
            sleep 3
        fi
    done
done




以上是关于linux 下 pdf 转换成txt的主要内容,如果未能解决你的问题,请参考以下文章

Epub电子书格式怎么转换成txt,mobi,azw3,pdf

将电子书从txt格式转换成epub格式的软件?

怎么在Linux命令行下转换doc文件到pdf格式

如何把PDF文件内容转换成TXT

wps支持linux下java文档转换成pdf吗

java 怎么把txt转换成pdf