LibreOffice:使用 --convert-to 将 PDF 转换为纯文本

Posted

技术标签:

【中文标题】LibreOffice:使用 --convert-to 将 PDF 转换为纯文本【英文标题】:LibreOffice: Convert PDF to Plain Text using --convert-to 【发布时间】:2012-12-09 14:32:28 【问题描述】:

我正在尝试使用以下命令将 pdf 文件转换为纯文本文件

soffice --headless --convert-to txt xyz.pdf --outdir ~/

但是转换后的文件不包含文本,而是一堆无法识别的字符。以下是它创建的一些文本

    PK^C^D^T^@^@^H^@^@Ås<89>A<85>l9<8a>.^@^@^@.^@^@^@^H^@^@^@mimetypeapplication/vnd.oasis.opendocument.spreadsheetPK^C^D^T^@^@^H^@^@Ås<89>A4éæSq^B^@^@q^B^@^@^H^@^@^@meta.xml<?xml version="1.0" encoding="UTF-8"?>
<office:document-meta xmlns:office="urn:oasis:names:tc:opendocument:xmlns:office:1.0" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:meta="urn:oasis:names:tc:opendocument:xmlns:meta:1.0" xmlns:ooo="http://openoffice.org/2004/office" xmlns:grddl="http://www.w3.org/2003/g/data-view#" office:version="1.2"><office:meta><meta:document-statistic meta:table-count="1" meta:cell-count="2103" meta:object-count="0"/><meta:generator>LibreOffice/3.6$Linux_x86 LibreOffice_project/360m1$Build-102</meta:generator></office:meta></office:document-meta>PK^C^D^T^@^H^H^H^@Ås<89>A^@^@^@^@^@^@^@^@^@^@^@^@^L^@^@^@settings.xmlµWÛRâ@^P߯ æ]^C¨,¤^@^K±\ÝeÕ"è^Þ&IC¦<9c>L§æBd¿~'^D,^WC­Fç»...2<97>s:§»ÏLú§<8f>)o,A*<86>b@Z<87>MÒ^@^QaÌÄb@îf^W^G]r:üÔÇù<9c>EàÇ^X<99>^T<84>>P µ]¢^Zv»P~9= F
^_©bÊ^W4^EåëÈÇ^LÄv<9b>ÿ|µ¿&+G^^9^S^O^C<92>h<9d>ù<9e><97>çùa~t<88>ráµz½<9e>·<9e>Ý.<8d>PÌÙâµTåêçT<88>øDTl(<83>Y<93>µ<9b>Íc¯|&<8d>M<90>Ϥi<93>áV<87>íë^Oû^[<82>òç<80>iH^Km^Z<9b>á"´^A±<94>þ<92>Aþ¤^Z©Ú÷ï<9e>¦XÈa$<81>Î0#ÛI½Êì$^S<9a>^L<9b>ï%È<9b><80>'0×n<90>^?°X'UÐíæq·Û7þ%°ER^Y·Ó9i<9d>T^ST^L^V)y^RË^A#©¶%ñ<96>lN<90>ÆS 1

如果我尝试将 PDF 文件转换为 html 或 DOC,情况也是如此

我做错了什么?

【问题讨论】:

使用不同工具的方法:pdftotext xyz.pdf(对于 Ubuntu:sudo apt install poppler-utils 【参考方案1】:

尝试将“文本”放在“txt”之后。 例如:

libreoffice --invisible --convert-to txt:Text filename.doc

假设“libreoffice”和“soffice”足够相同

【讨论】:

我相信这个人在问 libreoffice(或 soffice?)是否可以将 .pdf 文件(不是 .doc 文件)--> 转换为 --> 文本。这是导致我这篇文章的同一个问题。此网页右上角的信息表明该问题是在一年前提出的。

以上是关于LibreOffice:使用 --convert-to 将 PDF 转换为纯文本的主要内容,如果未能解决你的问题,请参考以下文章

LibreOffice:使用 --convert-to 将 PDF 转换为纯文本

使用 PHP LibreOffice 和 ncjoes/office-converter 库转换文件

使用 --headless --convert-to 标志使用 libreoffice 将 .doc(x) 转换为 PDF/A-1a 格式

使用 shell_exec() 执行 libreoffice 命令时出错

使用 libreoffice 从 HTML 转换时嵌入图像

Apache/PHP + LibreOffice