JODConverter - PDF 到 HTML 转换为垃圾数据

Posted

技术标签:

【中文标题】JODConverter - PDF 到 HTML 转换为垃圾数据【英文标题】:JODConverter - PDF to HTML converting to garbage data 【发布时间】:2014-10-30 13:21:37 【问题描述】:

您好,我正在尝试使用 jodconverter 3.0 将 pdf 文件转换为 html。 生成的 html 文件包含垃圾字符,这意味着 转换不成功。有人可以帮我知道什么是 正在发生。

这里是sn-p的代码:

OfficeManager officeManager = new DefaultOfficeManagerConfiguration().buildOfficeManager();
officeManager.start();
OfficeDocumentConverter converter = new
OfficeDocumentConverter(officeManager);
converter.convert(inputFile, outputFile);
officeManager.stop();

其中 inputFile = "test.pdf" 和 outputFile = "test.html" 创建 使用 File = new File(...) ;

来自输出文件的示例:

%PDF-1.4 %Çì�¢ 5 0 obj <</Length 6 0 R/Filter /FlateDecode>> stream
xœÅ][“#·q.[¢Ì,U’/’,˦sìÄÉ9        ÏxpÇDOVh;NUª,“<ˆ~X.wIƼ./²þF¬#œ##—Æ
13gIFÒ#8#h4€Æ×#4°O7Çø¦wÿÇÂéã_þÁlî>;zº‘\�#-ç#Ɇn#ôFIfÇZvsóñÑçG¾ùæ#¿
#ªZ³íó�ì˜Ô½†�#&–#µ½=Rê •ŸîöªS¦g#õ:åÉ•þ6WŒm7éÇŸ¥ÒÏ        Æ¿ý»ÜàçéçÜÇÇD#3|æ5¡Jï¤G ›dÑQË?ÿ"0e¢pø©ú‡‘Anyñù#Y9H‡#&
…ÿü��½[[ôñÝDáÖ.Šƒ�‘¸•#w3¥##w[\KãwºÛÉ?sÓÀ¬ÑÃöŸÜ#A4´�Ýœ¾###ü<=#`#
À####IÍCùA(#­]Ù×#Ë÷Žþóh%#Q¬K#A]°þ        À¶#L*##¥4¬ƒLüþj�##áSCê
‡¡Ã/"d½—`(# '`d»‡�0~       
ó3.#ï�ÏnÔ˜=Ì›ƒ(#Õ…)Ú½½ãÆtli##l#…9Úþrq#RöN<ð(®
£ž¯ïöCÇ•„ÙïÓˆ®_A#cî#Ÿ=_ät0®;Äé•d¤Á¶äÌ#p=�Ûҗö#»epe_g,#´-éiP=ìÃb#ð¸òb2î
—Щ«­(#Nõ=Úº—²‚% Ã#Ui×�AËÞ#s¶qý:Ã#xø

【问题讨论】:

Jodconverter 依赖 OpenOffice 进行转换。您是否尝试过直接在 OpenOffice 中进行相同的转换,并获得了更好的结果? 你可以更新任何最小的 pdf 错误吗? 【参考方案1】:

您无法使用 OpenOffice 将 PDF 转换为 HTML 或其他格式。您可以转换为 pdf,但不能转换为 FROM。 您所获得的内容与您在记事本中打开 PDF 时的内容完全相同。

您可以改为使用 iText 库来解析 PDF 文件并使用解析的文本创建 HTML。 如果您需要保留原始格式,可能会有点棘手。

也许你也可以看看这个:http://sourceforge.net/projects/pdftohtml/

【讨论】:

以上是关于JODConverter - PDF 到 HTML 转换为垃圾数据的主要内容,如果未能解决你的问题,请参考以下文章

比 JODCONVERTER 更快 [关闭]

jodconverter实现在线预览

jodconverter实现在线预览

使用 jodconverter 和 OpenOffice 将 doc/docx 转换为 pdf

用openoffice+jodconverter+webuploader+pdf.js实现文件上传在线预览功能

通过 JODConverter 和 LibreOffice 将 docx 转换为 pdf 会导致错误