网页中pdf如何下载

Posted 2023-04-19

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了网页中pdf如何下载相关的知识，希望对你有一定的参考价值。

网页中pdf如何下载

对于网页中的pdf文件，题主说的有点笼统，我根据不同情况来说一下吧。

复制pdf的下载地址，将其粘贴到迅雷等下载软件中，最后确定下载。

已经在网页中打开了的pdf文件，不同的浏览器会有不同的提示。例如，可以按一下Ctrl+S快捷键或者是点击下载按钮都可以。

对于像Chrome浏览器来说，可以右击，然后打印。将目标打印机选择为另存为PDF。

参考技术A 解决方法
1、最常用的方法：“选定”网页内容后，右击，选“另存为”，找到存放地址后，保存即可;

2、如从网页上复制过来的内容成乱码，可在“另存为”中，将格式选为txt格式后保存，然后重新排版;要是网上文件有图片，可以先把文字复制到“文本文档”后，再复制到WORD文档，然后在上面插入图片;

3、如禁用了右键菜单(即右键菜单中“另存为”不可用)，可选中某网页内容后，点键盘上的组合键Ctri+C进行复制，再打开一文档，点Ctri+V粘贴即可);

4、若上法不可用，可试试先点击左键，不松手，再点击右键。接着松开左键，最后松开右键。如出现快捷菜单，点“另存为”即可保存;

5、用上面三法还是不能复制时： A、先将该网址保存在收藏夹中后(在打开的这个网页中，点收藏、确定);
B、随意打开一个WORD文档(也可以是空白或新建文档)，点工具栏中“打开”按钮，在左边的“查找范围”下面点“收藏夹”;
C、在收藏夹下面显示的内容中，找到你刚才保存的网址(即打开了要复制内容的网址)，选中要复制的内容并右击，点复制;
D、再打开要存放下载内容的文档，右击后选“粘贴”、保存即可。

6、在网页中，点/查看/源文件，就可打开一个记事本文件，在其中可找到所需要的文字并右击/选“复制”/保存到文档中即可;

7、有时一些网页对源码进行了加密，其复制方法为：
启动IE浏览器，鼠标点击“工具→Internet选项”菜单，选择“安全”标签，点击“自定义级别”按钮，在出现的窗口中将所有脚本全部禁用，然后按F5刷新页面(这时所有的javascript代码都被禁用了，就可对其进行任意的复制、粘贴*操作)。提示：在收集到自己需要的内容后，要给脚本解禁，否则会影响浏览其它网页。参考技术B 没有下载地址吗？对准下载地址，右键目标另存为。
查看源文件，查找.pdf，如果前边是一个整段的URL的话（如http://www.abc.com/a.pdf），就复制放到迅雷里下载就可以了。本回答被提问者采纳参考技术C

也许你点击pdf文件下载链接弹出来的是一个网页,想直接下载给你推荐两种办法:

下载时不要直接点击下载链接,而是点击右键 - 目标另存为(或者使用XXX下载)

或者直接点开链接,弹出来的网页地址则是下载地址,复制该网页地址,使用浏览器下载工具新建一个任务,即可下载!

参考技术D

在缓存中可以查找到pdf缓存文件打开后可以看到iE中文件的地址，这样就可以使用迅雷的批量下载了。

下载网页中的 pdf 各种姿势，教你如何 carry 各种网页上的 pdf 文档。

关联词: PDF 下载 FLASH 网页 HTML 报告内嵌浏览器文档 FlexPaperViewer swfobject pdf2swf 。

这个需求是最近帮一个学妹处理一下各大高校网站里的 PDF 文档下载，又增加了无用的逆向知识 XD ，根据这些思路，可以有效的下载这类网站的文档文件。

这需要你有点 HTML5 和 Flash 时代的基础认知，顺便能看 F12 的 network 、cache 等内容，推算真实地址等。

我从最简单的说起，首先准备一个谷歌浏览器，有趣的是需要谷歌浏览器的打印功能，导出到 PDF 上。

第一种样本，是直接的 .pdf 该类直接下载即可，没有难度。

http://zjc.suda.edu.cn/_upload/article/files/5f/cd/6352cea9466b80a3677983aab1ef/72cd882e-8bf8-4021-9960-553ebc770e4d.pdf

技术图片

第二种样本，是现代 H5 + JS 内嵌 PDF 浏览器的方式。

属于现代 H5 JS 的产物，需要用 F12 开发者工具看源码推断 PDF 文件路径，接下来截图举例。

http://www.nuaa.edu.cn/2020/0108/c295a192335/page.htm

技术图片

对其右键选检查，此时进入 F12 的 HTML 元素审查位置，可以找到它的定义代码。

技术图片

仔细看标签内容可以发现，存在 data-url="/_upload/article/files/3d/8d/78ed42f44031bcb6793b0eb27af1/8e6ad93b-4902-4fd8-bba5-bfabaf852885_1.png" 这类标签。

技术图片

试图搜索（Ctrl + F）页面内容中的 .pdf 文件后缀，就会发现它的文件源存在了 pdfsrc="/_upload/article/files/3d/8d/78ed42f44031bcb6793b0eb27af1/8e6ad93b-4902-4fd8-bba5-bfabaf852885.pdf" 。

技术图片

此时需要确定它的服务器源，从而获取真实地址，可以绝大概率是从这里来的。

技术图片

因此地址改为 http://www.nuaa.edu.cn//_upload/article/files/3d/8d/78ed42f44031bcb6793b0eb27af1/8e6ad93b-4902-4fd8-bba5-bfabaf852885.pdf 就出来了。

技术图片

觉得还不太相信？那就再来一个。

http://zjc.suda.edu.cn/88/5c/c5230a362588/page.htm

技术图片

直接进 F12 直接搜 .pdf 直接找到源直接替换直接得到文件路径。

技术图片

直接得到 http://zjc.suda.edu.cn//_upload/article/files/5f/cd/6352cea9466b80a3677983aab1ef/72cd882e-8bf8-4021-9960-553ebc770e4d.pdf 就是了。

技术图片

聪明的你学会了吗？接着我们进入第三种样本吧。

第三种样本，旧时代的遗留产物 FLASH 下的 PDF 文档

这个需要一点编程基础了，我之前思路走歪了，现代电脑已经不支持过去的 Flash 软件了，我先是获取了 swf 后试图转换图片、反编译其内容，但能够在 Win10 上 work 的软件已经不多了。

最后痛定思痛，想起，我是个程序猿鸭，为什么要这么耿直的使用工具呢？没错，我直接怼代码进去了，就可以解决了嘻嘻，接下来就是复现这个过程。

注意，针对 swf 转 pdf 问题文件，可以使用 github 的代码去实现，在这里不过多提及，关键词可以是 pdf2swf 和 FlexPaper 使用正向代码解决问题。

只是想起以前浏览器还可以直接读取 flash swf 文件的，不知道为什么现在已经不支持了。

http://job.neuq.edu.cn/content.jsp?urltype=news.NewsContentUrl&wbtreeid=1022&wbnewsid=1978&&tdsourcetag=s_pcqq_aiomsg

技术图片

从右键我们可以得知它是 flash 播放器，这个真的没办法通过 html 得到，那么怎么办呢。

技术图片

搜索 .pdf 或 .doc 都没用了，根本得不到它的文件，反而可以得到 swf 文件，讲道理，如果是早年间的电脑，相关工具应该还是可以解决问题的，如 swf2png 这类工具。

技术图片

但是 win10 已经无法正常 work 了，那么我在这个地方浪费了很久以后，仔细看了一下它的组件，对，就是 /system/resource/swf/FlexPaperViewer.swf 挺古老的东西了。

顺便一提，谷歌浏览器将在 2020年12月终止 flash 组件。

那么，正面转换 swf 已经不现实了，我开始阅读标签代码，如下图。

技术图片

<p><embed width="650" height="600" src="/system/resource/swf/FlexPaperViewer.swf" type="application/x-shockwave-flash" isdependent="0" allowfullscreeninteractive="true" allowfullscreen="true" allownetworking="all" profileport="0" profile="0" seamlesstabbing="1" swremote="" bgcolor="" embedmovie="0" devicefont="0" scale="NoScale" allowscriptaccess="always" base="" menu="-1" salign="LT" quality="High" loop="-1" play="0" wmode="Opaque" flashvars="SwfFile=/__local/4/50/01/98B6C628FBB041488F68F907AD6_FB8BA217_F7CF8.swf?e=.swf&amp;Scale=0.6&amp;key=cbd65a4d4530487cc02$6103f82513859c4feeb&amp;ZoomTransition=easeOut&amp;ZoomTime=0.5&amp;ZoomInterval=0.2&amp;FitWidthOnLoad=true&amp;MinZoomSize=0.2&amp;MaxZoomSize=5&amp;InitViewMode=Portrait&amp;ViewModeToolsVisible=true&amp;ZoomToolsVisible=true&amp;NavToolsVisible=true&amp;CursorToolsVisible=true&amp;SearchToolsVisible=true&amp;localeChain=zh_CN&amp;isPrintable=false&amp;isTextSelectable=false"><br></p>

写代码嘛，这里就是定义这个 FlexPaperViewer 组件的调用参数，那么看到 isPrintable=false ，这里 false 就是关，表示停用打印机选项，改成 true 先。

技术图片

发现没反应，这是因为这时候标签没有刷新，所以编辑一下再保存，让 JS 重载改组件。

技术图片

此时你会看到一个神奇的选项出来了，对的，就是打印机，那么你知道怎么做了吗？

技术图片

打印它，然后另存为 PDF 就可以了。

技术图片

嗯，接下来你都知道了吧。

技术图片

第四种样本，炫酷的动画版 PDF 文档。

这一种动画制的 PDF 版本，有点复杂，依赖库使用的是 SWFObject 组件，但也不是不能搞，但不能像前面的那种方式处理了。

http://report.dsjyw.net/

技术图片

/*! SWFObject v2.2 <http://code.google.com/p/swfobject/> 
    is released under the MIT License <http://www.opensource.org/licenses/mit-license.php> 
*/

现在怎么办呢？打印也没用，文件源也找不到，只好仔细观察 network 的数据流了。

技术图片