下列哪种工具是浏览网页文档的必要工具?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了下列哪种工具是浏览网页文档的必要工具?相关的知识,希望对你有一定的参考价值。
参考技术A 就你用的浏览器就可以了,重要的信息把网页另存下就可以了,不重要的就脱机看好了。。如果你非要软件给你介绍几个。。 . WebZip 7.03 中文语言包 WebZip 把一个网站下载并压缩到一个单独的 ZIP 文件中,可以帮您将某个站台全部或部份之资料以ZIP格式压缩起来,可供你日后快速浏览这个网站。且新一版的功能包括可排定时间来下载,亦加强相当漂亮的立体界面及传输的曲线图。 2. 网站全额下载器 2002 “网站全额下载器”是一个离线浏览的最佳工具。只要几分钟就可以将一个网站全部下载。包括网站内的图片、文字、程序、软件.....等。所以这也是研究别人网站的最好帮手。 3. WebZip 7.0.3 WebZip 把一个网站下载并压缩到一个单独的 ZIP 文件中,可以帮您将某个站台全部或部份之资料以ZIP格式压缩起来,可供你日后快速浏览这个网站。且新一版的功能包括可排定时间来下载,亦加强相当漂亮的立体界面及传输的曲线图。 4. 离线浏览助理Webdup 0.93 Beta Webdup能够把您想要浏览的信息(如网页和图片等)预先下载下来,保存在本地硬盘,使您可以从本地进行离线浏览,这样不仅可以大大减少上网时间,降低上网费用,还可以加快浏览速度;并且将来无须上网就可以很方便地查阅这些信息。不仅如此, Webdup更提供了备份历次下载记录和比较完善的管理功能,使您能够方便地分类保存和管理有价值的下载信息。 Webdup的当前版本实现了以下功能:1.支持HTTP和FTP下载,并支持HTTP和Socks5代理服务器;2.支持多线程下载;3.支持断点续传;4.可按URL和文件后缀名设置过滤,只下载所需文件;5.自动识别下载过的文件是否更新过,减少重复下载;6.可设置定时下载和定时停止;7.支持自动拨号和自动挂断;8.可导出和导入项目文件,方便用户交换网上资源;9.提供与浏览器(IE)的整合,方便快速地创建项目;10.支持项目和类别的拖拽操作,方便用户分类管理项目;11.能自动识别操作系统的语言,按需显示中文或英文。 5. WebZip 7.0.0.1025 汉化版 WebZip 是把一个网站下载并压缩到一个单独的 ZIP 文件中,可以帮您将某个网站全部或部份资料以ZIP格式压缩起来,可供你日后快速浏览这个网站。且新一版的功能包括可预定时间来下载,亦加强相当漂亮的立体界面及传输的曲线图。 此版本是直接汉化程序文件,不同于汉化语言文件,汉化较彻底,但仍然有极个别字符没能彻底汉化,但不影响使用。因为是汉化的程序文件,在汉化中对程序界面做了大量优化和美化工作。安装中可选择安装中文版本或英文版本,并可以选择是否注册软件。 6. 木马专杀大师 2.6 本软件采用了先进的程序行为智能判断技术。软件通过分析每个程序的机理来判断木马,不需要木马的特征码,可查杀未知木马。实时扫描内存中的每个程序,一旦发现木马,即时查杀。强力保障您的计算机、网络游戏帐号、QQ和邮箱帐号等不被木马侵害。 目前查杀病毒木马的软件基本都是采用了特征码查杀技术,也就是说用户要不断的下载和更新病毒木马库才能查杀最新的木马。这种方法的弊端很明显,因为每天都有新的木马出现,一旦木马库更新不及时,用户就面临着危险。而且软件的厂商也肯定不能把所有的病毒木马库找全。所以很多用户虽然安装了这些安全软件,帐号还是经常被木马窃取。因此一款好的木马查杀软件必不可少。 7. Teleport Pro 1.40 Teleport Pro所能做的,不仅仅是离线浏览某个网页(让你离线快速浏览某个网页的内容当然是它的一项重要功能),它可以从Internet的任何地方抓回你想要的任何文件,它可以在你指定的时间自动登录到你指定的网站下载你指定的内容,你还可以用它来创建某个网站的完整的镜象,作为创建你自己的网站的参考。 8. Weblinky 1.12简体中文版 WebSlinky可以把站点拷贝到你的计算机里,你可以在方便的时候离线读取,不必等待下载的时间。此程序提供了一个简单的界面,使你能够进入你希望缓存到计算机中的站点地址(URL)中去。它还提供了WebSlinky保存站点文件的本地文件夹的路径和名字以及用户名和口令(如果站点要求).Name:CZY Code:1010107261 9. 网络蜘蛛 1.0 网络蜘蛛是一个自动搜索 html 页面并下载指定文件的软件。最初设计它是为了下载网站上的图片,想想看,面对那些动辄拥有数百幅图片的网站,你是否有耐心和时间一一点击查看和下载?而且在目前上网费用如此高昂的年代,在网站上慢慢地手工浏览和下载图片是不是太过奢侈了一点?如果你是一个图片收集爱好者得话,建议你试一试网络蜘蛛这个软件。它可以从你指定的地址开始,自动搜索网站并下载图片或其它软件。听起来似乎有点象离线浏览器或网站下载软件是吗?其实它们还是有些差别的,网络蜘蛛的设计目标主要是针对图片等一些比较零碎的、尺寸不是很大的文件的下载,并高度强调自动化工作和高可靠性。 10. WebCHM 2.07.7507 WebCHM(原WebSeizer测试版)是中国最强大的多线程离线浏览软件,专业的下载大型网站的工具。可以下载整个网站所有的文件,也可以只下载同一个目录的文件,还可以下载指定的层次。主要特色是可以下载超大型的网站(容量>10GB,文件数目>100万的网站),并且内置了CHM压缩引擎,可以灵活方便地将下载的网页制作成CHM压缩文档。下载大型网站时,可以边下载边压缩到CHM文档,以节省空间;下载几百篇文章的小说时,可以下载后再制作成可以在PDA上阅读的CHM格式的电子书。支持断点续传、在线升级、分类管理等功能,操作方便,体贴用户。 11. Offline Explorer 4.1.2347 相当方便使用的离线浏览工具,可排定抓取时间、设定Proxy,也可选择抓取的项目及大小,可自设下载的存放位置、及存放的空间限制。它内置浏览程序、可直接浏览或是使用自己喜欢的浏览器来浏览、且更可直接以全浏览窗切换来作网上浏览,另它对于抓取的网站更有MAP的提供、可更清楚整个网站的连结及目录结构。 12. BlackWidow 5.00 Beta 19 一个非常简单易用的离线浏览器,它能列出你指定的站点的全部文件,你可以选择需要的文件下载。 13. HTTrack 3.40 一个相当容易使用的脱机阅览软件,能将网站传送到计算机目录里,并且会将所有相关链结重新组织,以方便更顺利的脱机浏览。 14. Aeria Leech 4.3.3 Leech是一个不错的离线浏览器,能够多线程下载多个文件。系统要求:IE4.0或更高版本。 15. CopyWebsite 2.43 离线浏览工具,仅仅需要输入需要下载网站的URL,所有的网页就可以被下载,包括图像和zip文件。 16. 网页抓手(FileCatch) 1.07 网页抓手(FileCatch)是设计来取代IE的另存为菜单的软件,能够嵌入到IE的右键菜单中后台形式保存网页,不打断浏览;此外,FileCatch仅仅保存网页而不包括图象,解决了一存一大堆的现象;FileCatch提供了自动生成一定意义名称的功能,使你不需要为命名烦恼;FileCatch通过智能补完相对地址到网页中,解决了保存的网页超链接丢失的现象;FileCatch能够将网页依耐的CSS嵌入保存到html文件中,保持网页的美观,逼进在线的效果;FileCatch支持对智能选项和代理服务器,使你方便的使用定制;FileCatch是免费软件,你可以自由的使用。 17. Offline Explorer Pro 4.1.2348 相当方便使用的离线浏览工具,可排定抓取时间、设定Proxy,也可选择抓取的项目及大小,可自设下载的存放位置、及存放的空间限制。它内置浏览程序、可直接浏览或是使用自己喜欢的浏览器来浏览、且更可直接以全浏览窗切换来作网上浏览,另它对于抓取的网站更有MAP的提供、可更清楚整个网站的连结及目录结构。 18. Teleport Ultra 1.40 简体中文版 Teleport Ultra 所能做的,不仅仅是离线浏览某个网页 (让你离线快速浏览某个网页的内容当然是它的一项重要功能),它可以从 Internet 的任何地方抓回你想要的任何文件,它可以在你指定的时间自动登录到你指定的网站下载你指定的内容,你还可以用它来创建某个网站的完整的镜象,作为创建你自己的网站的参考。如果你也和我一样,曾想把整个网页抓回来慢慢欣赏,如果你也曾像我一样,费尽千辛万苦只为了重复抓取同一网站的文件而做一些机械性的动作,Teleport Ultra 简直是我们的救星!它可以迅速、确实地将整个网站复制在你的硬盘中,为您节省大笔的上网费用与时间。Teleport Ultra 是著名的离线浏览软件 Teleport Pro 版本的增强版! 19. Teleport Ultra 1.40 Teleport Ultra所能做的,不仅仅是离线浏览某个网页(让你离线快速浏览某个网页的内容当然是它的一项重要功能),它可以从Internet的任何地方抓回你想要的任何文件,它可以在你指定的时间自动登录到你指定的网站下载你指定的内容,你还可以用它来创建某个网站的完整的镜象,作为创建你自己的网站的参考。如果你也和我一样,曾想把整个网页捉回慢慢欣赏,如果你也曾像我一样费尽千辛万苦,只为了重复捉取同一网站的档案而做一些机械性的动作Teleport Ultra 简直是我们的救星!它可迅速、确实地将整个网站复制在你的硬碟中,为您节省大笔的连线费用与时间。Teleport Ultra 是著名的离线浏览软件Teleport Pro版本的增强版!更新记录:1.新增了一项功能,使得该软件的Ultra, VLX, Exec, Exec/VLX版可以打开比较小的项目2.新增了可以在UNC卷上运行项目的功能3.在Exec和Exec/VLX版本中新增了API命令4.更新了所有版本的文档5.改进了脚本,可以处理更多的脚本命令6.改进了规则引擎7.修正了会取回一些不需要的URL的bug8.重新设置了Ultra版的试用期 20. Offline Explorer Enterprise 4.1.2348 相当方便使用的离线浏览工具,可排定抓取时间、设定Proxy,也可选择抓取的项目及大小,可自设下载的存放位置、及存放的空间限制。它内置浏览程序、可直接浏览或是使用自己喜欢的浏览器来浏览、且更可直接以全浏览窗切换来作网上浏览,另它对于抓取的网站更有MAP的提供、可更清楚整个网站的连结及目录结构。 21. WebCopier 4.3 是一个强大的离线浏览器,可以同时对100个文件进行下载。支持代理服务器。内置了强大的搜索功能。 22. Offline Explorer Pro 2.2 汉化版 相当方便使用的离线浏览工具,可排定抓取时间、设定Proxy,也可选择抓取的项目及大小,可自设下载的存放位置、及存放的空间限制。它内置浏览程序、可直接浏览或是使用自己喜欢的浏览器来浏览、且更可直接以全浏览窗切换来作网上浏览,另它对于抓取的网站更有MAP的提供、可更清楚整个网站的连结及目录结构。 23. Grab-a-Site 5.0 这是一个离线浏览工具。你可以把喜欢的网站抓到本地硬盘上细细的欣赏甚至包括那些有密码保护的站点。还有过滤指定站点的功能。 24. Black Widows 4.37 可以让您建立Web站台的整个目录结构并将之储存以便日后利用,当您下载文件时,依您的选择进行建立下一个网站结构。您可以选择下载整个或部份的文件,也提供续传功能让您下载中断时使用。 25. HTTrack Website Copier for Windows 3.40 Beta 4 HTTrack是一个免费并易于使用的线下浏览器工具,它能够让你从互联网上下载整个网站进行线下浏览。浏览线下站点和线上并没有什么不同。HTTrack同样可以进行线下线上站点同步,支持断点续传。HTTrack是一个可全面配置并包括全面的帮助系统的工具。 26. WebCopier 官方中文语言包 是一个强大的离线浏览器,可以同时对100个文件进行下载。支持代理服务器。内置了强大的搜索功能。 27. BackStreet Browser 3.1 BackStreet Browser是个离线浏览的好帮手。它的特性是,同时多个执行绪对目的网站做存取,充分利用频宽,不必受到网络traffic状况的延迟而拖长等待的时间。对于不想花费时间在无谓的等待的人,BackStreetBrowser是不错的选择。 28. SuperBot 4.5 SuperBot帮您将整个网站搬回家SuperBot是个全自动的离线浏览软件,您不需要做太多的设定,便可以将自己想看的网站给整个搬回家!SuperBot与一般的离线浏览软件最大的不同处在于它的操作使用相当简单,您只要设定好想要下载的网站路径以及下载网页存放的路径,SuperBot便可以自动为您进行网页下载的工作了,不过这坪要注意的是,如果您想要下载存放的网站相当大的话,您可能要花相当长的时间等待。 29. SuperHTTP 1.0 SuperHTTP是一套离线浏览软件,可以将整个网站按照目录结构顺序、超连结等,完整下载到硬盘离线浏览,也可以选择只下载图形文件或者其他文件,包括html、txt、pdf、doc、jpg、bmp、gif、png、mpg、mp2、mp3、avi、wav、mid、exe、zip等等,只需在设定中打勾或取消即可,不用一个一个输入文件类型,允许同时下载多个网站,以及显示下载进度功能。此外也提供搜寻引擎功能,可输入关键字搜寻所下载的网站来找出所要的文件或资讯。 30. MemoWeb 3.3.05 离线网络浏览器,以供使用者方便快速的直接在电脑中浏览这些网页。你可以选择是下载整个站点的所有的文件,还是下载首页,或者是某一个部分。同时它还支持下载多媒体文件,例如图片,声音,和视频动画。支持长文件名,断点续传,支持代理服务器。 31. eCatch 3.0 简单实用的离线浏览器。由使用者设定所要观看的网址及连结的层数,而直接抓取并建立一个「可浏览的连结网页」到使用者的电脑中,以供使用者方便快速的直接在电脑中浏览这些网页,可以监视及下载数以千计的网页以供离线观看。可自订组态抓取网页中的特殊文件,像是多媒体文件及自解压缩文件等。 32. WebStripper 2.62 是一个离线浏览器,可以快速、准确地将站点下载到你的硬盘中。它的使用非常简单,而且还提供了多个过滤条件,比如:图像文件的大小等,另外,它还可以提取新的或是升级的页面。 33. DISCo Pump 3.1 这是一个离线浏览器,具有交互性的界面,独一无二的文件树、浏览向导图、页面图标、预览选项。通过它你可以速度地将网页保存到本地,然后离线慢慢进行浏览。 34. GetBot 3.04 GetBot储存网页、抓文件两相宜用GetBot可以很快的将网页中所有的MP3文件或者图形文件。你只要将网址贴进GetBot位址列中,GetBot就会完整的显示出该网站的所有网页以及文件。然后你只要选取要下载的网页以及文件,按下get钮,GetBot就会帮你将所有文件抓回来了。而且GetBot也有续传的功能,不怕抓文件抓到一半断线。GetBot的使用算是很方便,甚至不需要安装,直接就可以执行。 35. 帖子离线浏览器 1.2 1.非常灵活:帖子左边的分类名称和roomid是根据xml文件动态给出的,您可以随便更改该文件从而显示不同的内容,正因为这样,所以他可以适应CSDN的任何改版。2.良好的兼容性:除了CSDN帖子外,通过修改xml配置文件可以适应任何的离线帖子和从网上收集的文章,同时导入选项也是xml个数的,非常方便扩充。3.绿色软件,不写注册表。4.强大的查找功能,可以查找任何一个论坛或子论坛,而且可以递归。 36. 精华浏览器(MixBrowser) 1.7 简体中文版 精华浏览器是一款精致的离线浏览软件,她可以帮你保存网页、图片和flash动画,并以网页的形式浏览整理它们,轻松拥有自己的精华区。有了她你就可以保留那些对自己工作和生活有益的文章、原创,精美的图片和有趣的flash动画在身边,使自己从疲劳的搜索再搜索,或“我记得在哪看过一篇文章”的遗憾中解脱出来,只需鼠标一点即刻保存。作为浏览器,她更拥有鼠标动作、安全浏览和集成搜索、关键字加亮等特色功能,让你的浏览更轻松、更舒适。 37. Power Siphon 1.9.6.0 这是个高效能的网络蜘蛛人,让你下载网站,或任何明确的网页。并储存到硬盘以便浏览使用。简单的提供网页的URL或任何其它开启的页面来下载整个网页,你可以实时观看下载进度,并且从硬盘中存取所有离线页面。此程序还提供了一个压缩已下载网页成为单一执行档案。嵌入的观看器让你看你已下载成功的页面,还包含滚动显示模式。 38. WebCopy 99 1.7 是一个可以直接将WEB 网页拷贝储存的软件,包括可以拷贝整个网页、文字、图像、声音及电子邮件等等,这样即可离线观看网页。 39. 网络猎手 2.5 这是一个很好的网上资料收集工具,在浏览器中,你可以通过右键菜单很方便的收集资料,你可以部分选取保存,也可以全部整页的保存,而且保存下来的页面更原来的一样。并且支持拖拉保存,使你可以将没有右键菜单的页面很好的进行保存。而且还提供了页面上一些文档链接(**.zip)的下载功能.下载下来的页面可以进行分类保存和编辑,并最终可以生成eBook(CHM)和HTML文件。 40. Flash Favorite 1.4.8.5.8 FlashFavori 允许你浏览下载到 Internet 临时目录中或当前打开的网页尚的 FLASH 文件。 41. NewsVampire 1.4 本软件的主要功能是将众多网站服务器上的网页快速下载到本地机硬盘上以供离线浏览。其特点是采用了多线程循环下载技术,可自动将数百个网页连同图片自动快速下载并存盘;用户可以一边下载,一边浏览已经下载的网页,从而最大限度地利用网络资源。全中文显示,支持HTTP代理服务器。 42. CatchTheWeb Express 1.2 CatchTheWeb Express不但是个网页浏览器,而且它还可以让使用者将网页从Internet抓取到电脑之中,然后重新组织安排各个网页的顺序、添加注解,而让这些网页具有如展示简报般的用途。只能一次抓取一个单一网页,所以单单在抓取网页的功能方面,并没有离线浏览程序那么好用,但是对于网页资讯的利用方面,却是一个不错的简报辅助软件。 43. QuadSucker Web 3.1 QuadSucker Web 是一个功能强大的离线浏览工具,它可以帮助你完整的将指定的网站中的所有文件和图片,压缩包,多媒体视频或者音频文件统统下载下来,完全自动化操作,不需要人为的干预就可以轻松完成所有的下载工作 .. 44. Website Extractor 9.30 该软件可以下载某个网站中符合您指定条件,如关键字、文件类型、大小等的文件。 45. JOC Web Spider 3.72 离线浏览器, 支持 VBScript & javascript。 46. ImageSiteGrabber Pro 2.4.1 可以让您直接指定要抓取的网页以及网站位置,然后就可以轻轻松松的将这些图形文件影像给全部带回家。提供自动更名的功能。 47. Offline Commander 2.2 Offline Commander是一个网页抓取工具,支持FILE、HTTP、HTTPS、FTP协议和Proxy,还可以对抓取回来的网页资料做关键字、网址、标题、内文、文件大小、格式、文件修改日期等检索设置。 48. NetAttache Pro 2.61 可以设定所要下载的网页以及要下载的时间,NetAttache pro 会自动的拨接连接到该网站,将你需要的网页抓回来,然后再自动断线.它会依照你所设定的网页「层数」,将网页文件抓取回来.当网路拥塞时,它还会自动重试 10 次,并且以每次同时抓取20个文件的超快速度来下载网页.在下载的文件类型方面,你可以选择要不要下载影像文件、声音文件、Java、ActiveX、Plugins等等,甚至你还可以依照副档名,来设定所要下载的档案文件。我应该为动态网页使用哪种屏幕抓取工具?
【中文标题】我应该为动态网页使用哪种屏幕抓取工具?【英文标题】:Which Screen Scraper should I use for Dynamic Webpages? 【发布时间】:2011-07-01 22:49:46 【问题描述】:我正在寻找开发一个程序,该程序从 6 个不同的网站收集数据并显示动态变化的信息。
为了开发这样的程序,我需要一个屏幕抓取工具,它能够同时从 6 个不同的网页中同时提取数据,这些网页上的数据以非常高的频率变化。
请参阅下面的链接以了解数据显示的类型和动态方式。
http://www.igmarkets.com.au/pricestream/outside/getMarketList?webSiteId=zam&businessArea=F&locale=en_ZA&firstTime=true&skin=igindex
这 6 个网页上的信息显示方式略有不同,但概念非常相似。
谁能告诉我什么是适合这种目的的正确实用软件。
非常感谢
【问题讨论】:
但是你有权限抓取那些页面,是吗? 不确定 - 如果我知道?最可能不是……这是个问题吗? @Nitzan 它很可能是。该数据是其他人的财产,通常既不能刮擦也不能复制,请参阅他们的T&C 版权即版权。除非您获得许可,或者它以某种联合格式预先打包(显然不是),否则重新分发它是不公平的。 @Daniel:你忘了从道德上讲,屏幕抓取可能是一种可疑的做法 - 但也有合法用途。例如,搜索引擎会通过抓取来获取结果。
某些网站会阻止发出过多请求的实用程序 - 如果您要发出很多请求,这是请求许可的一个很好的理由 - 因为它可能看起来像 DoS attack,并且网站可能会对您采取行动。
除此之外,如果您有合法用途来读取页面内容(以便您可以以某种方式对其进行处理),那么代码相当简单。
来自MSDN
在 C# 中:
// Initialize the WebRequest.
WebRequest myRequest = WebRequest.Create("http://www.contoso.com");
// Return the response.
WebResponse myResponse = myRequest.GetResponse();
// Code to use the WebResponse goes here.
// Close the response to free resources.
myResponse.Close();
【讨论】:
以上是关于下列哪种工具是浏览网页文档的必要工具?的主要内容,如果未能解决你的问题,请参考以下文章