今天继续昨天那个项目,主要做的是高匿代理地址自动采集程序。
以前积累了几个代理站点,记得有个站点很鬼,webclient不认,webbrowser控件也不认,好像selenium webdriver也不认,只认真实的浏览器,我也懒得去比较差别,直接用autoit写脚本。今天找了一圈,没找到这个站点。
这个程序比较简单,而且解析网页的代码以前已写好。今天只是把以前用autoit脚本实现的下载功能改用webdriver来实现。头两个直接保存PageSource就行了,第三个稍微麻烦些,是用javascript动态生成地址的,所以直接下载网页没用。懒得去研究它的javascript,干脆先SetForegroundWindow,然后SendKeys模拟Ctrl-A, Ctrl-C直接拷贝。
三个站点的采集程序做好,下一步做代理自动切换。这个以前做过,有代码,拿来整合一下即可。再下一步,修改自动下载的代码,主要是用webdriver代替webbrowser控件实现,另外考虑用webclient或httprequest代替URLDownloadToFile,主要是因为后者要用全局的代理,而且没下载成功没提示,等等缺点。
明天是没空了,有空再接着做。