求一个PHP写的爬虫,能绕过的。

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了求一个PHP写的爬虫,能绕过的。相关的知识,希望对你有一定的参考价值。

爬取花瓣网的图片并保存到本地,求源代码。

根据题主的需求,手敲两个小时代码,拿走不谢
from selenium import webdriver
import time
import os
import requests
 
 
class Huaban():
 
    def get_picture_url(self, content):
        global path
        path = "E:\spider\pictures\huaban" + '\\' + content
    
        if not os.path.exists(path):
            os.makedirs(path)
        url = "http://huaban.com"
       
        driver.maximize_window()
        driver.get(url)
        time.sleep(8)
 
       
        try:
            driver.find_elements_by_xpath('//input[@name="email"]')[0].send_keys('花瓣账号')
            print('user success!')
        except:
            print('user error!')
        time.sleep(3)
        try:
            driver.find_elements_by_xpath('//input[@name="password"]')[0].send_keys('账号密码')
            print('pw success!')
        except:
            print('pw error!')
        time.sleep(3)
参考技术A 用正则表达式,你试试
好多采集软件也能支持这个新闻采集啊,比如说八爪鱼采集器,把你要抓取的新闻页面URL输入进去,就可以实现自动抓取,还能设置定时抓取,你可以去试试看追问

要源代码,交作业啊。

本回答被提问者采纳

求一个简易的php爬虫提取网页的title

我想做一个php页面提取已知url的网页title(就是<title></title>之间的中文)怎么写呢?谢谢

header("Content-Type: text/html; charset=gbk");
$url = "http://www.baidu.com/";
$fcontents = file_get_contents($url);
if (ereg("<title>(.*)</title>", $fcontents, $regs))echo "ok";elseecho "error";
echo "<br>";
print_r($regs);
参考技术A 你是抓取整个网页,还是要抓取网页中的某些数据,如果是后者则要根据每个网站的机构来抓取,每个网站的机构都尽不同,抓取程序需要针对每个网页设置特定的配置文件;如果是前者,则先需要有域名库,依次从域名库中读取每个域名,然后抓取页面即可

以上是关于求一个PHP写的爬虫,能绕过的。的主要内容,如果未能解决你的问题,请参考以下文章

如何绕过安全狗?

Java爬虫--Https绕过证书

CSS位置偏移反爬虫绕过

CSS位置偏移反爬虫绕过

Python冒充其他浏览器抓取猫眼电影数据(绕过反爬虫)

绕过PHP代码执行中的过滤限制详解