求一个PHP写的爬虫,能绕过的。
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了求一个PHP写的爬虫,能绕过的。相关的知识,希望对你有一定的参考价值。
爬取花瓣网的图片并保存到本地,求源代码。
根据题主的需求,手敲两个小时代码,拿走不谢from selenium import webdriver
import time
import os
import requests
class Huaban():
def get_picture_url(self, content):
global path
path = "E:\spider\pictures\huaban" + '\\' + content
if not os.path.exists(path):
os.makedirs(path)
url = "http://huaban.com"
driver.maximize_window()
driver.get(url)
time.sleep(8)
try:
driver.find_elements_by_xpath('//input[@name="email"]')[0].send_keys('花瓣账号')
print('user success!')
except:
print('user error!')
time.sleep(3)
try:
driver.find_elements_by_xpath('//input[@name="password"]')[0].send_keys('账号密码')
print('pw success!')
except:
print('pw error!')
time.sleep(3) 参考技术A 用正则表达式,你试试
好多采集软件也能支持这个新闻采集啊,比如说八爪鱼采集器,把你要抓取的新闻页面URL输入进去,就可以实现自动抓取,还能设置定时抓取,你可以去试试看追问
要源代码,交作业啊。
本回答被提问者采纳求一个简易的php爬虫提取网页的title
我想做一个php页面提取已知url的网页title(就是<title></title>之间的中文)怎么写呢?谢谢
header("Content-Type: text/html; charset=gbk");$url = "http://www.baidu.com/";
$fcontents = file_get_contents($url);
if (ereg("<title>(.*)</title>", $fcontents, $regs))echo "ok";elseecho "error";
echo "<br>";
print_r($regs); 参考技术A 你是抓取整个网页,还是要抓取网页中的某些数据,如果是后者则要根据每个网站的机构来抓取,每个网站的机构都尽不同,抓取程序需要针对每个网页设置特定的配置文件;如果是前者,则先需要有域名库,依次从域名库中读取每个域名,然后抓取页面即可
以上是关于求一个PHP写的爬虫,能绕过的。的主要内容,如果未能解决你的问题,请参考以下文章