网页爬虫获取课程信息
Posted AC_Arthur
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网页爬虫获取课程信息相关的知识,希望对你有一定的参考价值。
Github链接 : 点击打开链接
用Python学习制作一个简单的网页爬虫:
1. 安装pycharm
是一个非常好用的IDE~, 安装地址在:点击打开链接
2.学习一些常用的正则表达式符号和方法。
3.运用正则表达式, 观察网页源代码, 并提取想要的信息。
4.安装requests插件
本来一直顺风顺水, 但是用到这个套件时提示我python没有安装, 我费劲千辛万苦,终于在命令行里安装好了, 很简单。
先进入C:\\Python27\\Scripts, 里面有一个easy_install.exe, 我们在这里就可以用命令:pipinstall requests来安装啦。
requests提供了网络链接的相关库。
5.观察源代码和审查元素获取信息
查看源代码:ctrl + U
审查元素:shift + ctrl + I
6.利用sub函数实现翻页
7.向网页提交数据:
get从服务器上获取数据
post向服务器传递数据并获取返回值。
核心方法:requests.post
核心步骤:构造表单、提交表单、获取返回信息
8.学会如何应对反爬虫机制:
有些网站会对访问他的程序进行检查, 所以我们可以修改http头的文件, 让对方网站误以为是一个浏览器在访问他而不是一个爬虫。我们可以把User-Agent放进去:
ha = 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
html = requests.get('https://www.baidu.com/', headers = ha);
html.encoding = 'utf-8'
print html.text;
然后我们就可以写出一个简单的网络爬虫啦:
# -*-coding:utf-8-*-
import re
import requests
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
class spider(object):
def __init__(self):
print "start spider"
def changepage(self, url, total_page):
now_page = int(re.search('pageNum=(\\d+)', url, re.S).group(1))
page_group = []
for i in range(now_page, total_page+1):
link = re.sub('pageNum=\\d+', 'pageNum=%s'%i, url, re.S);
page_group.append(link);
return page_group;
def getsource(self,url):
html = requests.get(url)
return html.text;
def geteveryclass(self, source):
everyclass = re.findall('<li id="(.*?)</li>', source, re.S);
return everyclass;
def getinfo(self, eachclass):
info =
info['title'] = re.search('title="(.*?)" alt', eachclass, re.S).group(1);
info['content'] = re.search('<p style="height: 0px; opacity: 0; display: none;">(.*?)</p>', eachclass, re.S).group(1);
timeandlevel = re.findall('<em>(.*?)</em>', eachclass, re.S);
info['classtime'] = timeandlevel[0];
info['classlevel'] = timeandlevel[1];
info['learnnum'] = re.search('"learn-number">(.*?)</em>', eachclass, re.S).group(1);
return info;
def saveinfo(self, classinfo):
f = open('info.txt', 'a');
for each in classinfo:
f.writelines('title:' + each['title'] + '\\n');
f.writelines('content:' + each['content'] + '\\n');
f.write('classtime:' + each['classtime'] + '\\n');
f.writelines('classlevel:' + each['classlevel'] + '\\n');
f.writelines('learnnum:' + each['learnnum'] + '\\n');
f.writelines('************************************\\n\\n');
f.close();
if __name__ == '__main__':
classinfo = []
url = 'https://www.jikexueyuan.com/course/?pageNum=1'
jikespider = spider();
all_links = jikespider.changepage(url, 20)
# print all_links
for link in all_links:
print u'正在处理页面:' + link
html = jikespider.getsource(link);
everyclass = jikespider.geteveryclass(html);
for each in everyclass:
info = jikespider.getinfo(each);
#print each;
classinfo.append(info);
jikespider.saveinfo(classinfo);
以上是关于网页爬虫获取课程信息的主要内容,如果未能解决你的问题,请参考以下文章