利用 selenium 爬取糗事百科
Posted lmt921108
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了利用 selenium 爬取糗事百科相关的知识,希望对你有一定的参考价值。
需要:
最近看到了selenium介绍,说是可以模拟人类自动打开网页
很有兴趣,于是学习了下,
果然:兴趣是最好的老师。
说明:
选取糗事百科,因为没有设置爬虫robots,所以用来练手,
请不要恶意爬取。
代码如下:
#!/usr/bin/env python #-*- coding:utf-8 -*- import time from selenium import webdriver from pymongo import MongoClient """ 1. 获取一个标签就是:element 2. 获取多个标签就是:elements """ """ 获取标签文本:text 获取href属性值:get_attribute("href") """ def get_db(): client = MongoClient(host="localhost", port=27017) db = client.spider collection = db.qiushibaike_selenium return collection def get_text(): content_list = driver.find_elements_by_class_name("main-list") # print(content_list) collection = get_db() for item in content_list: tm = item.find_element_by_class_name("fr").text title = item.find_element_by_class_name("title").text link = item.find_element_by_class_name("title").find_element_by_tag_name("a").get_attribute("href") text = item.find_element_by_class_name("content").text url = driver.current_url out_dict = { "发表时间": tm, "文章标题": title, "文章完整连接": link, "文章内容": text, "url": url } print("