模拟登陆+数据爬取 (python+selenuim)

Posted 每天学习一点点

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了模拟登陆+数据爬取 (python+selenuim)相关的知识,希望对你有一定的参考价值。

以下代码是用来爬取LinkedIn网站一些学者的经历的,仅供参考,注意:不要一次性大量爬取会被封号,不要问我为什么知道

#-*- coding:utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
from bs4 import BeautifulSoup

diver=webdriver.Chrome()
diver.get(https://www.linkedin.com/)
#等待网站加载完成
time.sleep(1)
#模拟登陆
diver.find_element_by_id(login-email).send_keys(用户名)
diver.find_element_by_id(login-password).send_keys(密码)
# 点击跳转
diver.find_element_by_id(login-submit).send_keys(Keys.ENTER)
time.sleep(1)
#查询
 diver.find_element_by_tag_name(input).send_keys(学者名)
diver.find_element_by_tag_name(input).send_keys(Keys.ENTER)
time.sleep(1)
#获取当前页面所有可能的人
soup=BeautifulSoup(diver.page_source,lxml)
items=soup.findAll(div,{class:search-result__wrapper})
n=0
for i in items:
n+=1
title=i.find(div,{class:search-result__image-wrapper}).find(a)[href]
diver.get(https://www.linkedin.com+title)
time.sleep(3)
Soup=BeautifulSoup(diver.page_source,lxml)
# print Soup
Items=Soup.findAll(li,{class:pv-profile-section__card-item pv-position-entity ember-view})
print str(n)+:
for i in Items:
    print i.find(div,{class:pv-entity__summary-info}).get_text().replace(\n,‘‘)
diver.close()

 

以上是关于模拟登陆+数据爬取 (python+selenuim)的主要内容,如果未能解决你的问题,请参考以下文章

python requests模拟登陆正方教务管理系统,并爬取成绩

python爬取百度搜索页面,得到内容不全,求教,why

python3下scrapy爬虫(第五卷:利用cookie模拟登陆抓取个人中心页面)

怎样用Python设计一个爬虫模拟登陆知乎

怎样用Python设计一个爬虫模拟登陆知乎

python模拟登陆实践