Python+Selenium之摘取网页上全部邮箱

Posted 木棉花的漂泊

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python+Selenium之摘取网页上全部邮箱相关的知识,希望对你有一定的参考价值。

本文转载:http://blog.csdn.net/u011541946/article/details/68485981

练习场景:在某一个网页上有些字段是我们感兴趣的,我们希望摘取出来,进行其他操作。但是这些字段可能在一个网页的不同地方。例如,我们需要在关于百度页面-联系我们,摘取全部的邮箱。

 

思路拆分:

1. 首先,需要得到当前页面的source内容,就像,打开一个页面,右键-查看页面源代码。

2. 找出规律,通过正则表达式去摘取匹配的字段,存储到一个字典或者列表。

3. 循环打印字典或列表中内容,Python中用 for 语句实现。

 

技术角度实现相关方法:

1. 查看页面的源代码,在Selenium中有driver.page_source 这个方法得到

2. Python中利用正则,需要导入re模块

3. for email in emails :

          print email

 1 # coding=utf-8  
 2   
 3 from selenium import webdriver  
 4 import re  
 5   
 6 driver = webdriver.Chrome()  
 7 driver.maximize_window()  
 8 driver.implicitly_wait(6)  
 9   
10 driver.get("http://home.baidu.com/contact.html")  
11 # 得到页面源代码  
12 doc = driver.page_source  
13 emails = re.findall(r\'[\\w]+@[\\w\\.-]+\',doc) # 利用正则,找出 xxx@xxx.xxx 的字段,保存到emails列表  
14 # 循环打印匹配的邮箱  
15 for email in emails:  
16     print (email)  

解释:

在python正则表达式语法中,Python中字符串前面加上 r 表示原生字符串,用\\w表示匹配字母数字及下划线。re模块下findall方法返回的是一个匹配子字符串的列表。

 

以上是关于Python+Selenium之摘取网页上全部邮箱的主要内容,如果未能解决你的问题,请参考以下文章

从一个网页上摘取想要的元素

selenium+Python unittest之发送邮箱时报错:smtplib.SMTPDataErrorsmtplib.SMTPAuthenticationError(例:126邮箱)(示(代码

Selenium+Python之163邮件发送

python+selenium实现163邮箱自动登陆

selenium2+python3登录163邮箱

python+selenium Web自动化之获取网页元素的基本方法