使用python beautiful soup或html模块的电子邮件刮刀

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用python beautiful soup或html模块的电子邮件刮刀相关的知识,希望对你有一定的参考价值。

目前,我正试图从她发给我的列表中收集我的房地产经纪人的数据。它总是来自主网站“http://v3.torontomls.net”的链接我认为只有房地产经纪人可以进入这个网站并过滤房屋,但当她发送给我时,我可以看到房屋清单。

我想知道是否有可能创建一个python脚本:)

1)在她的电子邮件中打开Gmail 2)过滤器3)打开她的一封电子邮件4)点击链接5)将房屋数据剪裁成CSV格式

我不确定这个的可行性,我从来没有使用过python来抓取网页。我可以看到第5步是可行的,但我该如何进行第1步到第4步?

答案

是的,这是可能的,但您需要事先收集一些需求,以确定可以消除哪些过程部分。例如,如果您的房地产经纪人每次都向您发送相同的链接,您可以直接定位该网址。例如,如果链接发生变化但按月参数化,则只需在每个月处理结果时调整网址即可。

为了提出请求,我建议使用requests包和bs4(BeautifulSoup 4)来定位元素。要创建CSV文件,您可以选择使用csv,但如果您需要更具体的用例,还有很多选择。

以上是关于使用python beautiful soup或html模块的电子邮件刮刀的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫利器:Beautiful Soup

Python 爬虫 解析库的使用 --- Beautiful Soup

python Beautiful Soup的使用

python之Beautiful Soup的基本用法

Python爬虫之Beautiful Soup

Beautiful Soup 的使用