使用 selenium 在 LinkedIn 上抓取个人资料网址

Posted

技术标签:

【中文标题】使用 selenium 在 LinkedIn 上抓取个人资料网址【英文标题】:Scraping profile urls on LinkedIn using selenium 【发布时间】:2020-08-28 20:38:34 【问题描述】:

我有一个包含候选人姓名的 CSV 文件,我想提取他们的 LinkedIn 个人资料 URL。我已经使用 selenium 自动登录并从 CSV 获取名称输入并单击搜索按钮,但无法访问页面上的个人资料 URL。例如:我想在以下 Linkedin 页面上抓取个人资料 URL,但是当我查询以下内容时它没有返回任何内容:

链接:https://www.linkedin.com/search/results/all/?keywords=April%20Siose&origin=GLOBAL_SEARCH_HEADER

driver.find_element_by_class_name("search-result__result-link ember-view").get_attribute("href")

【问题讨论】:

【参考方案1】:
linkedin_urls = [url.get_attribute("href") for url in linkedin_urls]

这是 selenium 中用于提取 LinkedIn 个人资料 URL 的命令。

【讨论】:

【参考方案2】:

该网站似乎要求您在显示所需页面之前登录。 driver 库可能具有身份验证功能或类似于自动登录的功能

【讨论】:

所以,我使用 selenium 自动化了登录部分,但在这个阶段遇到了问题。 我发现了一个有用的post 它应该仍然可以工作。如果没有,LinkedIn 可能再次更改了结构,您可能需要修改参数 我用一个新链接编辑了我的评论,因为上面的帖子现在已经过时了。道歉 你能建议一种不使用请求的方法吗?它会增加我想避免的超时并发症。

以上是关于使用 selenium 在 LinkedIn 上抓取个人资料网址的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 python selenium 点击链接?

怎么在Linux上抓包分析

Selenium Python:如何在弹出窗口中向下滚动

线上抓娃娃方案的选型方法

线上抓娃娃机日进斗金,你确定它真的是个风口吗?

【解决方案】Fiddler在电脑上抓浏览器https包全部显示tunnel to 443