使用 selenium 在 LinkedIn 上抓取个人资料网址
Posted
技术标签:
【中文标题】使用 selenium 在 LinkedIn 上抓取个人资料网址【英文标题】:Scraping profile urls on LinkedIn using selenium 【发布时间】:2020-08-28 20:38:34 【问题描述】:我有一个包含候选人姓名的 CSV 文件,我想提取他们的 LinkedIn 个人资料 URL。我已经使用 selenium 自动登录并从 CSV 获取名称输入并单击搜索按钮,但无法访问页面上的个人资料 URL。例如:我想在以下 Linkedin 页面上抓取个人资料 URL,但是当我查询以下内容时它没有返回任何内容:
链接:https://www.linkedin.com/search/results/all/?keywords=April%20Siose&origin=GLOBAL_SEARCH_HEADER
driver.find_element_by_class_name("search-result__result-link ember-view").get_attribute("href")
【问题讨论】:
【参考方案1】:linkedin_urls = [url.get_attribute("href") for url in linkedin_urls]
这是 selenium 中用于提取 LinkedIn 个人资料 URL 的命令。
【讨论】:
【参考方案2】:该网站似乎要求您在显示所需页面之前登录。 driver
库可能具有身份验证功能或类似于自动登录的功能
【讨论】:
所以,我使用 selenium 自动化了登录部分,但在这个阶段遇到了问题。 我发现了一个有用的post 它应该仍然可以工作。如果没有,LinkedIn 可能再次更改了结构,您可能需要修改参数 我用一个新链接编辑了我的评论,因为上面的帖子现在已经过时了。道歉 你能建议一种不使用请求的方法吗?它会增加我想避免的超时并发症。以上是关于使用 selenium 在 LinkedIn 上抓取个人资料网址的主要内容,如果未能解决你的问题,请参考以下文章