如何从“每一页”中获取“页面链接”?

Posted

技术标签:

【中文标题】如何从“每一页”中获取“页面链接”?【英文标题】:How can I get 'page links' from 'every page'? 【发布时间】:2020-03-14 00:06:17 【问题描述】:

我想通过 python3 从“每一页”中获取“每一页链接”。

在我的代码中,“每一页”的位置位于 BaseUrl 中。而且,在我的代码中,每个页面的链接都位于正文中。

在哪里,

BaseUrl = 'https://www.jobplanet.co.kr/companies?sort_by=review_compensation_cache&industry_id=700&page='

select body = #listCompanies > div > div.section_group > section:nth-child(1) > div > div > dl.content_col2_3.cominfo > dt > a'

请检查我的代码。我想从每个页面收集每个链接,以便将链接列表作为 linkUrl。有什么问题吗?

from bs4 import BeautifulSoup
import csv
import os
import re
import requests
import json

# jobplanet
BaseUrl = 'https://www.jobplanet.co.kr/companies?sort_by=review_compensation_cache&industry_id=700&page='


for i in range(1, 5, 1):
        url = BaseUrl + str(i)
        r = requests.get(url)
        soup = BeautifulSoup(r.text,'lxml')
        body = soup.select('#listCompanies > div > div.section_group > section:nth-child(1) > div > div > dl.content_col2_3.cominfo > dt > a')
        #print(body)

        linkUrl = []
        for item in body:
            link = item.get('href')
            linkUrl.append(link)
print(linkUrl)

【问题讨论】:

【参考方案1】:

您选择的 CSS 选择器只返回一条记录。我提供了更简单的 CSS 选择器来返回每页所有 10 条记录。

你需要在循环外定义列表。

from bs4 import BeautifulSoup
import requests

linkUrl = []
BaseUrl = 'https://www.jobplanet.co.kr/companies?sort_by=review_compensation_cache&industry_id=700&page='
for i in range(1, 6):
    url = BaseUrl.format(i)
    r = requests.get(url)
    soup = BeautifulSoup(r.text,'lxml')
    links=soup.select(".us_titb_l3 >a")
    for item in links:
        link = item.get('href')
        linkUrl.append(link)

print(linkUrl)

【讨论】:

【参考方案2】:

您的 Css 选择器错误还添加了分页

from bs4 import BeautifulSoup
import csv
import os
import re
import requests
import json
from urllib import parse

# jobplanet
BaseUrl = 'https://www.jobplanet.co.kr/companies?sort_by=review_compensation_cache&industry_id=700&page='
source  =  requests.get(BaseUrl.format(1))
soup = BeautifulSoup(source.text,'lxml')
last_page_index = soup.select('a[class="btn_pglast"]') # getting the last page index 
last_page_index = int(last_page_index[0].get('href').split('page=')[1]) if last_page_index else 1
for i in range(1, last_page_index):
    print('## Getting Page  out of '.format(i,last_page_index))
    if i > 1: # to avoid getting the same page again
        url = BaseUrl.format(i)
        r = requests.get(url)
        soup = BeautifulSoup(r.text,'lxml')
    body = soup.select('dt[class="us_titb_l3"] a')
    linkUrl = []
    for item in body:
        link = item.get('href')
        link = parse.urljoin(BaseUrl, link)
        linkUrl.append(link)
print(linkUrl)

【讨论】:

以上是关于如何从“每一页”中获取“页面链接”?的主要内容,如果未能解决你的问题,请参考以下文章

jquery jqprint 打印 每页控制打印内容,每一页都带有表头,怎么搞啊

使用 CSS 在 PDF 的每一页中添加页脚文本

WPS文字如何将图片设为背景,并应用到后面的每一页。

如何获取 WordPress 各类页面的链接

php 从页面选择器属性获取页面链接

前端如何让网页打印时每一页都有固定的头部,且在达到固定高度时自动分页