2.5 翻页选择器Element click selector --webscraper操作手册

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2.5 翻页选择器Element click selector --webscraper操作手册相关的知识,希望对你有一定的参考价值。

参考技术A

我们抓取数据时,有时候碰到翻页的情况,插件对于翻页处理有2种方式

翻页时会碰到url规律变化的情况
比如企查查中搜索框带科技的企业,抓取10页的企业名录
企查查科技企业
第1页: https://www.qichacha.com/search?key= 科技#p:1&
第2页: https://www.qichacha.com/search?key= 科技#p:2&
第3页: https://www.qichacha.com/search?key= 科技#p:3&
第N页: https://www.qichacha.com/search?key= 科技#p:n&
所以我们在创建sitemap url的时候在变量这里 我们写 [1-N] 10页就是 [1-10]

如何进行翻页多字段抓取?

一些网站翻页时url不会变,或者存在一些点击加载更多的情况
例如 taptap手游排行榜
抓取该排行榜的游戏和名次

父级Element click selector 是无法抓取到真实数据的,一定要 text selector或者 link selector 才能抓取到真实数据

遇到分页需求分析链接地址
链接地址变化,创建sitemap时更换sitemap多页面链接一般表现形式为[1-n]
链接地址不变,使用Element click selector选择器 进行翻页数据获取

问题?
一些下滑到页面底部才加载内容的网站怎么爬取?

each的用法

$(selector).each(function(index,element))

function(index,element)

必需。为每个匹配元素规定运行的函数。

  • index - 选择器的 index 位置
  • element - 当前的元素(也可使用 "this" 选择器)

each() 方法规定为每个匹配元素规定运行的函数。如何理解?先看一段带代码

$(function(){
	$(‘.btn1‘).click(function(){
		alert($(‘li‘).text());
	});
	$(‘.btn2‘).click(function(){
		$(‘ul li‘).each(function(){
			alert($(this).text());	
		});
	});
});

html:

	<input type="button" class="btn1" value="按钮1" />
	<input type="button" class="btn2" value="按钮2" />
	<ul>
		<li>1</li>
		<li>2</li>
		<li>3</li>
		<li>4</li>
	</ul>

效果:

技术分享

以上是关于2.5 翻页选择器Element click selector --webscraper操作手册的主要内容,如果未能解决你的问题,请参考以下文章

Javascript选择器控制台日志

selenium模块

随机选择器

each的用法

element-ui 组件的 table 复选框,翻页记忆功能

element的table组件序号翻页累计