2.5 翻页选择器Element click selector --webscraper操作手册
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2.5 翻页选择器Element click selector --webscraper操作手册相关的知识,希望对你有一定的参考价值。
参考技术A我们抓取数据时,有时候碰到翻页的情况,插件对于翻页处理有2种方式
翻页时会碰到url规律变化的情况
比如企查查中搜索框带科技的企业,抓取10页的企业名录
企查查科技企业
第1页: https://www.qichacha.com/search?key= 科技#p:1&
第2页: https://www.qichacha.com/search?key= 科技#p:2&
第3页: https://www.qichacha.com/search?key= 科技#p:3&
第N页: https://www.qichacha.com/search?key= 科技#p:n&
所以我们在创建sitemap url的时候在变量这里 我们写 [1-N] 10页就是 [1-10]
如何进行翻页多字段抓取?
一些网站翻页时url不会变,或者存在一些点击加载更多的情况
例如 taptap手游排行榜
抓取该排行榜的游戏和名次
父级Element click selector 是无法抓取到真实数据的,一定要 text selector或者 link selector 才能抓取到真实数据
遇到分页需求分析链接地址
链接地址变化,创建sitemap时更换sitemap多页面链接一般表现形式为[1-n]
链接地址不变,使用Element click selector选择器 进行翻页数据获取
问题?
一些下滑到页面底部才加载内容的网站怎么爬取?
each的用法
$(selector).each(function(index,element))
function(index,element)
必需。为每个匹配元素规定运行的函数。
- index - 选择器的 index 位置
- element - 当前的元素(也可使用 "this" 选择器)
each() 方法规定为每个匹配元素规定运行的函数。如何理解?先看一段带代码
$(function(){ $(‘.btn1‘).click(function(){ alert($(‘li‘).text()); }); $(‘.btn2‘).click(function(){ $(‘ul li‘).each(function(){ alert($(this).text()); }); }); });
html:
<input type="button" class="btn1" value="按钮1" /> <input type="button" class="btn2" value="按钮2" /> <ul> <li>1</li> <li>2</li> <li>3</li> <li>4</li> </ul>
效果:
以上是关于2.5 翻页选择器Element click selector --webscraper操作手册的主要内容,如果未能解决你的问题,请参考以下文章