querylist爬取页面内容rules记录

Posted bneglect

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了querylist爬取页面内容rules记录相关的知识,希望对你有一定的参考价值。

  1. querylist真的挺好用的!!!感谢!!!参考链接:https://learnku.com/laravel/t/6262/querylist-4-concise-and-elegant-php-collection-tool (querylist文档打不开,不知道什么原因,ping不通域名了都,是不是服务器欠费了-_^)
  2. 记录几个rules,仅方便自己查看
    $rules = [
        ‘p1‘ => [‘#side > div.content.clearfix > div.content_left > div.centent_centent > p:nth-child(1)‘, ‘text‘],  //文本,比如图片就会被过滤掉
        ‘content‘ => [‘#side > div.content.clearfix > div.content_left > div.centent_centent‘, html],  //HTML 包含标签等,图片会爬下来,类似富文本
        ‘img‘ => [‘#side > div.content.clearfix > div.content_left > div.centent_centent > p:nth-child(4) > img‘, ‘src‘],  //图片的链接
         ‘alt‘ => [‘#side > div.content.clearfix > div.content_left > div.centent_centent > p:nth-child(4) > img‘, ‘alt‘],  //img 的 alt
    ‘a‘ => [‘h3>a‘, ‘href‘]; //a 标签的href 链接
    ];

     

以上是关于querylist爬取页面内容rules记录的主要内容,如果未能解决你的问题,请参考以下文章

php 爬取网页列表 QueryList

PHP获取HTML内容及动态渲染js加载内容

QueryList 来做采集

queryList 一次抓取多个网页内容的方法--目前只有用循环 替换页码或者给出url循环进行 queryList没有像python一样的yied迭代方法 queryList 实现多个实例抓取

php使用QueryList轻松采集js动态渲染页面方法

php 爬取数据