PHP通过伪造和模拟客户端COOKIE登陆来采集抓取远程网址

Posted 艾瑞巴蒂

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PHP通过伪造和模拟客户端COOKIE登陆来采集抓取远程网址相关的知识,希望对你有一定的参考价值。

  平时开发中经常会遇到抓取某个页面内容,但是有时候某些页面需要登陆才能访问,最常见的就是论坛,这时候我们需要来使用curl模拟登陆。
  以下讨论的是和伪造模拟客户端COOKIE登陆采集抓取远程网址相关的php通过伪造和模拟客户端COOKIE登陆来采集抓取远程网址页面内容的方法教程文章,内容是本站精心挑选整理的教程,希望对广大的网友给到帮助,下面是详细内容:
  php模拟登陆
  平时开发中经常会遇到抓取某个页面内容,但是有时候某些页面需要登陆才能访问,最常见的就是论坛,这时候我们需要来使用curl模拟登陆。大致思路:需要先请求提取cookies并保存,然后利用保存下来的这个cookies再次发送请求来获取页面内容,下面我们直接上代码
  <?php
  /**
  * Brief PHP读取Curl模拟登陆,获取cookie,带cookie进行请求
  * Date:2016/10/20
  * Time:9:41
  */
  //设置cookie保存位置
  $cookieFile=dirname(__FILE__).‘cookie.curl.tmp‘;
  //第一步:获取cookie
  $url=‘https://www.hfxskyyj.com/;
  $data=array(
  ‘username‘=>‘aseoe‘,
  ‘password‘=>‘aseoe‘,
  );
  //curl初始化
  $ch=curl_init();
  curl_setopt($ch,CURLOPT_URL,$url);
  //设置为post请求
  curl_setopt($ch,CURLOPT_POST,true);
  //设置附带返回header信息为空
  curl_setopt($ch,CURLOPT_HEADER,0);
  //post数据
  curl_setopt($ch,CURLOPT_POSTFIELDS,$data);
  //cookie保存文件位置
  curl_setopt($ch,CURLOPT_COOKIEJAR,$cookieFile);
  //设置数据返回作为变量储存,而不是直接输出
  curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
  //执行请求
  $ret=curl_exec($ch);
  //关闭连接
  curl_close($ch);
  //第二步:附带cookie请求需要登陆的页面
  $url=‘https://www.hfxskyyj.com/‘;
  //curl初始化
  $ch=curl_init();
  curl_setopt($ch,CURLOPT_URL,$url);
  //设置为post请求
  curl_setopt($ch,CURLOPT_POST,true);
  //设置附带返回header信息为空
  curl_setopt($ch,CURLOPT_HEADER,0);
  //设置cookie信息文件位置,注意与第二步中的获取不同,这里是读取
  curl_setopt($ch,CURLOPT_COOKIEFILE,$cookieFile);
  //设置数据返回作为变量储存,而不是直接输出
  curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
  //执行请求
  $ret=curl_exec($ch);
  //关闭连接
  curl_close($ch);
  //打印抓取内容
  var_dump($ret);
  这样我们就抓取到了需要登陆才能访问页面的内容,注意上面的地址只是一个示例,需要换成你想要抓取页面的地址。
  平时开发中经常会遇到抓取某个页面内容,但是有时候某些页面需要登陆才能访问,最常见的就是论坛,这时候我们需要来使用curl模拟登陆。大致思路:需要先请求提取cookies并保存,然后利用保存下来

以上是关于PHP通过伪造和模拟客户端COOKIE登陆来采集抓取远程网址的主要内容,如果未能解决你的问题,请参考以下文章

php 模拟登陆(不带验证码)采集数据

22.天眼查cookie模拟登陆采集数据

怎样用php中的curl模拟登陆

JAVA--利用HttpClient模拟浏览器登陆请求获取响应的Cookie

模拟登录cookie操作

Python爬虫实例网站模拟登陆