使用PHP CURL函数采集gzip编码网页报错

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用PHP CURL函数采集gzip编码网页报错相关的知识,希望对你有一定的参考价值。

在做采集功能,使用php CURL函数,因为目标页面采用了gzip编码,只能使用如下代码:

01 function curl_get_contents($url,$t_url,$compression)
02
03 $ch = curl_init($url);
04 $t_url = $t_url ? $t_url : "http://".$_SERVER['HTTP_HOST'].$_SERVER['REQUEST_URI'];
05 curl_setopt($ch, CURLOPT_REFERER, $t_url);
06 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
07 if($compression!='')
08 curl_setopt($ch, CURLOPT_ENCODING, $compression);
09
10
11 $str = curl_exec($ch);
12 echo curl_error($ch);//打印错误
13 curl_close($ch);
14
15 return $str;
16

采集网站地址时会报如下错误:

Error while processing content unencoding. invalid stored block lengths

备注,访问网站首页时候正常访问,列表页和内容页报此段代码,查了半天无果。
各位大佬是否遇到过这样的问题,应该怎么解决?麻烦给小弟支招。

参考技术A 试用这个。
$url 是 zip file path. $url = "http://www.xxx.com/...../abc.zip";

function gzip_get_contents($url)

$ch=curl_init($url);
curl_setopt($ch, CURLOPT_ENCODING. 'gzip');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$content=curl_exec($ch);
curl_close($ch);
return $content;

使用Snoopy进行模拟登陆采集

  Snoopy是一个使用PHP写的采集类,使用了一下发现功能比较强大,几乎可以模拟浏览器的所有行为,可以实现的功能有:

比起使用curl,fsockopen等函数来说方便很多,下面总结一下这个类一些属性与方法的作用。

方法:

    fetch($url) 该方法用于抓取网页内容,类似于file_get_contents
    submit($posturl,$params,$files) 该方法提交表单数据,第二个参数是一个一维数组,例如array(‘user‘=>‘zhangsan‘,‘pwd‘=>‘lisi‘),第 三个参数是可选参数,上传文件时用到,例如array(‘myfile‘ => ‘./images/test.jpg‘)
    fetchlinks($url) 该方法用于获取网页所有链接
    fetchform($url) 该方法用于获取网页上的form表单内容
    fetchtext($url) 该方法用户获取不带标签的网页内容
    submitlinks($posturl,$params) 该方法提交表单数据参数与submit方法相同,不同点是获取到的结果数据是链接
    submittext($posturl,$params) 该方法提交表单数据参数与submit方法相同,不同点是获取到的结果数据是文本数据
    set_submit_multipart() 该方法没有参数,文件上传时有效类似于设置表单中的enctype="multipart/form-data"
    set_submit_normal() 该方法没有参数,相当于设置一个普通表单,不可用户文件
    setcookies() 该方法没有参数,保存响应cookie信息 用于下一次请求

常用属性:

    $obj->agent = ‘Mozilla/5.0 (Windows; U; Windows NT 6.1; zh-CN; rv:1.9.2.25) Gecko/20111212 Firefox/3.6.25‘;//伪装浏览器
    $obj->rawheaders[‘Cookie‘] = ‘username=zhangsan;password=123456‘;//伪装cookie不能与$obj->cookies同时使用
    $obj->rawheaders[‘X_FORWARDED_FOR‘] = ‘115.47.134.108‘; //伪造IP
    $obj->referer = ‘http://www.com133.com/‘; //伪造来源地址
    $obj->cookies[‘test‘] = ‘zhangsan‘; //伪装cookie 不能与$obj->rawheaders[‘Cookie‘]同时使用
    $obj->results 获取采集结果

    下面给出示例代码供参考

  1. <?php
  2. include ‘./Snoopy.class.php‘;
  3. $obj = new Snoopy();
  4. $obj->agent ‘Mozilla/5.0 (Windows; U; Windows NT 6.1; zh-CN; rv:1.9.2.25) Gecko/20111212 Firefox/3.6.25‘;//伪装浏览器
  5. $obj->rawheaders[‘Cookie‘] = ‘username=zhangsan;password=123456‘;//伪装cookie不能与$obj->cookies同时使用
  6. $obj->referer ‘http://www.com133.com/‘//伪造来源地址
  7. //$obj->cookies[‘test‘] = ‘zhangsan‘; //伪装cookie 不能与$obj->rawheaders[‘Cookie‘]同时使用
  8. //POST 数据
  9. $params[‘username‘] = ‘zhangsan‘;
  10. $params[‘password‘] = ‘123456‘;
  11. //上传文件
  12. $obj->set_submit_multipart();
  13. $files = array(‘f‘ => ‘./test.php‘);
  14. $posturl ‘http://www.lmblog.com/snoopy/test.php‘;
  15. //$obj->fetch($posturl);//抓取网页内容 get方式
  16. //模拟表单提交
  17. $obj->submit($posturl,$params,$files);//第三个参数是可选参数,如果不上传文件无需该参数
  18. //$obj->submitlinks($posturl,$params);//获取提交或的链接
  19. $obj->setcookies();//保存响应cookie信息 用于下一次请求
  20. print_r($obj->results);//获取结果
  21. ?>

以上是关于使用PHP CURL函数采集gzip编码网页报错的主要内容,如果未能解决你的问题,请参考以下文章

php curl采集,服务器gzip压缩返回数据怎么办

php curl采集,服务器gzip压缩返回数据怎么办

php curl采集,服务器gzip压缩返回数据怎么办

php curl采集,服务器gzip压缩返回数据怎么办

php curl简单采集图片生成base64编码(并附curl函数参数说明)

php中curl爬虫 怎么样通过网页获取所有链接