linux curl 获取 Google 搜索结果
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了linux curl 获取 Google 搜索结果相关的知识,希望对你有一定的参考价值。
我用curl 获取Google搜索结果是总是显示302
The document has moved
请问该怎么办?
我的怎么就行呢。。
*****************
<?php
//phpinfo()
$url = "";
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL,$url);
curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1);
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_MAXREDIRS, 10);
$rs = curl_exec($curl);
echo "runing curl...";
var_dump($rs);
?>
*****************
<?php
$url = "";
if (!empty($url))
Header("HTTP/1.1 303 See Other"); //这条语句可以不写
Header("Location: $url");
?>
$url has content....
************显示结果*****
runing curl...string(30645) "(然后是hao123.com的内容,不过貌似没有加载到CSS。。)追问
我知道别的网页可以,我问的是抓取Google的页面
使用 curl --fail 获取页面输出
【中文标题】使用 curl --fail 获取页面输出【英文标题】:Get page output with curl --fail 【发布时间】:2014-04-25 16:58:50 【问题描述】:不带参数调用 curl,我得到页面输出,即使是 http 状态码 = 404:
$ curl http://www.google.com/linux;
<!DOCTYPE html>
<html lang=en>
<meta charset=utf-8>
<meta name=viewport content="initial-scale=1, minimum-scale=1, width=device-width">
<title>Error 404 (Not Found)!!1</title>
<style>
*margin:0;padding:0html,codefont:15px/22px arial,sans-serifhtmlbackground:#fff;color:#222;padding:15pxbodymargin:7% auto 0;max-width:390px;min-height:180px;padding:30px 0 15px* > bodybackground:url(//www.google.com/images/errors/robot.png) 100% 5px no-repeat;padding-right:205pxpmargin:11px 0 22px;overflow:hiddeninscolor:#777;text-decoration:nonea imgborder:0@media screen and (max-width:772px)bodybackground:none;margin-top:0;max-width:none;padding-right:0#logobackground:url(//www.google.com/images/errors/logo_sm_2.png) no-repeat@media only screen and (min-resolution:192dpi)#logobackground:url(//www.google.com/images/errors/logo_sm_2_hr.png) no-repeat 0% 0%/100% 100%;-moz-border-image:url(//www.google.com/images/errors/logo_sm_2_hr.png) 0@media only screen and (-webkit-min-device-pixel-ratio:2)#logobackground:url(//www.google.com/images/errors/logo_sm_2_hr.png) no-repeat;-webkit-background-size:100% 100%#logodisplay:inline-block;height:55px;width:150px
</style>
<a href=//www.google.com/><span id=logo aria-label=Google></span></a>
<p><b>404.</b> <ins>That’s an error.</ins>
<p>The requested URL <code>/linux</code> was not found on this server. <ins>That’s all we know.</ins>
$ echo $?;
0
状态码为0。
使用 --fail 调用它不会显示输出:
$ curl --fail http://www.google.com/linux;
curl: (22) The requested URL returned error: 404 Not Found
$ echo $?;
22
状态码现在是 22 ...
Id' 喜欢在 http status = 404、500 时获得输出(如第一次 curl 执行),同时获得不同的系统错误(如在第二次 curl 执行中,$? = 22) . 卷曲可以吗?如果没有,我怎么能用另一个工具来实现这一点(这个工具必须接受文件上传和发布数据!wget 似乎不是替代品......)
谢谢。
【问题讨论】:
【参考方案1】:首先,错误代码(或退出代码)的最大值是255
。这是reference。
另外,--fail
将不允许您执行您正在寻找的操作。但是,您可以使用其他方式(编写 shell 脚本)来处理该场景,但不确定它是否对您有效!
http_code=$(curl -s -o out.html -w '%http_code' http://www.google.com/linux;)
if [[ $http_code -eq 200 ]]; then
exit 0
fi
## decide which status you want to return for 404 or 500
exit 204
现在执行$?
,您将从那里获得退出代码。
您将在 out.html
文件中找到响应 html。
您还可以将 url 作为命令行参数传递给脚本。 Check here.
【讨论】:
真的很棒!谢了!【参考方案2】:不幸的是,curl 不可能。但是你可以用 wget 做到这一点。
$ wget --content-on-error -qO- http://httpbin.org/status/418
-=[ teapot ]=-
_...._
.' _ _ `.
| ."` ^ `". _,
\_;`"---"`|//
| ;/
\_ _/
`"""`
$ echo $?
8
【讨论】:
注意需要wget 1.14+【参考方案3】:我找到了解决办法,因为 wget 不适合发送 multipart/form-data
curl -o - -w "\n%http_code\n" http://httpbin.org/status/418 | tee >(tail -n 1 | cmp <(echo 2xx) - ) | tee >(grep "char 2"; echo $? > status-code) && grep 0 status-code
说明
-o - -w "\n%http_code\n"
- 输出到标准输出(实际上是通过管道传输到下一个命令),最后带有状态码tee
- 输出将通过管道传输到下一个命令并另外打印到标准输出@987654325 @ - 从最后一行提取状态码cmp <(echo 2xx) -
比较状态码,仅第一个字符grep "char 2"
- 如果第一个字符需要为 2,否则失败
在shell脚本中你也可以做更好的比较(目前它只允许2xx,所以像300这样的重定向被处理为错误cmp
上面是如何使用的)
【讨论】:
当有 200 响应时它不是假设不会失败吗?导致调用 httpbin.org/status/200 时之前的评论确实失败 你到底是什么意思?我打印的 curl 命令没有失败 200 它在我的机器上确实失败了。 ? @SeB.Fr 是对的。它在 2xx 状态范围内以非零代码退出。至少在 macos 上。 需要将grep "char 2"
更改为 grep "byte 2"
。现在可以使用了。【参考方案4】:
感谢@timaschew,这是我基于纯 awk 的增强版:
curl_fail_with_body()
curl -o - -w "\n%http_code\n" "$@" | awk 'l[NR] = $0 END for (i=1; i<=NR-1; i++) print l[i]; END if ($0<200||$0>299) exit $0 '
# example usage
curl_fail_with_body -sS http://httpbin.org/status/418
说明
-o - -w "\n%http_code\n"
- 打印到标准输出(实际上是通过管道传送到下一个命令),最后带有状态码
l[NR] = $0 END for (i=1; i<=NR-1; i++) print l[i]
- 打印除最后一行之外的所有行
END if ($0<200||$0>299) exit $0
- 如果last line != 2xx
将以非零代码退出
替代版本,如果要在命令后输出错误码:END if ($0<200||$0>299) print "The requested URL returned error: " $0; exit 1
顺便说一句,curl 从 v7.76.0 开始支持 --fail-with-body
选项。
此选项允许您在不使用外部工具的情况下实现所需的行为。
【讨论】:
很好的解决方案,谢谢。 Nit:退出代码范围是 0-255,因此任何 HTTP 状态代码 > 255 都不会作为退出代码出现。我把它改成了exit 1
vs. exit $0
。【参考方案5】:
现在可以使用 curl。从 7.76.0 版开始,您可以这样做
curl --fail-with-body ...
这完全符合 OP 的要求:显示文档正文并以代码 22 退出。
见https://curl.se/docs/manpage.html#--fail-with-body
【讨论】:
【参考方案6】:这是我的解决方案 - 它使用 jq
并假设正文是 json
# this code adds a statusCode field to the json it receives and then jq squeezes them together
# curl 7.76.0 will have curl --fail-with-body and thus eliminate all this
local result
result=$(
curl -sL -w ' "statusCode": %http_code ' -X POST "$headers[@]" "$endpoint" \
-d "$body" "$curl_opts" | jq -ren '[inputs] | add'
)
# always output the result
echo "$result"
# jq -e will produce an error code if the expression result is false or null - thus resulting in a
# error return code from this function naturally. This is much preferred rather than assume/hardcode
# the existence of a error object in the body payload
echo "$result" | jq -re '.statusCode >= 200 and .statusCode < 300' > /dev/null
【讨论】:
以上是关于linux curl 获取 Google 搜索结果的主要内容,如果未能解决你的问题,请参考以下文章