url 不存在时的 file_get_contents

Posted

技术标签:

【中文标题】url 不存在时的 file_get_contents【英文标题】:file_get_contents when url doesn't exist 【发布时间】:2011-05-20 11:27:51 【问题描述】:

我正在使用 file_get_contents() 来访问 URL。

file_get_contents('http://somenotrealurl.com/notrealpage');

如果 URL 不是真实的,则返回此错误消息。我怎样才能让它优雅地出错,以便我知道该页面不存在并采取相应的行动而不显示此错误消息?

file_get_contents('http://somenotrealurl.com/notrealpage') 
[function.file-get-contents]: 
failed to open stream: HTTP request failed! HTTP/1.0 404 Not Found 
in myphppage.php on line 3

例如在zend中你可以说:if ($request->isSuccessful())

$client = New Zend_Http_Client();
$client->setUri('http://someurl.com/somepage');

$request = $client->request();

if ($request->isSuccessful()) 
 //do stuff with the result

【问题讨论】:

尝试使用流上下文:***.com/questions/21800276/…,file_get_contents 在后台使用 fopen。 【参考方案1】:

使用 PHP 中的此类命令,您可以在它们前面加上 @ 以禁止此类警告。

@file_get_contents('http://somenotrealurl.com/notrealpage');

如果发生故障,file_get_contents() 返回FALSE,因此如果您检查返回的结果,那么您可以处理故障

$pageDocument = @file_get_contents('http://somenotrealurl.com/notrealpage');

if ($pageDocument === false) 
    // Handle error

【讨论】:

我不想仅仅压制错误。我想知道网址是否有效。 请注意,如果服务器关闭,该函数可能会阻塞一段时间。 @sami 当您说“有效”时,您是指有效的 URL,还是“有效”? 对我来说是完美的解决方案。谢谢…… 你真的拯救了我的一天。在尝试您的解决方案之前,我浪费了时间尝试实施其他解决方案。谢谢一百万【参考方案2】:

您需要查看HTTP response code:

function get_http_response_code($url) 
    $headers = get_headers($url);
    return substr($headers[0], 9, 3);

if(get_http_response_code('http://somenotrealurl.com/notrealpage') != "200")
    echo "error";
else
    file_get_contents('http://somenotrealurl.com/notrealpage');

【讨论】:

如果您需要知道请求失败的原因,即,这种技术比我的更可取。检查状态码(例如,404 可能需要与 503 不同地处理)。如果没有,它可能会引入两个请求,然后最好忽略。 虽然这是一个很好的解决方案,但它不考虑其他 http 错误代码,如 500。所以,一个简单的调整可能是:$headers = get_headers($uri);if (stripos($headers[0], '40') !== false || stripos($headers[0], '50') !== false) ...handle errors...跨度> 我认为这段代码是错误的。只有当file_get_contents 返回false 时,您才应该调用get_headers。调用每个 URL 两次没有多大意义。除非您期望您的大多数 URL 都会失败。如果状态 4xx 或 5xx 发生,$http_response_header 为空,这真的很遗憾。这样我们就根本不需要get_headers 太棒了!谢谢。 这段代码有点浪费,因为它会发出两次相同的请求。你最好检查一下$http_response_header - php.net/manual/en/reserved.variables.httpresponseheader.php【参考方案3】:

虽然file_get_contents 非常简洁和方便,但我更倾向于使用 Curl 库进行更好的控制。这是一个例子。

function fetchUrl($uri) 
    $handle = curl_init();

    curl_setopt($handle, CURLOPT_URL, $uri);
    curl_setopt($handle, CURLOPT_POST, false);
    curl_setopt($handle, CURLOPT_BINARYTRANSFER, false);
    curl_setopt($handle, CURLOPT_HEADER, true);
    curl_setopt($handle, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($handle, CURLOPT_CONNECTTIMEOUT, 10);

    $response = curl_exec($handle);
    $hlength  = curl_getinfo($handle, CURLINFO_HEADER_SIZE);
    $httpCode = curl_getinfo($handle, CURLINFO_HTTP_CODE);
    $body     = substr($response, $hlength);

    // If HTTP response is not 200, throw exception
    if ($httpCode != 200) 
        throw new Exception($httpCode);
    

    return $body;


$url = 'http://some.host.com/path/to/doc';

try 
    $response = fetchUrl($url);
 catch (Exception $e) 
    error_log('Fetch URL failed: ' . $e->getMessage() . ' for ' . $url);

【讨论】:

是的,curl 库要好得多——我个人从不使用file_get_contents() 获取 URL,我不喜欢使用这样的流包装器,感觉有点不稳定。【参考方案4】:

每次使用 http 包装器调用 file_get_contents 时,都会在本地范围内创建一个变量:$http_response_header

此变量包含所有 HTTP 标头。此方法优于get_headers() 函数,因为只执行一个请求。

注意:2 个不同的请求可以以不同的方式结束。例如,get_headers() 将返回 503,而 file_get_contents() 将返回 200。您将获得正确的输出,但由于 get_headers() 调用中的 503 错误而不会使用它。

function getUrl($url) 
    $content = file_get_contents($url);
    // you can add some code to extract/parse response number from first header. 
    // For example from "HTTP/1.1 200 OK" string.
    return array(
            'headers' => $http_response_header,
            'content' => $content
        );


// Handle 40x and 50x errors
$response = getUrl("http://example.com/secret-message");
if ($response['content'] === FALSE)
    echo $response['headers'][0];   // HTTP/1.1 401 Unauthorized
else
    echo $response['content'];

这种方法还允许您跟踪存储在不同变量中的少数请求标头,因为如果您使用 file_get_contents() $http_response_header 在本地范围内被覆盖。

【讨论】:

这很完美,它保存了额外的请求这一事实得到了我的 +1.. 我正在处理生成数万个 URL 的缓存.. 所以必须加倍请求简直太可笑了。【参考方案5】:

简单而实用(在任何地方都易于使用):

function file_contents_exist($url, $response_code = 200)

    $headers = get_headers($url);

    if (substr($headers[0], 9, 3) == $response_code)
    
        return TRUE;
    
    else
    
        return FALSE;
    

示例:

$file_path = 'http://www.google.com';

if(file_contents_exist($file_path))

    $file = file_get_contents($file_path);

【讨论】:

【参考方案6】:

为避免Orbling 对ynh 的答案评论的双重请求,您可以结合他们的答案。如果您首先得到有效的响应,请使用它。如果没有找出问题所在(如果需要)。

$urlToGet = 'http://somenotrealurl.com/notrealpage';
$pageDocument = @file_get_contents($urlToGet);
if ($pageDocument === false) 
     $headers = get_headers($urlToGet);
     $responseCode = substr($headers[0], 9, 3);
     // Handle errors based on response code
     if ($responseCode == '404') 
         //do something, page is missing
     
     // Etc.
 else 
     // Use $pageDocument, echo or whatever you are doing

【讨论】:

【参考方案7】:

您可以将 'ignore_errors' => true 添加到选项中:

$options = array(
  'http' => array(
    'ignore_errors' => true,
    'header' => "Content-Type: application/json\r\n"
    )
);
$context  = stream_context_create($options);
$result = file_get_contents('http://example.com', false, $context);

在这种情况下,您将能够读取来自服务器的响应。

【讨论】:

【参考方案8】:
$url = 'https://www.yourdomain.com';

正常

function checkOnline($url) 
    $headers = get_headers($url);
    $code = substr($headers[0], 9, 3);
    if ($code == 200) 
        return true;
    
    return false;


if (checkOnline($url)) 
    // URL is online, do something..
    $getURL = file_get_contents($url);     
 else 
    // URL is offline, throw an error..

专业版

if (substr(get_headers($url)[0], 9, 3) == 200) 
    // URL is online, do something..

Wtf 级别

(substr(get_headers($url)[0], 9, 3) == 200) ? echo 'Online' : echo 'Offline';

【讨论】:

以上是关于url 不存在时的 file_get_contents的主要内容,如果未能解决你的问题,请参考以下文章

ajax访问后台报404

不存在关系时的默认值

PySpark 读取不存在文件时的错误处理

如果不接受 cookie,配置 WildFly/Undertow 以将 JSESSIONID 放在 URL 上

SQL Select 语句 - 字段不存在时的默认字段值

Flutter - Image.network 失败时的默认图像