Java - 从 url 读取页面源返回未知字符

Posted

技术标签:

【中文标题】Java - 从 url 读取页面源返回未知字符【英文标题】:Java - Read page source from url returns unknown characters 【发布时间】:2019-06-28 08:32:47 【问题描述】:

我正在使用下面的代码从 url (https://www.amazon.com) 读取 NetBeans 中带有“UTF-8”字符集的页面源,但它返回未知字符(附加图像)。我不知道有什么问题,如果帮助我修改代码以使其正常工作,我将不胜感激?谢谢。

public static String getURLSource(String url) throws IOException

    URL urlObject = new URL(url);
    URLConnection urlConnection = urlObject.openConnection();
    urlConnection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (Khtml, like Gecko) Chrome/23.0.1271.95 Safari/537.11");

    return toString(urlConnection.getInputStream());


private static String toString(InputStream inputStream) throws IOException

    try (BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(inputStream, "UTF-8")))
    
        String inputLine;
        StringBuilder stringBuilder = new StringBuilder();
        while ((inputLine = bufferedReader.readLine()) != null)
        
            stringBuilder.append(inputLine);
        

        return stringBuilder.toString();
    

【问题讨论】:

我相信您看到的是加密的有效负载。您需要使用某种 HTTPS 客户端来处理密钥交换、服务器证书的验证以及 - 最重要的是 - 流的解码。 @skomisa 感谢您的回答。我在我的代码中取消了该行的注释。 @skomisa 感谢您的回答。这只是一个错字,我在我的代码中取消了该行的注释(问题与此无关!)。 @Mr.Nobody 我也尝试阅读亚马逊的主页using JSoup,但效果有限。有一些JSoup examples here which use Amazon's home page。亚马逊似乎故意不让抓取他们的页面变得容易。 再次感谢@skomisa,我会尝试使用'Jsoup'。 【参考方案1】:

使用HttpsUrlConnection 而不是UrlConnection。见a similar question。

【讨论】:

我已经用'HttpsUrlConnection'检查过它,但没有任何改变! @skomisa 对不起,我的错!

以上是关于Java - 从 url 读取页面源返回未知字符的主要内容,如果未能解决你的问题,请参考以下文章

由于 cloudflare,无法从 url 读取数据

PhantomJS 传递 HTML 字符串并返回页面源

C# CefSharp 如何获取当前页的URL

Java 在 int 或 String 之间返回(未知返回类型)

点击跳转到上一页

Java 技术篇 - 从指定的web网页页面中读取html内容实例演示,从http协议下的url地址中读取web页面内容方法