如何使用 Java 直接从 Internet 读取文本文件?

Posted

技术标签:

【中文标题】如何使用 Java 直接从 Internet 读取文本文件?【英文标题】:How to read a text file directly from Internet using Java? 【发布时间】:2011-09-09 16:50:37 【问题描述】:

我正在尝试从在线文本文件中读取一些单词。

我试着做这样的事情

File file = new File("http://www.puzzlers.org/pub/wordlists/pocket.txt");
Scanner scan = new Scanner(file);

但它没有用,我得到了

http://www.puzzlers.org/pub/wordlists/pocket.txt 

作为输出,我只想得到所有的单词。

我知道他们以前教过我这个,但我现在不记得具体该怎么做,非常感谢任何帮助。

【问题讨论】:

How do you Programmatically Download a Webpage in Java的可能重复 【参考方案1】:

使用Apache Commons IO

import org.apache.commons.io.IOUtils;

import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.nio.charset.StandardCharsets;

public static String readURLToString(String url) throws IOException

    try (InputStream inputStream = new URL(url).openStream())
    
        return IOUtils.toString(inputStream, StandardCharsets.UTF_8);
    

【讨论】:

【参考方案2】:

我通过以下方式对图像执行此操作,您应该能够使用类似的步骤对文本执行此操作。

// folder & name of image on PC          
File fileObj = new File("C:\\Displayable\\imgcopy.jpg"); 

Boolean testB = fileObj.createNewFile();

System.out.println("Test this file eeeeeeeeeeeeeeeeeeee "+testB);

// image on server
URL url = new URL("http://localhost:8181/POPTEST2/imgone.jpg"); 
InputStream webIS = url.openStream();

FileOutputStream fo = new FileOutputStream(fileObj);
int c = 0;
do 
    c = webIS.read();
    System.out.println("==============> " + c);
    if (c !=-1) 
        fo.write((byte) c);
    
 while(c != -1);

webIS.close();
fo.close();

【讨论】:

【参考方案3】:

或者,您可以使用Guava's Resources 对象:

URL url = new URL("http://www.puzzlers.org/pub/wordlists/pocket.txt");
List<String> lines = Resources.readLines(url, Charsets.UTF_8);
lines.forEach(System.out::println);

【讨论】:

【参考方案4】:

使用此代码将 Internet 资源读入String

public static String readToString(String targetURL) throws IOException

    URL url = new URL(targetURL);
    BufferedReader bufferedReader = new BufferedReader(
            new InputStreamReader(url.openStream()));

    StringBuilder stringBuilder = new StringBuilder();

    String inputLine;
    while ((inputLine = bufferedReader.readLine()) != null)
    
        stringBuilder.append(inputLine);
        stringBuilder.append(System.lineSeparator());
    

    bufferedReader.close();
    return stringBuilder.toString().trim();

这是基于here。

【讨论】:

【参考方案5】:

真正对我有用的东西:(来源:oracle 文档“阅读 url”)

 import java.net.*;
 import java.io.*;

 public class UrlTextfile 
public static void main(String[] args) throws Exception 

    URL oracle = new URL("http://yoursite.com/yourfile.txt");
    BufferedReader in = new BufferedReader(
    new InputStreamReader(oracle.openStream()));

    String inputLine;
    while ((inputLine = in.readLine()) != null)
        System.out.println(inputLine);
    in.close();

 

【讨论】:

【参考方案6】:

对于老式输入流,请使用以下代码:

  InputStream in = new URL("http://google.com/").openConnection().getInputStream();

【讨论】:

我收到一个错误:方法 URL(URL) 未定义为 Test 类型 或将 openConnection().getInputStream() 替换为 openStream() ;) 你需要“new”——我猜你是在“URL(...”)前面省略了“new”【参考方案7】:

使用URL 而不是File 进行任何不在本地计算机上的访问。

URL url = new URL("http://www.puzzlers.org/pub/wordlists/pocket.txt");
Scanner s = new Scanner(url.openStream());

实际上,URL 更普遍有用,也可用于本地访问(使用file: URL)、jar 文件以及任何可以通过某种方式检索的内容。

上述方式以您的平台默认编码解释文件。如果您想使用服务器指示的编码,则必须使用 URLConnection 并解析其内容类型,如this question 的答案中所示。


关于您的错误,请确保您的文件编译时没有任何错误 - 您需要处理异常。单击 IDE 给出的红色消息,它应该向您显示如何修复它的建议。不要启动不能编译的程序(即使 IDE 允许这样做)。

这里有一些异常处理示例:

try 
   URL url = new URL("http://www.puzzlers.org/pub/wordlists/pocket.txt");
   Scanner s = new Scanner(url.openStream());
   // read from your scanner

catch(IOException ex) 
   // there was some connection problem, or the file did not exist on the server,
   // or your URL was not in the right format.
   // think about what to do now, and put it here.
   ex.printStackTrace(); // for now, simply output it.

【讨论】:

我在线程“main”java.lang.Error 中遇到了一个错误:未解决的编译问题:未处理的异常类型 MalformedURLException 未处理的异常类型 IOException 将其包装在 try/catch 块中并捕获这 2 个异常。 对不起,我迷路了,这不应该很简单,可以用 2 或 3 行代码完成吗? @theexplorer 参见en.wikipedia.org/wiki/HTTP_403,例如。您的服务器似乎配置为不允许下载此文件。 我明白了。谢谢。要求主机关闭此安全开关是否明智?【参考方案8】:

试试这样的

 URL u = new URL("http://www.puzzlers.org/pub/wordlists/pocket.txt");
 InputStream in = u.openStream();

然后将其用作任何普通的旧输入流

【讨论】:

以上是关于如何使用 Java 直接从 Internet 读取文本文件?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 NSG 限制从 Internet 直接访问 Azure Public LoadBalancer 后端池 VM

如何从 Python cv2、scikit 图像和 mahotas 中的 Internet URL 读取图像?

如何将 xml 文件从 Internet 直接导入 Oracle 表

Java如何读取CPU的数据信息

如何在 Outlook 中读取 Internet 标题和电子邮件

问题 HTTP 错误 403:从 Internet 读取时被禁止 [重复]