从 Java NIO socketchannel 读取字节，直到到达标记

Posted 2023-02-24

技术标签:

【中文标题】从 Java NIO socketchannel 读取字节，直到到达标记【英文标题】：Read bytes from Java NIO socketchannel until marker is reached 【发布时间】：2015-07-17 17:47:15 【问题描述】：

我正在寻找一种使用 Java NIO 从套接字通道读取字节的有效方法。任务很简单，我有一个解决方案，尽管我正在寻找一种更清洁、更有效的方法来解决这个问题。场景如下：

从套接字通道读取数据此数据是 UTF-8 编码的字符串每一行都以\r\n结尾，前面长度未知读完每一行后，我想对消息做点什么

我的解决方案按字节读取数据字节，并将每个字节与我的标记（在 UTF-8 代码页中的值为 10）进行比较。代码如下：

ByteBuffer res = ByteBuffer.allocate(512);
boolean completed = false;
try 
    while (true) 
        ByteBuffer tmp = ByteBuffer.allocate(1);
        if(soc.read(tmp) == -1) 
             break;
        

        // set marker back to index 0
        tmp.rewind();
        byte cur = tmp.get();
        res.put(cur);

        // have we read newline?
        if (cur == 10) 
            doSomething(res);
            res.clear();
        
    

 catch(Exception ex) 
     handle(ex);

即使这样做了，也可能有更好的方法，不需要在每次迭代后进行逐字节比较。

感谢您的帮助！

【问题讨论】：

【参考方案1】：

我这样做的方法是尽可能多地读取，例如 32 KB，一旦你读过这个，你就可以将数据逐字节复制到另一个缓冲区，例如一个字符串生成器。如果上次读取时缓冲区中还有数据，您可以继续使用缓冲区，直到它全部耗尽，此时您可以读取更多数据。

注意：每个系统调用都很昂贵。这可能需要 2-5 微秒。除非您调用它数百万次，否则这听起来并不多，它会增加读取 1 MB 的时间。

【讨论】：

好的，我已经更改了代码，以便它使用更大的缓冲区来减少系统调用的数量。我使用两个相同大小的缓冲区，在每个循环中，我从套接字读取到缓冲区 A。之后，我遍历该缓冲区并将所有字节复制到相同大小的缓冲区 B 中。如果我到达我的标记，我会处理缓冲区 B 并重新分配缓冲区 B 以确保较短的消息不会从较长的运行中命中字节。如果缓冲区大小和标记不匹配，下一次运行只是追加，这样我就不必关心余数。如果你 write(byteBuffer) 从一个缓冲区到另一个缓冲区，它可以比逐字节执行快 8 倍或更多。【参考方案2】：

这是我最终解决方案的代码。

ByteBuffer res = ByteBuffer.allocate(maxByte);
while (true) 
    ByteBuffer tmp = ByteBuffer.allocate(maxByte);

    int bytesRead = clientSocket.read(tmp);
    if (bytesRead == -1) 
        break;
    

    // rewind ByteBuffer to get it back to start
    tmp.rewind();

    for (int i = 0; i < bytesRead; i++) 
        byte cur = tmp.get(i);
        res.put(cur);
        if (cur == marker) 
            processMessage(res);
            res = ByteBuffer.allocate(maxByte);
        
    

    // reached end of message, break loop
    if (bytesRead < tmpSize) 
        break;

【讨论】：

您不需要在每次循环时都分配一个新的tmp 缓冲区。您应该在get() 之前flip() 缓冲区，然后在compact() 之后，而不是rewind()。您无需在成功时重新分配 res：只需 clear() 即可。什么是更好的选择，在每次 get() 之后或到达标记之后进行压缩？我对 clear() 的问题是，它只在逻辑上“清除”缓冲区。我遇到了我的消息长度可变的问题，如果以下消息比前一个消息短，我会处理来自先前迭代的“旧”数据而无法识别这一点。我还没有找到不重新分配它的方法。 1. compact() 在每个 flip() 之后。 2. 你的问题是你没有打电话给compact()。在具有相同容量的现有设备上分配新的ByteBuffer 和clear() 之间的差异为零，只是clear() 的效率高出许多倍。好的，我已将 tmp.rewind() 替换为 tmp.flip(); tmp.compact() 并将 res = ByteBuffer.allocate(maxByte); 替换为 res.clear()。我又回到了老问题……我知道我显然遗漏了一些东西，我可能也需要翻转另一个缓冲区……你能给我一个我的代码示例吗？它必须是翻转、获取、压缩的顺序。

以上是关于从 Java NIO socketchannel 读取字节，直到到达标记的主要内容，如果未能解决你的问题，请参考以下文章