将协议缓冲区编码的消息从 Python 服务器发送到 Java 客户端

Posted

技术标签:

【中文标题】将协议缓冲区编码的消息从 Python 服务器发送到 Java 客户端【英文标题】:Sending Protocol Buffer encoded message from Python Server to Java Client 【发布时间】:2020-11-03 19:25:57 【问题描述】:

我正在编写一个使用协议缓冲区对一些数据进行编码的小型服务器。

    android Client 和 Python Server 之间打开 TCP Socket

    Android 客户端发送字符串以作为普通换行符分隔的 utf-8 进行处理。

    Python Server 进行一些处理以生成响应,该响应给出一个 Int 数组数组:[[int]]。这是在协议缓冲区文件中编码的:

syntax = "proto2";

package tts;

message SentenceContainer 
    repeated Sentence sentence = 1;


message Sentence 
    repeated uint32 phonemeSymbol = 1;


它被加载到这个结构中并按如下方式发送......

container = ttsSentences_pb2.SentenceContainer()
for sentence in input_sentences:
    phonemes = container.sentence.add()
    # Add all the phonemes to the phoneme list
    phonemes.phonemeSymbol.extend(processor.text_to_sequence(sentence))


payload = container.SerializeToString()
client.send(payload)
    Android 客户端收到 Protocol Buffer 编码的消息并尝试解码。

这就是我被困的地方......

# I get the InputStream when the TCP connection is first opened
bufferIn = socket.getInputStream();
TtsSentences.SentenceContainer sentences = TtsSentences.SentenceContainer.parseDelimitedFrom(bufferIn);

当客户端收到消息时会出现这个异常:

E/TCP: Server Error
    com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.
        at com.google.protobuf.CodedInputStream.checkLastTagWas(CodedInputStream.java:164)
        at com.google.protobuf.GeneratedMessageLite.parsePartialDelimitedFrom(GeneratedMessageLite.java:1527)
        at com.google.protobuf.GeneratedMessageLite.parseDelimitedFrom(GeneratedMessageLite.java:1496)
        at com.tensorspeech.tensorflowtts.TtsSentences$SentenceContainer.parseDelimitedFrom(TtsSentences.java:221)
        at com.tensorspeech.tensorflowtts.network.PersistentTcpClient.run(PersistentTcpClient.java:100)
        at com.tensorspeech.tensorflowtts.MainActivity.lambda$onCreate$0$MainActivity(MainActivity.java:71)
        at com.tensorspeech.tensorflowtts.-$$Lambda$MainActivity$NTUE8bAusaoF3UGkWb7-Jt806BY.run(Unknown Source:2)
        at java.lang.Thread.run(Thread.java:919)

我已经知道这个问题是因为协议缓冲区不是自定界的,但我不确定我应该如何正确定界。我已尝试添加换行符client.send(payload + b'\n'),并将 PB 大小(以字节为单位)添加到负载 client.send(container.ByteSize().to_bytes(2, 'little') + payload) 的开头,但不知道如何继续。

很遗憾没有关于如何在 Java 中通过 TCP 套接字使用协议缓冲区的文档...

【问题讨论】:

您似乎只发送了一条消息。为什么使用parseDelimitedFrom 而不是parseFrom?但更重要的是,问题看起来像如何从 Python 中分隔,而不是如何从 Java 中解析 谢谢。我认为问题出在双方,首先我需要知道如何从 Python 中分隔,然后还要知道我需要在 Java 上使用哪些缓冲区/输入类型才能正确解析该分隔符。 您只发送一条消息吗?如果是这样,那么您根本不必分隔。 是的,但由于某种原因,它只是无限期地阻止parseFrom(bufferIn) 发送一条消息后连接是否关闭? 【参考方案1】:

好的,我解决了...

如果你有一个短暂的连接,套接字关闭将表示有效负载的结束,因此不需要额外的逻辑。

在我的情况下,我有一个长期连接,因此关闭套接字以表示有效负载的结束是行不通的。

使用 Java 客户端和服务器,您可以通过以下方式解决此问题:

MessageLite.writeDelimitedTo(OutputStream)

然后在接收方:

MessageLite.parseDelimitedFrom(InputStream).

很简单...

但在 Python API 中,没有 writeDelimitedTo() 函数。因此,我们必须重新创建 writeDelimitedTo() 正在做的事情。幸运的是,这很简单。它只是在消息的开头添加一个等于有效负载大小的 _VarintBytes!

client, _ = socket.accept()
payload = your_PB_item.SerializeToString()
size = payload.ByteSize()
client.send(_VarintBytes(size) + payload)

然后在 Java 接收方...

bufferIn = socket.getInputStream();
yourPbItem message;

if ((message = yourPbItem.parseDelimitedFrom(bufferIn)) != null) 
    // Do stuff :)

这样,您的协议缓冲区库确切地知道要读取多少字节,然后停止关心 InputStream,而不是无限期地坐着听。

【讨论】:

以上是关于将协议缓冲区编码的消息从 Python 服务器发送到 Java 客户端的主要内容,如果未能解决你的问题,请参考以下文章

从套接字读取消息时如何获取字节序?

python socket模块

Google Protocol Buffers - 对编码解码 base64 char * c 字符串协议缓冲区数据感到困惑

C ++中套接字上的协议缓冲区

MQTT-QoS与协议流程

您将如何使用协议缓冲区对 Map<String, Object> 进行编码?