markdown PySpark序列化器和解串器测试具有嵌套和复杂的值

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了markdown PySpark序列化器和解串器测试具有嵌套和复杂的值相关的知识,希望对你有一定的参考价值。

## Python =(parallelize)=> RDD =(collect)=> Python

It works well.

```
>>> sc = SparkContext('local', 'test', batchSize=2)
>>> data = [([1, 0], [0.5, 0.499]), ([0, 1], [0.5, 0.499])]
>>> rdd = sc.parallelize(data)
>>> rdd.collect()
[([1, 0], [0.5, 0.499]), ([0, 1], [0.5, 0.499])]
>>> sc.stop()
```

## Python Obj =(_py2java)=> Java Obj =(_java2py)=> Python Obj

It works well.

```
>>> from pyspark.mllib.common import _py2java, _java2py
>>> sc = SparkContext('local', 'test', batchSize=2)
>>> data = [([1, 0], [0.5, 0.499]), ([0, 1], [0.5, 0.499])]
>>> jobj = _py2java(sc, data)
>>> _java2py(sc, jobj)
[([1, 0], [0.5, 0.499]), ([0, 1], [0.5, 0.499])]
>>> sc.stop()
```

以上是关于markdown PySpark序列化器和解串器测试具有嵌套和复杂的值的主要内容,如果未能解决你的问题,请参考以下文章

python JSON序列化器/解串器适用于Google App Engine的NDB数据存储区API。该脚本可以处理Model,Expando,PolyModel,Q.

加串器解串器

Jackson 解串器默认是如何工作的

串行解串器 SerDes

使用 Haskell 编写自己的区块链

受 Deadbolt“限制”注释影响的 Jackson 解串器