Sparklyr：如何将列表列分解为Spark表中自己的列？

Question

我的问题与here中的问题相似，但是我在实现答案时遇到了问题，我无法在该帖子中发表评论。

所以，我有一个包含嵌套数据的大型CSV文件，其中包含由空格分隔的2列（例如，第一列是Y，第二列是X）。列X本身也是逗号分隔值。

21.66 2.643227,1.2698358,2.6338573,1.8812188,3.8708665,...
35.15 3.422151,-0.59515584,2.4994135,-0.19701914,4.0771823,...
15.22 2.8302398,1.9080592,-0.68780196,3.1878228,4.6600842,...
...

我想使用sparklyr将此CSV读入2个不同的Spark表。

到目前为止，这是我一直在做的事情：

使用spark_read_csv将所有CSV内容导入Spark数据表 df = spark_read_csv(sc, path = "path", name = "simData", delimiter = " ", header = "false", infer_schema = "false") 结果是一个名为simData的Spark表，有两列：C0和C1
使用dplyr选择第一列和第二列，然后将它们分别注册为名为Y和X的新表 simY <- df %>% select(C0) %>% sdf_register("simY") simX <- df %>% select(C1) %>% sdf_register("simX")
使用simX函数拆分ft_regex_tokenizer中的值，关于用here写的答案。 ft_regex_tokenizer(input_DF, input.col = "COL", output.col = "ResultCols", pattern = '\###')

但是当我尝试使用head dplyr时：

Source:   query [6 x 1]
Database: spark connection master=yarn-client app=sparklyr local=FALSE

        Result
        <list>
1 <list [789]>
2 <list [789]>
3 <list [789]>
4 <list [789]>
5 <list [789]>
6 <list [789]>

我想把它变成一个新的Spark表并将类型转换为double。有没有办法做到这一点？我已经考虑将collect数据转换为R（使用dplyr），转换为矩阵，然后为每一行执行strsplit，但我认为这不是一个解决方案，因为CSV大小可以达到40GB。

编辑：Spark版本是1.6.0