如何在 python 中计算大型 spark 数据框的 kendall tau?

Posted

技术标签:

【中文标题】如何在 python 中计算大型 spark 数据框的 kendall tau?【英文标题】:How to calculate kendall's tau for a large spark dataframe in python? 【发布时间】:2019-07-19 20:32:52 【问题描述】:

我想计算大型 spark 数据帧的成对 kendall 的 tau 等级相关性。它很大(比如 10m 行和 10k 列)无法转换为 pandas 数据帧,然后使用 pandas.DataFrame.corr 进行计算。

另外,每一列可能有空值,因此在计算成对的kendall's tau时,需要排除两列中任何一个具有空值的行。

我检查了 pyspark.mllib.stat.Statistics.corr。它支持“pearson”和“spearman”。

    df_rdd = df.rdd.map(lambda row: row[0:])
    corr_mat = Statistics.corr(df_rdd, method='spearman')

Spearman 可能会替代我的 Kendall。 但是,它不排除空值,因此返回的相关矩阵会受到空值的影响(如果一列包含空,则与该列的相关变为全空)。

有人遇到过同样的问题吗?将列分成块只会得到一个块相关矩阵。相反,循环遍历所有对非常慢...

谢谢!!

【问题讨论】:

【参考方案1】:

Spark 尚不支持 Kendalls 的等级。但是,如果这对您来说还不算太晚,我找到了以下code ,您可以使用它来计算它。

这里是一个例子:

from operator import add 

#sample data in lists
variable_1 = [106, 86, 100, 101, 99, 103, 97, 113, 112, 110]
variable_2 = [7, 0, 27, 50, 28, 29, 20, 12, 6, 17]

#zip sample data and convert to rdd
example_data = zip(variable_1, variable_2)
example_rdd = sc.parallelize(example_data)

#filer out all your null values. Row containing nulls will be removed
example_rdd = example_rdd.filter(lambda x: x is not None).filter(lambda x: x != "")

#take the cartesian product of example data (generate all possible combinations)
all_pairs = example_rdd.cartesian(example_rdd)

#function calculating concorant and disconordant pairs
def calc(pair):
    p1, p2 = pair
    x1, y1 = p1
    x2, y2 = p2
    if (x1 == x2) and (y1 == y2):
        return ("t", 1) #tie
    elif ((x1 > x2) and (y1 > y2)) or ((x1 < x2) and (y1 < y2)):
        return ("c", 1) #concordant pair
    else:
        return ("d", 1) #discordant pair

#rank all pairs and calculate concordant / disconrdant pairs with calc() then return results
results  = all_pairs.map(calc)

#aggregate the results
results = results.aggregateByKey(0, add, add)

#count and collect
n  = example_rdd.count()
d = k: v for (k, v) in results.collect()

# http://en.wikipedia.org/wiki/Kendall_tau_rank_correlation_coefficient
tau = (d["c"] - d["d"]) / (0.5 * n * (n-1))

也许这会有所帮助,或者至少可供将来参考。

【讨论】:

以上是关于如何在 python 中计算大型 spark 数据框的 kendall tau?的主要内容,如果未能解决你的问题,请参考以下文章

6 - 教你如何使用Spark分布式执行Python脚本计算数据

如何使用 Spark Scala 计算 Bin 平均值?

如何使用 Spark 进行大型模型的机器学习工作流

如何将大型 Spark DataFrame(1.2 GB 14M 行)写入 MSSQL Server tbl?我目前的解决方案大约需要 10 个小时

寒假自学进度报告1

如何在 Spark 中检查或保存大型矩阵到文件