将udf应用于多列并使用numpy操作

Question

我在pyspark中有一个名为result的数据框，我想应用udf来创建新列，如下所示：

result = sqlContext.createDataFrame([(138,5,10), (128,4,10), (112,3,10), (120,3,10), (189,1,10)]).withColumnRenamed("_1","count").withColumnRenamed("_2","df").withColumnRenamed("_3","docs")
@udf("float")
def newFunction(arr):
    return (1 + np.log(arr[0])) * np.log(arr[2]/arr[1])

result=result.withColumn("new_function_result",newFunction_udf(array("count","df","docs")))

列数，df，docs全部为整数列。但这返回

Py4JError：调用时发生错误Z：org.apache.spark.sql.functions.col。跟踪：py4j.Py4JException：方法col（[class java.util.ArrayList]）在以下位置不存在py4j.reflection.ReflectionEngine.getMethod（ReflectionEngine.java:318）在py4j.reflection.ReflectionEngine.getMethod（ReflectionEngine.java:339）在py4j.Gateway.invoke（Gateway.java:274）处py4j.commands.AbstractCommand.invokeMethod（AbstractCommand.java:132）在py4j.commands.CallCommand.execute（CallCommand.java:79）处py4j.GatewayConnection.run（GatewayConnection.java:214）在java.lang.Thread.run（Thread.java:748）

[当我尝试通过一列并对其求平方时，它工作正常。

感谢您的任何帮助。