Apache Spark优化

Question

我正在将Spark MLlib与Pyspark一起使用，并且需要证明它比传统的机器学习方法更好。我有一个数据集，在该数据集上运行Logistic回归，并且发现了诸如准确性，精度，召回率等指标。

虽然在PySpark中运行代码并使用普通的Python脚本，但我意识到普通的puthon脚本将更快地完成执行，而事实并非如此，因为数据集中有很多数据。我很快进行了更深入的挖掘，意识到Spark只需运行1个工作线程，并且只分配了一个内核。因此，由于我的VM具有8个VCPU和16 Gb RAM，因此我在spark-defaults.conf中进行了以下更改。

spark.driver.memory 8g spark.driver.cores 8 spark.executor.instances 8

现在，Spark在数据上运行ML代码所花费的时间已大大减少。我还应该考虑进一步的优化吗？我在独立模式下运行Spark，即我的主服务器和工作服务器是同一节点。

我正在将Spark MLlib与Pyspark一起使用，并且需要证明它比传统的机器学习方法更好。我有一个正在运行Logistic回归的数据集，我正在...