PySpark worker在安装时无法导入包

Question

我最近在gcloud DataProc上建立了一个集群（1个主服务器和2个从服务器）。我设法有一个带有PySpark内核的jupyter笔记本界面。只要我的工作人员不必执行需要外部包（如NumPy或sklearn）的代码，一切都会正常工作。例如，我收到此错误：

ImportError: No module named 'sklearn'

a bit of the huge error log when I try to use pairwise_distance from sklearn

当我ssh on the workers and type

python
>>> help('modules')

我可以看到所有软件包都已正确安装，因此不是问题所在。

当我输入which python时，我得到一条路径让我们说/opt/conda/bin/python当我用echo $PYSPARK_PYTHON检查PYSPARK_PYTHON时，我得到了相同的路径。由此我们可以推断出spark使用了安装了所有软件包的“好”版本的python。所以这不是问题。

我不明白为什么我的工作人员无法使用软件包，因为它们已正确安装且PATHs变量看起来很好。

有线索吗？我有点失落和绝望所以我可能会忽略信息，请不要犹豫。

对于那些想知道的人，我跟着这个link直到第4步在gcloud上建立我的环境PySpark。