如何在资源有限的笔记本电脑上安装 pyspark 和 spark 用于学习目的?

Posted

技术标签:

【中文标题】如何在资源有限的笔记本电脑上安装 pyspark 和 spark 用于学习目的?【英文标题】:How to install pyspark & spark for learning purpose on a laptop with limited resources? 【发布时间】:2015-10-13 18:27:20 【问题描述】:

我有一台 6GB RAM 的 Windows 7 笔记本电脑。为了学习目的,在这台笔记本电脑上安装 pyspark 和 spark 的最高效的 RAM/资源方式是什么。我不想处理实际的大数据,但小数据集是理想的,因为这只是用于学习 pyspark 和 spark。我更喜欢最新版本的 Spark。

仅供参考:我没有安装 hadoop。

谢谢

【问题讨论】:

【参考方案1】:

你基本上有三个选择:

从源代码构建一切 安装 Virtualbox 并使用像 Cloudera Quickstart 这样的预构建 VM 安装 Docker 并找到合适的容器

当您选择从源代码构建时,让所有东西都启动并运行可能会很痛苦。你必须安装 JDK,构建 hadoop 和 spark(两者都需要你安装额外的软件来构建它们),设置一堆环境变量,然后祈祷没有搞砸任何事情。

VM 很好,尤其是来自 Cloudera 的 VM,但您经常会被旧版本的 Spark 卡住,而且您描述的资源可能会很紧张。

我会选择 Docker。

一旦您安装了 docker,就可以很容易地尝试 Spark(以及许多其他技术)。我最喜欢玩的容器使用 ipython 或 jupyter notebooks。

安装 Docker:

https://docs.docker.com/installation/windows/

Jupyter Notebook Python、Spark、Mesos Stack

https://github.com/jupyter/docker-stacks/tree/master/pyspark-notebook

【讨论】:

【参考方案2】:

要记住的一点是,您将不得不为 VM 分配一定数量的内存,而剩余的内存仍然必须运行 Windows。对于 32 位操作系统,Windows 7 至少需要 1 GB,对于 64 位操作系统,至少需要 2 GB。因此,您很可能只需要大约 4 GB 的 RAM 来运行 VM,这并不多。

假设您是 64 位,请注意 Cloudera 至少需要 4 GB RAM 才能运行 CDH 5,但如果您想运行 Cloudera Express,则需要 8 GB。

从 Windows 运行 Docker 需要使用 boot2docker,它将整个 VM 保存在内存中。它使用最少的内存(大约 27 MB)来运行,所以你应该没问题。比运行 VirtualBox 更好的解决方案!

另一个需要考虑的选择是在 Amazon Web Services (http://aws.amazon.com) 或 Google Cloud (http://cloud.google.com) 等平台上启动免费机器。尤其是后者,您可以获得免费试用的积分,您可以使用这些积分来启动一台具有比通常使用 AWS 获得的更多 RAM 的机器。

【讨论】:

以上是关于如何在资源有限的笔记本电脑上安装 pyspark 和 spark 用于学习目的?的主要内容,如果未能解决你的问题,请参考以下文章

PySpark安装错误

PySpark 安装错误

spark-submit 适用于 Python 程序,但 pyspark 不起作用

如何在Debian11上安装笔记本电脑的英特尔无线网卡驱动

如何简单的在已经安装了win10的笔记本电脑上安装linux系统

电脑安装Java,提示找不到URL,怎么解决?