如何在资源有限的笔记本电脑上安装 pyspark 和 spark 用于学习目的?
Posted
技术标签:
【中文标题】如何在资源有限的笔记本电脑上安装 pyspark 和 spark 用于学习目的?【英文标题】:How to install pyspark & spark for learning purpose on a laptop with limited resources? 【发布时间】:2015-10-13 18:27:20 【问题描述】:我有一台 6GB RAM 的 Windows 7 笔记本电脑。为了学习目的,在这台笔记本电脑上安装 pyspark 和 spark 的最高效的 RAM/资源方式是什么。我不想处理实际的大数据,但小数据集是理想的,因为这只是用于学习 pyspark 和 spark。我更喜欢最新版本的 Spark。
仅供参考:我没有安装 hadoop。
谢谢
【问题讨论】:
【参考方案1】:你基本上有三个选择:
从源代码构建一切 安装 Virtualbox 并使用像 Cloudera Quickstart 这样的预构建 VM 安装 Docker 并找到合适的容器当您选择从源代码构建时,让所有东西都启动并运行可能会很痛苦。你必须安装 JDK,构建 hadoop 和 spark(两者都需要你安装额外的软件来构建它们),设置一堆环境变量,然后祈祷没有搞砸任何事情。
VM 很好,尤其是来自 Cloudera 的 VM,但您经常会被旧版本的 Spark 卡住,而且您描述的资源可能会很紧张。
我会选择 Docker。
一旦您安装了 docker,就可以很容易地尝试 Spark(以及许多其他技术)。我最喜欢玩的容器使用 ipython 或 jupyter notebooks。
安装 Docker:
https://docs.docker.com/installation/windows/Jupyter Notebook Python、Spark、Mesos Stack
https://github.com/jupyter/docker-stacks/tree/master/pyspark-notebook【讨论】:
【参考方案2】:要记住的一点是,您将不得不为 VM 分配一定数量的内存,而剩余的内存仍然必须运行 Windows。对于 32 位操作系统,Windows 7 至少需要 1 GB,对于 64 位操作系统,至少需要 2 GB。因此,您很可能只需要大约 4 GB 的 RAM 来运行 VM,这并不多。
假设您是 64 位,请注意 Cloudera 至少需要 4 GB RAM 才能运行 CDH 5,但如果您想运行 Cloudera Express,则需要 8 GB。
从 Windows 运行 Docker 需要使用 boot2docker,它将整个 VM 保存在内存中。它使用最少的内存(大约 27 MB)来运行,所以你应该没问题。比运行 VirtualBox 更好的解决方案!
另一个需要考虑的选择是在 Amazon Web Services (http://aws.amazon.com) 或 Google Cloud (http://cloud.google.com) 等平台上启动免费机器。尤其是后者,您可以获得免费试用的积分,您可以使用这些积分来启动一台具有比通常使用 AWS 获得的更多 RAM 的机器。
【讨论】:
以上是关于如何在资源有限的笔记本电脑上安装 pyspark 和 spark 用于学习目的?的主要内容,如果未能解决你的问题,请参考以下文章
spark-submit 适用于 Python 程序,但 pyspark 不起作用