在Pycharm上编写WordCount程序

Posted zgq123456

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在Pycharm上编写WordCount程序相关的知识,希望对你有一定的参考价值。

本篇博客将给大家介绍怎么在PyCharm上编写运行WordCount程序。

第一步 下载安装PyCharm

下载Pycharm

PyCharm的下载地址(Linux版本)。
下载完成后你将得到一个名叫:pycharm-professional-2018.2.4.tar.gz文件。我们选择的是正版软件,学生可申请免费使用。详细信息请百度。

安装PyCharm

执行以下命令解压文件:

  1. cd ~/下载
  2. tar -xvf pycharm-professional-2018.2.4.tar.gz
Shell

这时候我们可以在下载目录看到一个pycharm-2018.2.4文件夹。接下来我们把它放到/usr/local下,并且重命名

  1. sudo mv ./pycharm-2018.2.4 /usr/local/pycharm
Shell

然后我们要执行pycharm.sh文件,完成首次安装:

  1. cd /usr/local/pycharm/bin
  2. ./pycharm.sh
Shell

等待之后我们可以看到如下图界面:
技术分享图片
选择不导入设置,点击OK。然后我们会看到以下界面:
技术分享图片
选择左下角“Skip Remaining and Set Defaults”,默认设置即可,本人更偏爱白色,所以后面的截图会跟大家不一样,但是没有影响。

配置环境变量

配置环境变量的意义在于我们以后不需要每次都到pycharm文件夹下去启动程序。

  1. sudo vim ~/.bashrc
Shell

将下面内容复制到文件的开头部分。

  1. #pycharm
  2. export PyCharm_HOME=/usr/local/pycharm
  3. export PATH=${PyCharm_HOME}/bin:$PATH
vim

完成以上操作后你就可以在终端直接使用:pycharm.sh命令打开程序了。

第二步 创建并运行WordCount程序

创建工程文件

在开始界面选择“Create New Project”
技术分享图片
接下来按照下图操作,修改图中两处红框内容,project起名为WordCount,python选择3.6版本,没有的请安装。
最后点击Create,完成项目创建。
技术分享图片

创建python文件

右键点击WordCount文件夹,选择New -> Python File,可以看到以下界面,我们取文件名为WordCount。
技术分享图片
然后我们在WordCount.py中复制以下代码:

  1. #-*- coding:utf8-*-
  2. from pyspark import SparkConf, SparkContext
  3.  
  4. conf = SparkConf().setAppName("WordCount").setMaster("local")
  5. sc = SparkContext(conf=conf)
  6. inputFile = "hdfs://localhost:9000/user/way/word.txt"
  7. textFile = sc.textFile(inputFile)
  8. wordCount = textFile.flatMap(lambda line : line.split(" ")).map(lambda word : (word, 1)).reduceByKey(lambda a, b : a + b)
  9. wordCount.foreach(print)
Python

这时候你会看到PyCharm自动报错,代码中带红色波浪线部分为PyCharm提示的错误。缺少pyspark等。接下来我们要利用pycharm自动帮我们安装pyspark。把鼠标放到带红色波浪线的地方,并且将光标点进错误的地方,如下图,会出现一个小红灯泡。
技术分享图片
点击小红灯泡,选择“Install package pyspark”,等待程序自动安装完成,在程序底部可看到正在安装的提示。

补充说明一下代码。

我的inputFile = “hdfs://localhost:9000/user/way/word.txt”
这个文件是放在hdfs伪分布式文件系统上的,这时候你必须开启hdfs文件系统,相关操作查看实验室相关博客。
你也可以选择本地文件inputFile = “file:///home/way/桌面/word.txt”。 当然在这些位置你必须有这个word.txt文件。

Pycharm运行WordCount

然后你可以右键点击代码页面,选择Run “WordCount”。可以看到以下结果:
技术分享图片

提交到spark运行

我们也可以把代码提交到Spark运行,具体方法是:
打开终端,打开Spark安装目录,并执行提交任务命令:

  1. cd /usr/local/spark/
  2. ./bin/spark-submit /home/way/PycharmProjects/WordCount/WordCount.py
Shell

翻一下我们的输出信息可以找到以下结果:
技术分享图片

至此我们完成了在pycharm用python编写wordcount程序的实验。




















以上是关于在Pycharm上编写WordCount程序的主要内容,如果未能解决你的问题,请参考以下文章

大数据学习——MapReduce学习——字符统计WordCount

使用 Python 在 Qt 上编写的自动测试应用程序

如何在没有编译器的电脑上编写程序?

如何在网络上编写音频/视频应用程序?

在 Windows 上编写一个提取 RPM 文件内容的程序

用Spark写一个简单的wordcount词频统计程序