计算人口平均年龄
Posted softwarebuilding
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了计算人口平均年龄相关的知识,希望对你有一定的参考价值。
创建实验数据:
from pyspark import SparkContext
import random
OutputFile = "file:///usr/local/spark/mycode/exercise/people"
sc = SparkContext(‘local‘,‘createPeopleAgeData‘)
peopleAge = []
for i in range(1,1001):
rand = random.randint(1,100)
peopleAge.append(str(i)+" "+str(rand))
RDD = sc.parallelize(peopleAge)
RDD.saveAsTextFile(OutputFile)
from pyspark import SparkContext
#配置sc
sc = SparkContext(‘local‘,‘CountAverAge‘)
#创建RDD 读入数据
RDD = sc.textFile("file:///usr/local/spark/mycode/exercise/peopleAge.txt")
#得到数据总条数
Count =RDD.count()
#对数据进行切割,只取年龄部分,然后把年龄字符串转成Int,然后用reduce函数累加
Average = RDD.map(lambda line : line.split(" ")[1]).map(lambda a: int(a)).reduce(lambda a,b :(a+b))
print(Count)
print(Average)
print("平均年龄为:{0}".format(Average / Count))
以上是关于计算人口平均年龄的主要内容,如果未能解决你的问题,请参考以下文章
[spark程序]统计人口平均年龄(HDFS文件)(详细过程)
R语言ggplot2可视化:可视化人口金字塔图人口金字塔显示不同性别不同年龄段的人口数,是了解人口组成的最优可视化方法人口金字塔图可以用来表示按体积排序的群体的分布形成漏斗结构