太空采样中的大数据处理是啥
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了太空采样中的大数据处理是啥相关的知识,希望对你有一定的参考价值。
大部分大数据集由一个重要的元数据进行定义,但这些大数据集亦给当前及未来的数据管理实践带来严峻挑战。一般来讲,NASA 方面的主要任务在于从太空中的航天器处持续获取信息,而且其生成速度要远高于当前的数据管理、存储与分析速度。NASA 主要拥有两种航天器类型,其一为深空飞船,其二则为近地轨道卫星。深空飞船的作用在于以每秒 MB 量级向地球发回数据,而近地卫星尽管在运转机制上与深空飞船类似,但传输的数据量却为每秒 GB 级别。NASA 利用激光等通信技术将大规模数据的下载能力加速至上千倍。但就目前而言,NASA 无法处理这么多数据,而其显然有必要为此做好准备。事实上,当下 NASA 设定的目标为在一天之内处理 24 TB 数据。如果我们将其整体数据量视为单一任务,那么其单日数据处理量将达到国会图书馆的 2.4 倍。NASA 专注于从大量数据当中收集最为重要的信息,而非存储全部数据——这是因为从航天器处将数据转移至 NASA 数据中心将带来极为高昂的成本。而在数据中心内数据量的积累过程中,NASA 亦面临着对这批数据进行存储、管理、可视化以及分析的一系列后续任务。为了对 NASA 需要处理的任务规模拥有初步了解,我们这里分享一项实例:截至 2030 年底,全球气候变化数据库的规模预计会增加至 230 PB。更确切地进行比对,美国一年之内邮政服务所发送的全部信件总数据量仅相当于 5 PB。
除了航天器之外,NASA 还需要处理来自在线平台、低成本传感器以及移动设备的数据。2012 年 10 月,《哈弗商业评论》杂志发表的一篇文章将这项任务描述为“我们每个人都相当于一台会走动的数据生成器”。与其它众多机构一样,NASA 的大数据挑战似乎同样极难得到解决。 参考技术A 太空采样中的大数据处理系统也叫航天测量数据处理系统,是对航天器、运载火箭和导弹的测量数据进行预处理、计算、分析、显示和记录的系统。
大数据处理流程包括:数据采集、数据预处理、数据入库、数据分析、数据展现。
大数据中的Spark指的是啥?
Spark是一种通用的大数据计算框架,和传统的大数据技术MapReduce有本质区别。前者是基于内存并行计算的框架,而mapreduce侧重磁盘计算。Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架,用于构建大型的、低延迟的数据分析应用程序。Spark同样支持离线计算和实时计算两种模式。Spark离线计算速度要比Mapreduce快10-100倍。而实时计算方面,则依赖于SparkStreaming的批处理能力,吞吐量大。不过相比Storm,SparkStreaming并不能做到真正的实时。
Spark使用强大的函数式语言Scala开发,方便简单。同时,它还提供了对Python、Java和R语言的支持。
作为大数据计算框架MapReduce的继任者,Spark具备以下优势特性。
1,高效性
不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapReduce 快100倍。
2,易用性
不同于MapReduce仅支持Map和Reduce两种编程算子,Spark提供了超过80种不同的Transformation和Action算子,如map,reduce,filter,groupByKey,sortByKey,foreach等,并且采用函数式编程风格,实现相同的功能需要的代码量极大缩小。
3,通用性
Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。
4,兼容性
Spark能够跟很多开源工程兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,并且Spark可以读取多种数据源,如HDFS、HBase、MySQL等。 参考技术A 谢谢邀请!
spark最初是由伯克利大学的amplab于2009年提交的一个项目,现在已经是Apache软件基金会最活跃的项目,对于spark,apache给出的官方定义是:spark是一个快速和通用的大数据处理引擎。可以理解为一个分布式大数据处理框架,spark是基于Rdd(弹性分布式数据集),立足于内存计算,在“one stack to rule them all” 的思想引导下 ,打造了一个可以流式处理(spark streaming),机器学习(mllib),实时查询(spark sql),图计算(graphx)等各种大数据处理,无缝连接的一栈式计算平台,由于spark在性能和扩展上快速,易用,通用的特点,使之成为一个一体化,多元化的大数据计算平台。
spark的一栈式优势
1 快速处理,比hadoop快100倍,因为spark是基于内存计算,而hadoop是基于磁盘计算
2易用性,spark支持多种语言
3 通用性强,可以流式处理,及时查询,图计算,机器学习
4 可以和hadoop数据集成,运行在yarn上,统一进行资源管理调度
5 活跃和壮大的社区
以上是关于spark的简单定义,希望我的回答可以采纳,谢谢 参考技术B 以计算PI为例子
进入spark的安装目录
单机local模式提交任务
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples*.jar
yarn-client模式执行计算程序
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client examples/jars/spark-examples*.jar
Standalone模式计算
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://masterIp:7077 examples/jars/spark-examples*.jar
转载于:https://my.oschina.net/u/3264690/blog/1528169 参考技术C Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是--Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。
以上是关于太空采样中的大数据处理是啥的主要内容,如果未能解决你的问题,请参考以下文章