太空采样中的大数据处理是啥

Posted 2023-03-30

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了太空采样中的大数据处理是啥相关的知识，希望对你有一定的参考价值。

大部分大数据集由一个重要的元数据进行定义，但这些大数据集亦给当前及未来的数据管理实践带来严峻挑战。一般来讲，NASA 方面的主要任务在于从太空中的航天器处持续获取信息，而且其生成速度要远高于当前的数据管理、存储与分析速度。NASA 主要拥有两种航天器类型，其一为深空飞船，其二则为近地轨道卫星。深空飞船的作用在于以每秒 MB 量级向地球发回数据，而近地卫星尽管在运转机制上与深空飞船类似，但传输的数据量却为每秒 GB 级别。NASA 利用激光等通信技术将大规模数据的下载能力加速至上千倍。但就目前而言，NASA 无法处理这么多数据，而其显然有必要为此做好准备。事实上，当下 NASA 设定的目标为在一天之内处理 24 TB 数据。如果我们将其整体数据量视为单一任务，那么其单日数据处理量将达到国会图书馆的 2.4 倍。

NASA 专注于从大量数据当中收集最为重要的信息，而非存储全部数据——这是因为从航天器处将数据转移至 NASA 数据中心将带来极为高昂的成本。而在数据中心内数据量的积累过程中，NASA 亦面临着对这批数据进行存储、管理、可视化以及分析的一系列后续任务。为了对 NASA 需要处理的任务规模拥有初步了解，我们这里分享一项实例：截至 2030 年底，全球气候变化数据库的规模预计会增加至 230 PB。更确切地进行比对，美国一年之内邮政服务所发送的全部信件总数据量仅相当于 5 PB。

除了航天器之外，NASA 还需要处理来自在线平台、低成本传感器以及移动设备的数据。2012 年 10 月，《哈弗商业评论》杂志发表的一篇文章将这项任务描述为“我们每个人都相当于一台会走动的数据生成器”。与其它众多机构一样，NASA 的大数据挑战似乎同样极难得到解决。参考技术A 太空采样中的大数据处理系统也叫航天测量数据处理系统，是对航天器、运载火箭和导弹的测量数据进行预处理、计算、分析、显示和记录的系统。
大数据处理流程包括:数据采集、数据预处理、数据入库、数据分析、数据展现。

大数据中的Spark指的是啥？

Spark是一种通用的大数据计算框架，和传统的大数据技术MapReduce有本质区别。前者是基于内存并行计算的框架，而mapreduce侧重磁盘计算。Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用于构建大型的、低延迟的数据分析应用程序。
Spark同样支持离线计算和实时计算两种模式。Spark离线计算速度要比Mapreduce快10-100倍。而实时计算方面，则依赖于SparkStreaming的批处理能力，吞吐量大。不过相比Storm，SparkStreaming并不能做到真正的实时。
Spark使用强大的函数式语言Scala开发，方便简单。同时，它还提供了对Python、Java和R语言的支持。
作为大数据计算框架MapReduce的继任者，Spark具备以下优势特性。
1，高效性
不同于MapReduce将中间计算结果放入磁盘中，Spark采用内存存储中间计算结果，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的依赖，降低了延迟等待时间。内存计算下，Spark 比 MapReduce 快100倍。
2，易用性
不同于MapReduce仅支持Map和Reduce两种编程算子，Spark提供了超过80种不同的Transformation和Action算子，如map,reduce,filter,groupByKey,sortByKey,foreach等，并且采用函数式编程风格，实现相同的功能需要的代码量极大缩小。
3，通用性
Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。
4，兼容性
Spark能够跟很多开源工程兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且Spark可以读取多种数据源，如HDFS、HBase、MySQL等。参考技术A 谢谢邀请！
spark最初是由伯克利大学的amplab于2009年提交的一个项目，现在已经是Apache软件基金会最活跃的项目，对于spark,apache给出的官方定义是：spark是一个快速和通用的大数据处理引擎。可以理解为一个分布式大数据处理框架，spark是基于Rdd(弹性分布式数据集)，立足于内存计算，在“one stack to rule them all” 的思想引导下，打造了一个可以流式处理（spark streaming）,机器学习（mllib）,实时查询（spark sql）,图计算（graphx）等各种大数据处理，无缝连接的一栈式计算平台，由于spark在性能和扩展上快速，易用，通用的特点，使之成为一个一体化，多元化的大数据计算平台。
spark的一栈式优势
1 快速处理，比hadoop快100倍，因为spark是基于内存计算，而hadoop是基于磁盘计算
2易用性，spark支持多种语言
3 通用性强，可以流式处理，及时查询，图计算，机器学习
4 可以和hadoop数据集成，运行在yarn上，统一进行资源管理调度
5 活跃和壮大的社区
以上是关于spark的简单定义，希望我的回答可以采纳，谢谢参考技术B 以计算PI为例子
进入spark的安装目录
单机local模式提交任务
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples*.jar
yarn-client模式执行计算程序
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client examples/jars/spark-examples*.jar
Standalone模式计算
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://masterIp:7077 examples/jars/spark-examples*.jar
转载于:https://my.oschina.net/u/3264690/blog/1528169 参考技术C Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是--Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

以上是关于太空采样中的大数据处理是啥的主要内容，如果未能解决你的问题，请参考以下文章

从 MySQL 中的大表中删除重复项的最快过程是啥

对于大型数据库，从 Impala 采样的最佳查询是啥？

听说高通平台处理器有先天的音频采样率缺陷，是啥

matlab仿真中在哪里设置采样频率？设置采样频率的目的是啥？

Visual Studio 中的大括号逗号语法是啥？

宇航员进入太空时会背着一个大背包，背包里装的是啥？