我的大数据框架设置是不是完整,还是我错过了一些重要的东西?

Posted

技术标签:

【中文标题】我的大数据框架设置是不是完整,还是我错过了一些重要的东西?【英文标题】:Is my big data framework setup complete or have I missed something crucial?我的大数据框架设置是否完整,还是我错过了一些重要的东西? 【发布时间】:2019-10-13 09:29:09 【问题描述】:

我下载了 20 个不同市场的 20,000 多种全球证券的日终股票价格。然后我在这些证券上运行我的 20,000 个自营交易设置,以获得盈利的交易设置。这个过程很简单,但是这个过程需要云计算的力量来自动化,因为它不可能在桌面上运行。

我是作为一个完整的初学者来解决这个问题的,所以请原谅我缺乏技术理解。

    我将价格从单一来源下载到我的计算机上,并保存到 Microsoft Excel 文件中。 我是否使用 Apache Arrow 将 excel 文件传输到 Apache Parquet?我正在考虑 Parquet,因为它是一种列式存储解决方案,非常适合历史股价文件格式。 为了运行我的 20,000 个自营交易设置,我将使用 Apache Spark 在我选择的云环境中读取 parquet 文件。 这将每天产生高概率的交易结果,并将其上传到我的基于网络的平台。

我目前研究的一个非常简化的设置。提前感谢您的帮助。

亲切的问候 列维

【问题讨论】:

【参考方案1】:

很抱歉,您没有大数据设置。

您正在做的只是使用一台计算机将 excel 文件转换为镶木地板。如果您能够在合理的时间内读取数据并在磁盘上再次写入,那么您似乎没有“大数据”。

你应该做的是:

    使用Apache NiFi 之类的方式将数据导入数据湖 使用 spark 从 datalake 读取数据。 excel文件见How to construct Dataframe from a Excel (xls,xlsx) file in Scala Spark?

【讨论】:

没关系。谢谢你的建议。 什么特定的数据量被认为是大数据? 没有神奇的数字。大数据使您有可能以分布式方式威胁数据,但增加了算法的复杂性。很多时候,只要做正确的事情,您就可以只使用一台机器。

以上是关于我的大数据框架设置是不是完整,还是我错过了一些重要的东西?的主要内容,如果未能解决你的问题,请参考以下文章

金蝶eas crm 无法完整打开

一个完整的大作业

想学习大数据?这才是完整的大数据学习体系

VS2019 中 nmake 的位置不是通用的。还是我错过了啥?

实践总结 - 不可错过的Angular应用技巧

程序员转行大数据开发的重要筹码之一,掌握后最少能获得月薪20K