我的大数据框架设置是不是完整,还是我错过了一些重要的东西?
Posted
技术标签:
【中文标题】我的大数据框架设置是不是完整,还是我错过了一些重要的东西?【英文标题】:Is my big data framework setup complete or have I missed something crucial?我的大数据框架设置是否完整,还是我错过了一些重要的东西? 【发布时间】:2019-10-13 09:29:09 【问题描述】:我下载了 20 个不同市场的 20,000 多种全球证券的日终股票价格。然后我在这些证券上运行我的 20,000 个自营交易设置,以获得盈利的交易设置。这个过程很简单,但是这个过程需要云计算的力量来自动化,因为它不可能在桌面上运行。
我是作为一个完整的初学者来解决这个问题的,所以请原谅我缺乏技术理解。
-
我将价格从单一来源下载到我的计算机上,并保存到 Microsoft Excel 文件中。
我是否使用 Apache Arrow 将 excel 文件传输到 Apache Parquet?我正在考虑 Parquet,因为它是一种列式存储解决方案,非常适合历史股价文件格式。
为了运行我的 20,000 个自营交易设置,我将使用 Apache Spark 在我选择的云环境中读取 parquet 文件。
这将每天产生高概率的交易结果,并将其上传到我的基于网络的平台。
我目前研究的一个非常简化的设置。提前感谢您的帮助。
亲切的问候 列维
【问题讨论】:
【参考方案1】:很抱歉,您没有大数据设置。
您正在做的只是使用一台计算机将 excel 文件转换为镶木地板。如果您能够在合理的时间内读取数据并在磁盘上再次写入,那么您似乎没有“大数据”。
你应该做的是:
-
使用Apache NiFi 之类的方式将数据导入数据湖
使用 spark 从 datalake 读取数据。 excel文件见How to construct Dataframe from a Excel (xls,xlsx) file in Scala Spark?
【讨论】:
没关系。谢谢你的建议。 什么特定的数据量被认为是大数据? 没有神奇的数字。大数据使您有可能以分布式方式威胁数据,但增加了算法的复杂性。很多时候,只要做正确的事情,您就可以只使用一台机器。以上是关于我的大数据框架设置是不是完整,还是我错过了一些重要的东西?的主要内容,如果未能解决你的问题,请参考以下文章