使用python在spark中加载pcap文件

Posted

技术标签:

【中文标题】使用python在spark中加载pcap文件【英文标题】:Loading pcap file in spark using python 【发布时间】:2018-09-12 15:28:59 【问题描述】:

我是 Spark 的新手。我有 pcap 文件。 Spark如何使用python读取该文件?如何使用 python 在 Spark 中上传 pcap 文件以及如何处理?

conf = SparkConf().setMaster("local").setAppName("SparkStreamingPcap")
sc = SparkContext(conf = conf)
sc.setLogLevel("ERROR")
spark = SparkSession(sc)
FileLog = sc.textFile("pcapFiles/ipv4frags.pcap")
df = FileLog.map(lambda line: line.split("\n"))
print("Helloo")
print (df.count())

【问题讨论】:

您是否编写了任何代码供我们查看,以便我们为您提供帮助。 我已经编辑了我的问题。我已经上传了代码sn-p 1.该文件是否存在于该位置? 2. 你的预期产出是什么,你现在得到什么?有什么错误吗? 我要处理 pcap 文件。我想获得时间戳和 Ips。我没有得到任何输出 【参考方案1】:

您也可以尝试使用dpktscapy 来解析pyspark 代码中的pcap 文件。

【讨论】:

是的:确实,您不能将 pcap 读取为文本,而是将其读取为具有自己格式的二进制文件。如果不使用现有的 API,你将不得不实现魔法处理和很多东西

以上是关于使用python在spark中加载pcap文件的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Spark Scala 作业中加载和写入属性文件?

我们可以在不创建模式的情况下在 spark 数据框中加载分隔的文本文件吗?

使用scala在sql表中加载csv文件

在 Spark 中加载非标准格式的 CSV

无法使用熊猫在 python3 中加载 csv 文件

在非 Spark 环境中加载 pyspark ML 模型