使用python在spark中加载pcap文件
Posted
技术标签:
【中文标题】使用python在spark中加载pcap文件【英文标题】:Loading pcap file in spark using python 【发布时间】:2018-09-12 15:28:59 【问题描述】:我是 Spark 的新手。我有 pcap 文件。 Spark如何使用python读取该文件?如何使用 python 在 Spark 中上传 pcap 文件以及如何处理?
conf = SparkConf().setMaster("local").setAppName("SparkStreamingPcap")
sc = SparkContext(conf = conf)
sc.setLogLevel("ERROR")
spark = SparkSession(sc)
FileLog = sc.textFile("pcapFiles/ipv4frags.pcap")
df = FileLog.map(lambda line: line.split("\n"))
print("Helloo")
print (df.count())
【问题讨论】:
您是否编写了任何代码供我们查看,以便我们为您提供帮助。 我已经编辑了我的问题。我已经上传了代码sn-p 1.该文件是否存在于该位置? 2. 你的预期产出是什么,你现在得到什么?有什么错误吗? 我要处理 pcap 文件。我想获得时间戳和 Ips。我没有得到任何输出 【参考方案1】:您也可以尝试使用dpkt
或scapy
来解析pyspark 代码中的pcap 文件。
【讨论】:
是的:确实,您不能将 pcap 读取为文本,而是将其读取为具有自己格式的二进制文件。如果不使用现有的 API,你将不得不实现魔法处理和很多东西以上是关于使用python在spark中加载pcap文件的主要内容,如果未能解决你的问题,请参考以下文章