有没有更快的方法将大文件从十六进制转换为二进制,二进制转换为int?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了有没有更快的方法将大文件从十六进制转换为二进制,二进制转换为int?相关的知识,希望对你有一定的参考价值。
我有一个大的DataFrame(1999048行和1col),具有十六进制数据。我想把每一行都放在二进制文件中,将它切成碎片并以十进制格式描述每一行。
我试过这个:
for i in range (len(df.index)):
hexa_line=hex2bin(str(f1.iloc[i]))[::-1]
channel = int(hexa_line[0:3][::-1], 2)
edge = int(hexa_line[3][::-1], 2)
time = int(hexa_line[4:32][::-1], 2)
sweep = int(hexa_line[32:48][::-1], 2)
tag = int(hexa_line[48:63][::-1], 2)
datalost = int(hexa_line[63][::-1], 2)
line=np.array([[channel, edge, time, sweep, tag, datalost]])
tab=np.concatenate((tab, line), axis=0)
但真的很长......有没有更快的方法呢?
答案
我唯一可以想象的就是改变这些线条:
line=np.array([[channel, edge, time, sweep, tag, datalost]])
tab=np.concatenate((tab, line), axis=0)
肯定在熊猫,我认为在numpy concatting也是一件昂贵的事情,并且取决于两个数组的总大小(而不是像list.append)
我认为这样做是每次调用它时重写整个数组tab
。也许您可以尝试将每一行附加到列表中,然后将整个列表连接在一起。
例如更像这样的东西:
tab = []
for i in range (len(df.index)):
hexa_line=hex2bin(str(f1.iloc[i]))[::-1]
channel = int(hexa_line[0:3][::-1], 2)
edge = int(hexa_line[3][::-1], 2)
time = int(hexa_line[4:32][::-1], 2)
sweep = int(hexa_line[32:48][::-1], 2)
tag = int(hexa_line[48:63][::-1], 2)
datalost = int(hexa_line[63][::-1], 2)
line=np.array([[channel, edge, time, sweep, tag, datalost]])
tab.append(line)
final_tab = np.concatenate(tab, axis=0)
# or whatever the syntax is :p
以上是关于有没有更快的方法将大文件从十六进制转换为二进制,二进制转换为int?的主要内容,如果未能解决你的问题,请参考以下文章
使用 Protobuf-net 将大数据文件流式传输为 IEnumerable