如何解码经过编码的 torrent 数据

Posted

技术标签:

【中文标题】如何解码经过编码的 torrent 数据【英文标题】:How to decode bencoded torrent data 【发布时间】:2015-05-25 13:01:04 【问题描述】:

我正在尝试从 torrent 文件中提取大小和名称,并使用 bencode 解码 torrent 文件的内容。

我做了pip install bencode 然后我用你可以看到的种子文件中的一行进行了测试。

import bencode

blabla = 'd8:announce70:http://tracker.t411.io:56969/c5faa6720249d33ff6ba2af48640af89/announce7:comment29:https://www.t411.io/t/524280210:created by19:https://www.t411.io13:creation datei1431685353e4:infod6:lengthi14634059e4:name22:Charlie-Hebdo-1178.pdf12:piece lengthi262144e6:pieces1120:'
myprint = bencode.decode_string(blabla,1)
print myprint

这是 pip install 放在 python 库中的文件:

from BTL import BTFailure


def decode_int(x, f):
    f += 1
    newf = x.index('e', f)
    n = int(x[f:newf])
    if x[f] == '-':
        if x[f + 1] == '0':
            raise ValueError
    elif x[f] == '0' and newf != f+1:
        raise ValueError
    return (n, newf+1)

def decode_string(x, f):
    colon = x.index(':', f)
    n = int(x[f:colon])
    if x[f] == '0' and colon != f+1:
        raise ValueError
    colon += 1
    return (x[colon:colon+n], colon+n)

def decode_list(x, f):
    r, f = [], f+1
    while x[f] != 'e':
        v, f = decode_func[x[f]](x, f)
        r.append(v)
    return (r, f + 1)

def decode_dict(x, f):
    r, f = , f+1
    while x[f] != 'e':
        k, f = decode_string(x, f)
        r[k], f = decode_func[x[f]](x, f)
    return (r, f + 1)

decode_func = 
decode_func['l'] = decode_list
decode_func['d'] = decode_dict
decode_func['i'] = decode_int
decode_func['0'] = decode_string
decode_func['1'] = decode_string
decode_func['2'] = decode_string
decode_func['3'] = decode_string
decode_func['4'] = decode_string
decode_func['5'] = decode_string
decode_func['6'] = decode_string
decode_func['7'] = decode_string
decode_func['8'] = decode_string
decode_func['9'] = decode_string

def bdecode(x):
    try:
        r, l = decode_func[x[0]](x, 0)
    except (IndexError, KeyError, ValueError):
        raise BTFailure("not a valid bencoded string")
    if l != len(x):
        raise BTFailure("invalid bencoded value (data after valid prefix)")
    return r

from types import StringType, IntType, LongType, DictType, ListType, TupleType


class Bencached(object):

    __slots__ = ['bencoded']

    def __init__(self, s):
        self.bencoded = s

def encode_bencached(x,r):
    r.append(x.bencoded)

def encode_int(x, r):
    r.extend(('i', str(x), 'e'))

def encode_bool(x, r):
    if x:
        encode_int(1, r)
    else:
        encode_int(0, r)

def encode_string(x, r):
    r.extend((str(len(x)), ':', x))

def encode_list(x, r):
    r.append('l')
    for i in x:
        encode_func[type(i)](i, r)
    r.append('e')

def encode_dict(x,r):
    r.append('d')
    ilist = x.items()
    ilist.sort()
    for k, v in ilist:
        r.extend((str(len(k)), ':', k))
        encode_func[type(v)](v, r)
    r.append('e')

encode_func = 
encode_func[Bencached] = encode_bencached
encode_func[IntType] = encode_int
encode_func[LongType] = encode_int
encode_func[StringType] = encode_string
encode_func[ListType] = encode_list
encode_func[TupleType] = encode_list
encode_func[DictType] = encode_dict

try:
    from types import BooleanType
    encode_func[BooleanType] = encode_bool
except ImportError:
    pass

def bencode(x):
    r = []
    encode_func[type(x)](x, r)
    return ''.join(r)

事实是我真的不明白如何用这个 bencode 解码我的线路。

我已经尝试过 def bdecode 但这是输出:

root@debian:/home/florian/Téléchargements# python decript.py 
Traceback (most recent call last):
  File "decript.py", line 4, in <module>
    myprint = bencode.bdecode(blabla)
  File "/usr/local/lib/python2.7/dist-packages/bencode/__init__.py", line 68, in bdecode
    raise BTFailure("not a valid bencoded string")
bencode.BTL.BTFailure: not a valid bencoded string

所以我尝试使用 def decode_string 但使用 decode_string(blabla, 1) 它只解码第一个单词:

root@debian:/home/florian/Téléchargements# python decript.py 
('announce', 11)

并且像 2、3、4 这样的数字不起作用并显示如下错误:

root@debian:/home/florian/Téléchargements# python decript.py 
Traceback (most recent call last):
  File "decript.py", line 4, in <module>
    myprint = bencode.decode_string(blabla,10)
  File "/usr/local/lib/python2.7/dist-packages/bencode/__init__.py", line 29, in decode_string
    n = int(x[f:colon])
ValueError: invalid literal for int() with base 10: 'e70'

我想解码所有行,但我不明白如何使用这个 bencode 来完成。

【问题讨论】:

【参考方案1】:

您尝试解码的字符串似乎被截断了。它以pieces1120: 结尾,表示后面至少应该有1120 个字节。

BEncoding 是一种二进制格式。它只是部分人类可读的,并不意味着嵌入到对字符集敏感的东西中,比如源代码文件。我建议你直接从文件中读取。

【讨论】:

你的意思是我不应该从 gedit 中的文件中取一行,而是用我的脚本中的命令直接读取它吗? 你不应该解码“一行”,你应该一次解码整个文件。 bencoding 不是基于行的。是的,在你的脚本中使用 file-IO。【参考方案2】:

您有一个不完整的 Bencoded 字符串。

第一部分告诉你有一本字典:

d...

它应该被解析直到有一个e 字符。您的输入字符串中没有这样的字符。

手动解析显示您有键 announcecommentcreated bycreation dateinfo,其中后者是带有 lengthname、@987654331 的嵌套字典@ 和 pieces。然后你的字符串 stops; pieces 没有值,也没有 e 来标记外部字典或嵌套 info 字典的结尾。我们只有类型和长度指示符:1120

您可以尝试直接使用解码函数,但要考虑它们返回的值和偏移量

>>> bencode.decode_string(blabla, 1)
('announce', 11)

11 是下一个值的偏移量:

>>> bencode.decode_string(blabla, 11)
('http://tracker.t411.io:56969/c5faa6720249d33ff6ba2af48640af89/announce', 84)

84 又是下一个:

>>> bencode.decode_string(blabla, 84)
('comment', 93)

如果您考虑到字符串不完整并且并非所有编码对象都是字符串,那么您仍然可以解码那里的少量内容。

偏移量还告诉你使用什么函数进行解码:

>>> blabla[1]
'8'
>>> bencode.decode_func[blabla[1]]
<function decode_string at 0x1004632a8>

这里的数字说明了预期的字符数。所以跳过你得到的失败的d字典映射:

>>> offset = 1
>>> while True:
...     value, offset = bencode.decode_func[blabla[offset]](blabla, offset)
...     print value
... 
announce
http://tracker.t411.io:56969/c5faa6720249d33ff6ba2af48640af89/announce
comment
https://www.t411.io/t/5242802
created by
https://www.t411.io
creation date
1431685353
info
Traceback (most recent call last):
  File "<stdin>", line 2, in <module>
  File "/Users/mj/Development/venvs/***-2.7/lib/python2.7/site-packages/bencode/__init__.py", line 44, in decode_dict
    while x[f] != 'e':
IndexError: string index out of range

失败是因为您在没有e 的情况下点击了嵌套字典。您也可以通过在最后一个偏移量上添加一个来提取这些键:

>>> offset
194
>>> blabla[offset]
'd'
>>> offset += 1
>>> while True:
...     value, offset = bencode.decode_func[blabla[offset]](blabla, offset)
...     print value
... 
length
14634059
name
Charlie-Hebdo-1178.pdf
piece length
262144
pieces

Traceback (most recent call last):
  File "<stdin>", line 2, in <module>
IndexError: string index out of range

或者您可以将数据读取为二进制数据而不截断它:

with open(torrentfilename, 'rb') as torrentfile:
    torrent = bencode.bdecode(torrentfile.read())
# now you have a dictionary.

【讨论】:

我想我终于明白了,非常感谢你非常好的回答。快速我只想提取每个.torrent 文件的名称和大小,然后是之后的哈希,但偏移量永远不会相同,所以我必须检测脚本中的“名称”和“长度”我猜。为什么脚本以 e 停止?因为如果想阅读所有信息......(对不起我的python级别)@MartijnPieters @Bouh10:正确读取文件要容易得多。 bencode format 使用de 来标记字典的开始和结束(它也使用e 来标记整数和列表的结束);代码解析文件,直到下一个偏移量指向字符序列中的e @Bouh10:一个正确编码的torrent文件将被解析为一个;其中的每个字典、列表或整数都会有一个e 标记该特定编码对象的结尾。所以你可以有d...d..e...e,它对包含另一个字典的字典进行编码。 @Bouh10:我已经回答过了。读取文件,将内容传递给bdecode()torrent 是生成的字典。 torrent['info']['name'] 给你名字,torrent['info']['length'] 种子大小等等。 @Bouh10:另见this description of the contents。

以上是关于如何解码经过编码的 torrent 数据的主要内容,如果未能解决你的问题,请参考以下文章

解码 Torrent 跟踪器抓取的 Torrent Hash?

使用 urllib2 下载 torrent 文件

Swift Decodable - 如何解码经过 base64 编码的嵌套 JSON

最后一段 torrent 是不是对应最后一个文件的最后一段?

如何编码以便在我的网站上播放 torrent 播放视频

从经过训练的自动编码器中提取编码器和解码器