获取嵌套字典与列表的组合数

Posted

技术标签:

【中文标题】获取嵌套字典与列表的组合数【英文标题】:Get number of combinations of nested dictionary with lists 【发布时间】:2021-01-13 13:49:52 【问题描述】:

我有一个嵌套字典列表,里面有列表,我想通过所有字典计算所有可能组合的数量。

输入示例

json = 
[
  
    "lang": "fr",
    "dates": ["d1", "d2"],
    "address": [
          
            "city": "Paris",
            "zip": "75001"
          ,
          
            "city": "Lyon",
            "zip": "69600"
          
          ]
  ,
   
    "lang": "fr",
    "dates": ["d2", "d3"],
    "address": [
          
            "city": "Paris",
            "zip": "75001"
          
          ]
  
]

预期的输出是:


 'address.city_dates': "Paris_d1": 1, "Paris_d2": 2 ,"Paris_d3": 1, "Lyon_d1": 1, "Lyon_d2": 1,
 'address.city_lang': "Paris_fr": 2, "Lyon_fr": 1,
 'address.city_address.zip': "Lyon_69600": 1, "Paris_75001": 2,
 'address.zip_dates': "75001_d1": 1, "75001_d2": 2 ,"75001_d3": 1, "69600_d1": 1, "69600_d2": 1,
 'address.zip_lang': "75001_fr": 2, "69600_fr": 1, 
 'dates_lang': "d1_fr": 1, "d2_fr": ,"d3_fr": 1


注意:在我的例子中,关系是可以互换的:X_Y 类似于​​ Y_X

尝试: 我尝试了以下将被递归调用的函数,但我不知道如何处理列表并在所有级别上查找组合。


def get_combs(element, contextKey, relations):
    if type(element) is list:
        # for each element of the list, treat element
        for tokenElement in element:
            get_combs(tokenElement, contextKey, relations)
    elif type(element) is dict:
        keys = list(element.keys())
        keys.sort()
        for first_key in keys:
            # remove current first key to avoid X_Y and Y_X being different
            keys.remove(first_key)
            keys.sort()
            for second_key in keys:
                key = first_key + "_" + second_key
                value_key = str(element[first_key]) + "_" + str(element[second_key])
                if not key in relations:
                    relations[key] = value_key: 1
                else:
                    if not value_key in relations[key]:
                        relations[key][value_key] = 1
                    else:
                        relations[key][value_key] += 1
            # recall function to deal wit elements inside the dict
            get_combs(element[first_key], first_key, relations)

def main(json):
    relations = 
    # loop over all the elements inside json
    for element in json:
        get_combs(element, 'root', relations)
    return relations

pippo = main(json)


print(pippo)


输出:

'address_dates': "['city': 'Paris', 'zip': '75001', 'city': 'Lyon', 'zip': '69600']_['d1', 'd2']": 1,
                   "['city': 'Paris', 'zip': '75001']_['d2', 'd3']": 1,
 'address_lang': "['city': 'Paris', 'zip': '75001', 'city': 'Lyon', 'zip': '69600']_fr": 1,
                  "['city': 'Paris', 'zip': '75001']_fr": 1,
 'city_zip': "Lyon_69600": 1, "Paris_75001": 2,
 'lang_dates': "fr_['d1', 'd2']": 1, "fr_['d2', 'd3']": 1

【问题讨论】:

你尝试过什么,你在哪里卡住了? 我刚刚用我尝试过的内容编辑了帖子 你的例子和你的预期结果不匹配,给一个更好的,我可以帮忙,但是看到你的 json 例子你有 Paris_d1,Paris_d2,Paris_d3 和 Paris_d4,Lyon_d1 和 Lyon_d2 都显示只有1个;您的预期结果不同:"Paris_d1": 1, "Paris_d2": 2 ,"Paris_d3": 1, "Lyon_d1": 1, "Lyon_d2": 1。请举例说明您的正确预期结果是什么 很抱歉复制粘贴不一致。我编辑了数据 您的输出中是否需要 lang_dates_zip ?你的 recurvive 函数对我来说真的很难,但仍然不明白你的问题/期望的输出:'想要通过所有 dicts 计算所有可能组合的数量。一开始 【参考方案1】:

您可以递归地展平结构,然后按形成的键进行分组。从那里,可以应用基本组合:

from collections import defaultdict, Counter
import itertools as it
json = ['lang': 'fr', 'dates': ['d1', 'd2'], 'address': ['city': 'Paris', 'zip': '75001', 'city': 'Lyon', 'zip': '69600'], 'lang': 'fr', 'dates': ['d2', 'd3'], 'address': ['city': 'Paris', 'zip': '75001']]
def get_keys(d, c = [], j = None):
  if not isinstance(d, (dict, list)):
     yield ('.'.join(c), d, j)
  elif isinstance(d, list):
     yield from [i for j, b in enumerate(d) for i in get_keys(b, c = c, j = j if isinstance(b, dict) else None)]
  else:
     for a, b in d.items():
        yield from get_keys(b, c = c+[a], j = j)
      
def get_combos(data):   
  d = defaultdict(list)
  for a, *b in get_keys(data):
     d[a].append(b)
  return f'b_a':Counter([f'y_x' for [x, l1], [y, l2] in it.product(d[a], d[b]) if type(l1) != type(l2) or l1 == l2]) for a, b in it.combinations(d, 2)

new_d = 
for i in json:
   for a, b in get_combos(i).items():
     for c, d in b.items():
        new_d[a] = **(l:=new_d.get(a, )), c:d if c not in l else l[c]+d 

输出:

'dates_lang': 'd1_fr': 1, 'd2_fr': 2, 'd3_fr': 1, 'address.city_lang': 'Paris_fr': 2, 'Lyon_fr': 1, 'address.zip_lang': '75001_fr': 2, '69600_fr': 1, 'address.city_dates': 'Paris_d1': 1, 'Lyon_d1': 1, 'Paris_d2': 2, 'Lyon_d2': 1, 'Paris_d3': 1, 'address.zip_dates': '75001_d1': 1, '69600_d1': 1, '75001_d2': 2, '69600_d2': 1, '75001_d3': 1, 'address.zip_address.city': '75001_Paris': 2, '69600_Lyon': 1

编辑:要打印扁平结构,首先存储 get_keys 调用:

def get_combos(data):   
  d = defaultdict(list)
  t_result = list(get_keys(data))
  print(t_result) #displaying flattened input dict
  for a, *b in t_result:
     d[a].append(b)
  return f'b_a':Counter([f'y_x' for [x, l1], [y, l2] in it.product(d[a], d[b]) if type(l1) != type(l2) or l1 == l2]) for a, b in it.combinations(d, 2)

【讨论】:

抱歉打扰我是一个新手,你有一个易于理解的“扁平结构”的定义/解释,或者指出我可以在你的代码中打印扁平结构的位置。谢谢? 您的回答有效 谢谢!但是,您能否为变量提供重要的名称? (a, b, c..) 很难理解你的算法

以上是关于获取嵌套字典与列表的组合数的主要内容,如果未能解决你的问题,请参考以下文章

Django模板:如何通过每个字典的嵌套属性重新组合字典列表?

超难的c语言组合问题

组合数据类型,英文词频统计 python

如何将两个数组合并到字典中?

作业8-组合数据类型练习,英文词频统计实例上

在 Swift 中将两个数组合并为一个字典