在 Python 中查找输入字符串到元组列表的所有可能匹配项(以任何顺序/顺序)
Posted
技术标签:
【中文标题】在 Python 中查找输入字符串到元组列表的所有可能匹配项(以任何顺序/顺序)【英文标题】:Find all possible matches (in any order/sequence) of an input string to a list of tuples in Python 【发布时间】:2020-12-03 13:32:17 【问题描述】:我想将输入字符串与元组列表进行匹配,并从元组列表中找出前 N 个最接近的匹配项。元组列表有大约 2000 个项目。我面临的问题是我使用了fuzzywuzzy process.extract method
,但它返回了大量具有相同置信度分数的元组。比赛质量也不好。我想做的是根据我的输入获取所有匹配项(顺序不重要)
Example:
input string: 'fruit apple'
List of tuples = [('apple fruit', 91), ('the fruit is an apple', 34), ('banana apple', 78), ('guava tree', 11), ('delicious apple', 88)]
从这里我想从字符串列表中查找所有字符串,其中包含任意顺序的单词“fruit apple”。
Expected output:
[('apple fruit', 91), ('the fruit is an apple', 34)]
我知道fuzzywuzzy,它是1行代码,但问题是当要检查的元组列表的大小非常大时,fuzzywuzzy会为不相关的项目分配相同的置信度分数。
目前尝试的附加代码供参考:
def preprocessing(fruit):
stop_words = stopwords.words('english')
fruit_string = re.sub(r'[a-z][/][a-z][/]*[a-z]0,1', '', fruit_string)
fruit_string = re.sub(r'[^A-Za-z0-9\s]+', '', fruit_string)
return ' '.join(each_word for each_word in fruit_string.split() if each_word not in stop_words and len(each_word) > 2)
#All possible fruit combination list
nrows=[]
with open("D:/fruits.csv", 'r') as csvfile:
csvreader = csv.reader(csvfile)
fields = next(csvreader)
for row in csvreader:
nrows.append(row)
flat_list = [item for items in nrows for item in items]
def get_matching_fruits(input_raw_text):
preprocessed_synonym = preprocessing(input_raw_text)
text = nltk.word_tokenize(preprocessed_synonym)
pos_tagged = nltk.pos_tag(text)
nn = filter(lambda x:x[1]=='NN',pos_tagged)
list_nn = list(nn)
nnp = filter(lambda x:x[1]=='NNP',pos_tagged)
list_nnp = list(nnp)
nns = filter(lambda x:x[1]=='NNS',pos_tagged)
list_nns = list(nns)
comb_nouns = list_nn + list_nnp + list_nns
input_nouns = [i[0] for i in comb_nouns]
input_nouns= ' '.join(input_nouns)
ratios = process.extract(input_nouns, flat_list, limit=1000)
result = []
for i in ratios:
if input_nouns in i[0]:
result.append(i)
return result
get_matching_fruits('blue shaped pear was found today')
因此,在我的代码中,我想让result list
包含所有可能的匹配项,给定任何有问题的输入。对此的任何帮助都将受到高度欢迎。
【问题讨论】:
由于你的函数def get_matching_fruits(input_raw_text, n)
有两个参数,非可选的,当调用只提供一个参数get_matching_fruits('blue shaped pear was found today')
时,这段代码怎么可能工作。请发布一个有效的minimal reproducible example。
你现在工作的代码会产生什么输出?
所以,如果我从 get_matching_fruits
函数返回比率,我将得到一个巨大的元组列表,但它们没有按我想要的格式排序。我创建的结果列表与我提出的问题相同,但它不起作用并且仅提供按顺序匹配的匹配项。即如果输入是“水果苹果”,则只有那些字符串会被匹配,而不是具有“苹果水果”等的字符串
【参考方案1】:
对我来说最简单的解决方案就是这个。
foo = 'fruit apple'
bar = [('apple fruit', 91),
('the fruit is an apple', 34),
('banana apple', 78),
('guava tree', 11),
('delicious apple', 88)]
matches = []
for entry in bar:
for word in foo.split():
# break if we meet a point where the word isn't found
if word not in entry[0]:
break
# the else is met if we didn't break from the for loop
else:
matches.append(entry)
print(matches)
【讨论】:
【参考方案2】:对不起,如果我有点理解这个问题,但是为什么你甚至需要一个 NLTK 库来做到这一点.. 这是一个简单的列表理解问题
In [1]: tup = [('apple fruit', 91), ('the fruit is an apple', 34), ('banana apple', 78), ('guava tree', 11), ('delicious apple', 88)]
In [2]: input_string = 'fruit apple'
In [3]: input_string_set = set(input_string.split(' '))
In [4]: input_string_set
Out[4]: 'apple', 'fruit'
In [10]: [t for t in tup if input_string_set.issubset(set(t[0].split(' ')))]
Out[10]: [('apple fruit', 91), ('the fruit is an apple', 34)]
In [11]:
【讨论】:
以上是关于在 Python 中查找输入字符串到元组列表的所有可能匹配项(以任何顺序/顺序)的主要内容,如果未能解决你的问题,请参考以下文章