使用两个字母python进行线性搜索

Posted

技术标签:

【中文标题】使用两个字母python进行线性搜索【英文标题】:linear searching with two letters python 【发布时间】:2021-01-10 02:17:59 【问题描述】:

我有这个程序,它应该返回(使用线性搜索)“语料库”中紧跟“最后一个”(包括重复项)的“语料库”中单个字符的所有实例的列表。字符的顺序应与它们在语料库中出现的顺序相同

例子:

    filter_possible_chars('lazy languid line', 'la')
        ['z', 'n']
        filter_possible_chars('pitter patter batton', 'tt')
        ['e', 'e', 'o']
filter_possible_chars('pitter pattor batt', 'tt')
    ['e', 'o']

但是我的程序在第二个示例中遇到了问题,在单词 batt 中的第三个 tt 之后,它之后没有任何内容,所以它显然不应该在列表中添加任何其他内容,但是我的 IndexError 列表索引超出范围?

这是函数:

def filter_possible_chars(corpus, last):

listo = []
last_list = []
final = []

for thing in corpus:
    listo.append(thing)
for last_word in last:
    last_list.append(last_word)
    
    
for index, letter in enumerate(listo):
    
    if letter == last_list[0]:
        if listo[index+1] == last_list[1]:
            final.append(listo[index+2])  
print(final)

【问题讨论】:

【参考方案1】:

您似乎已经发现了问题;您有时会尝试访问索引超过列表最大索引的列表元素:final.append(listo[index+2]) 或此处listo[index+1]

您可以定义一个帮助方法,首先检查访问是否成功。

def get(_list, index):
    if len(_list) >= index - 1:
        return _list[index]

my_list = [1, 2, 3]
idx = get(my_list, 2) # 3
idx = get(my_list, 4) # None
if idx is not None:
  # do stuff

【讨论】:

【参考方案2】:

您遇到的问题是'tt' 在您的第三个字符串的末尾,因此在尝试查找之后的字母时,您会增加索引,但字符串已到达末尾,当尝试将索引加一,你最终会要求一个不存在的字符

首先,如果您想让它在这种情况下返回字符串的第一个字符,请使用modulus 运算符将值减小到零(如果超过):

def filter_possible_chars(corpus, last):

    listo = []
    last_list = []
    final = []

    for thing in corpus:
        listo.append(thing)
    for last_word in last:
        last_list.append(last_word)


    for index, letter in enumerate(listo):

        if letter == last_list[0]:
            if listo[(index+1)%len(corpus)] == last_list[1]:
                final.append(listo[(index+2)%len(corpus)])
    print(final)

或者,如果你希望它在这种情况下返回 None,你可以添加一个 if 语句来检测它是否在它的限制,如果是,什么都不做,然后使用 @987654324 跳到函数的末尾@

【讨论】:

我认为在这里使用模运算符是不正确的,因为虽然它确实可以防止越界错误,但它现在可能导致误报。例如"abcdefg"[10%7] 有时会给您一个可能与您的查询相匹配的字母,而实际上它永远不会匹配您的查询。您需要检测和处理越界情况,而不是掩盖它。【参考方案3】:

好吧,试试这个,它解决了索引问题:

import re

query_list = [
['lazy languid line', 'la'],
['pitter patter batton', 'tt'],
['pitter pattor batt', 'tt']
]


def search(query):
    query_string = query[0]
    query_key = query[1]
    result = []
    for match in re.finditer(query_key, query_string):
        if match.span()[-1] < len(query_string):
            result.append(query_string[match.span()[-1]])
        else:
            result.append(None)
    return result

for query in query_list:
    result = search(query)
    print (query)
    print (result)

输出:

['lazy languid line', 'la']
['z', 'n']
['pitter patter batton', 'tt']
['e', 'e', 'o']
['pitter pattor batt', 'tt']
['e', 'o', None]

【讨论】:

【参考方案4】:

它后面什么都没有,所以它显然不应该在列表中放任何东西

当代码到达倒数第二个t时,如果条件为真,它会尝试获取listo[index+2],这没什么,所以它会引发 IndexError 告诉你我不知道你想让我得到什么。当涉及到最后一个t时,它再次发生,试图获取listo[index+1]

您可以在倒数第三个字符处停止搜索:

def filter_possible_chars(corpus, last):
    result = []
    for i in range(len(corpus)-2):
        if corpus[i:i+2] == last:
            result.append(corpus[i+2])
    print(result)

【讨论】:

【参考方案5】:

您可以使用列表推导来做到这一点。

def filter_possible_chars(corpus, last):
    parts = [word.split(last) for word in corpus.split() if last in word]
    return [w[1][0] for w in parts if w[1]]

print (filter_possible_chars('lazy languid line', 'la'))
print (filter_possible_chars('pitter patter batton', 'tt'))
print (filter_possible_chars('pitter pattor batt', 'tt'))
print (filter_possible_chars('pitter pattor batt', 'it'))
print (filter_possible_chars('pitter pattor batt', 'er'))
print (filter_possible_chars('pitter pattor batt', 'ox'))

您可以将这两行组合成一个长列表理解,如下所示:

return [word.split(last)[1][0] for word in corpus.split() if last in word and word.split(last)[1]]

让我解释一下代码:

parts = [word.split(last) for word in corpus.split() if last in word]

在这里,我尝试使用

将语料库拆分为单个单词
for word in corpus.split()

之后,我正在检查last 是否在单个单词中

如果子字符串last 存在,那么我将使用last 作为子字符串再次拆分单词。这将给出两组字符串。第一部分将是last 中子字符串之前的所有字符,第二部分将是last 中子字符串之后的所有字符。

例如,lazy 将被拆分为 ['', 'zy'] 的子字符串 la。而pitter 将被拆分为['pi', 'er']tt

获得此列表后,您需要从索引 1 中选择第一个字符。

搜索la:

lazy languid line 将导致[['', 'zy'], ['', 'nguid']]

用于搜索“tt”:

pitter patter batton 将导致[['pi', 'er'], ['pa', 'er'], ['ba', 'on']]

用于搜索“tt”:

pitter pattor batt 将导致[['pi', 'er'], ['pa', 'or'], ['ba', '']]

用于搜索“er”:

pitter pattor batt 将导致[]

搜索“牛”:

pitter pattor batt 将导致[]

这告诉我们,只要索引 1 的值有一个字符串,我们就可以选择所有结果。

所以下一个列表理解语句是:

return [w[1][0] for w in parts if w[1]]

在这里,我们从parts 中提取每个块,并检查索引 1 是否包含任何字符串。如果是,则提取第0个位置并返回。

以下语句的输出是:

print (filter_possible_chars('lazy languid line', 'la'))
print (filter_possible_chars('pitter patter batton', 'tt'))
print (filter_possible_chars('pitter pattor batt', 'tt'))
print (filter_possible_chars('pitter pattor batt', 'it'))
print (filter_possible_chars('pitter pattor batt', 'er'))
print (filter_possible_chars('pitter pattor batt', 'ox'))

['z', 'n']
['e', 'e', 'o']
['e', 'o']
['t']
[]
[]

【讨论】:

以上是关于使用两个字母python进行线性搜索的主要内容,如果未能解决你的问题,请参考以下文章

如何线性搜索和比较两个 .text 文件以查看它们之间缺少啥?

如何在 C++ 中线性搜索两个数组?

使用迭代器位置的线性和二进制搜索

如果已排序,则使用二进制搜索,否则使用线性搜索

使用 Python 识别两个单词是不是包含相同的字母

Firebase - 为啥不搜索在我的应用中工作的用户? (当用户输入两个字母时更新搜索控制器)