查找一行中是不是有 n 个小于某个数字的数据点



【中文标题】查找一行中是不是有 n 个小于某个数字的数据点【英文标题】:Finding if there are n data points in a row that are less than a certain number查找一行中是否有 n 个小于某个数字的数据点 【发布时间】:2021-07-15 14:46:30 【问题描述】:

我正在使用 Python 中的一个频谱,并且我已经为该频谱拟合了一条线。我想要一个代码,它可以检测到一行中光谱上是否有10个小于拟合线的数据点。有谁知道如何简单快捷地做到这一点?


count = 0
for i in range(lowerbound, upperbound):
    if spectrum[i] < fittedline[i]
        count += 1
    if count > 15:
        *do whatever*

如果我将第一个 if 语句行更改为:

if spectrum[i] < fittedline[i] & spectrum[i+1] < fittedline[i+1] & so on



num_points = int(input("How many points must be less than the fitted line? "))

count = 0
for i in range(lowerbound, upperbound):
    if spectrum[i] < fittedline[i]:
        count += 1
    else: # If the current point is NOT below the threshold, reset the count
        count = 0

    if count >= num_points:
        print(f"count consecutive points found at location i-count+1-i!")


lowerbound = 0
upperbound = 10

num_points = 5

spectrum = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
fittedline = [1, 2, 10, 10, 10, 10, 10, 8, 9, 10]


5 consecutive points found at location 2-6!


我不认为这种使用循环和 Ifs 的方式是最佳实践 @gilgorio 请详细说明。你会怎么做?我建立在OP的代码上。 IMO 切片和压缩spectrumfittedline 涉及两个占用新内存的切片操作,所以我认为这是执行 OP 想要的一种可接受的方式。【参考方案2】:


在这种情况下,一些超级聪明的人开发了数值 python 库numpy。这个库在科学项目中广泛使用,具有大量有用的功能实现,这些功能实现了测试优化


number_of_points = (np.array(spectrum) < np.array(fittedline)).sum()


spectrum = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
fittedline = [1, 2, 10, 10, 10, 10, 10, 8, 9, 10]

# Import numerical python module
import numpy as np

# Convert your lists to numpy arrays
spectrum_array = np.array(spectrum)
gittedline_array = np.array(fittedline)

# Substract fitted line to spectrum
difference = spectrum_array - gittedline_array
#>>> array([ 0,  0, -7, -6, -5, -4, -3,  0,  0,  0])

# Identify points where condition is met
condition_check_array = difference < 0.0
# >>> array([False, False,  True,  True,  True,  True,  True, False, False, False])

# Get the number of points where condition is met
number_of_points = condition_check_array.sum()
# >>> 5

# Get index of points where condition is met
index_of_points = np.where(difference < 0)
# >>> (array([2, 3, 4, 5, 6], dtype=int64),)

print(f"number_of_points points found at location index_of_points[0][0]-index_of_points[0][-1]!")

# Now same functionality in a simple function
def get_point_count(spectrum, fittedline):  
    return (np.array(spectrum) < np.array(fittedline)).sum()

get_point_count(spectrum, fittedline)

现在让我们考虑,您的频谱中不是 10 个点,而是 10M。代码效率是一个需要考虑的关键问题,numpy 可以在那里节省帮助:

number_of_samples = 1000000
spectrum = [1] * number_of_samples
# >>> [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...]
fittedline = [0] * number_of_samples
fittedline[2:7] =[2] * 5
# >>> [0, 0, 2, 2, 2, 2, 2, 0, 0, 0, ...]

# With numpy
start_time = time.time()
number_of_points = (np.array(spectrum) < np.array(fittedline)).sum()
numpy_time = time.time() - start_time
print("--- %s seconds ---" % (numpy_time))

# With ad hoc loop and ifs
start_time = time.time()
for i in range(0, len(spectrum)):
    if spectrum[i] < fittedline[i]:
        count += 1
    else: # If the current point is NOT below the threshold, reset the count
        count = 0
adhoc_time = time.time() - start_time
print("--- %s seconds ---" % (adhoc_time))

print("Ad hoc is :3.1f% slower".format(100 * (adhoc_time / numpy_time - 1)))

1. OP 没有表明他们使用 numpy。如果他们还没有使用 numpy 并且他们的分数很少,那么使用 numpy 就太过分了。 2. OP 正在寻找连续 点。你的算法不这样做。考虑输入spectrum = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]; fittedline = [1, 2, 10, 10, 0, 0, 10, 8, 9, 10]。当只有两个连续点满足条件时,您的代码会输出3 我在 qwertie 的问题中没有看到“连续”的要求。关于 numpy,在我看来,学习如何使用被广泛支持的最先进的库并不是矫枉过正,而是作为开发人员进行改进的方式 他们甚至在他们的问题中将这部分加粗:...在一行中小于...当然,学习如何使用它是完全有效的。是否使用库的决定不仅仅取决于“我想学习它”。 您在这两点上都是对的,我将“行”一词理解为具有不同“行”的多维频谱。让我收回我的反对票。我仍然认为 numpy 是这种操作的方式

