数组切分(句子拼接)

Posted jacen789

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数组切分(句子拼接)相关的知识,希望对你有一定的参考价值。

题目:有n个句子,每个句子的长度都小于等于m,现在需要将相邻较短的句子拼接再一起,使得句子的数量最少,并且长度仍然不大于m,而且拼接完之后句子的长度的方差最小。求拼接方式。

 解题(自己给自己出题,sent_comb3切分符合要求):

# -*- coding: utf-8 -*-

import numpy as np


def sent_comb1(sent_lens, max_len=35):
    """先求总长的平均长度,再切分"""
    if sum(sent_lens) <= max_len:
        return [list(sent_lens)]
    avg_len = sum(sent_lens) // np.ceil(sum(sent_lens) / max_len)
    rlts = []
    for sent_len in sent_lens:
        if (not rlts) or (rlts and sum(rlts[-1]) >= avg_len):
            rlts.append([sent_len])
        elif sum(rlts[-1]) + sent_len <= max_len:
            rlts[-1].append(sent_len)
        else:
            rlts.append([sent_len])
    return rlts


def sent_comb2(sent_lens, max_len=35):
    """先求得到每两段的平均长度,再切分"""
    if sum(sent_lens) <= max_len:
        return [list(sent_lens)]
    small_sent_lens = []
    for sent_len in sent_lens:
        if sum(small_sent_lens) + sent_len > 2 * max_len:
            break
        small_sent_lens.append(sent_len)
    small_sent_lens_sum = sum(small_sent_lens)
    avg_len = small_sent_lens_sum // np.ceil(small_sent_lens_sum / max_len)
    rlts = []
    rlt = []
    while len(sent_lens):
        sent_len = sent_lens[0]
        if sum(rlt) >= avg_len:
            rlts.append(rlt)
            rlts.extend(sent_comb2(sent_lens))
            break
        elif sum(rlt) + sent_len <= max_len:
            rlt.append(sent_len)
            sent_lens = sent_lens[1:]
        else:
            rlts.append(rlt)
            rlts.extend(sent_comb2(sent_lens))
            break
    return rlts


def sent_comb3(sent_lens, max_len=35):
    """先切分,再求得每两段的平均长度,再切分,重复以上步骤,直到两次操作的结果一致停止"""
    if sum(sent_lens) <= max_len:
        return [list(sent_lens)]
    rlts = []
    for sent_len in sent_lens:
        if not rlts:
            rlts.append([sent_len])
        elif sum(rlts[-1]) + sent_len <= max_len:
            rlts[-1].append(sent_len)
        else:
            rlts.append([sent_len])
    while True:
        new_rlts = [rlts[0]]
        i = 1
        while i < len(rlts):
            small_sent_lens = new_rlts[-1] + rlts[i]
            avg_len = sum(small_sent_lens) // 2
            rlt = []
            while len(small_sent_lens):
                sent_len = small_sent_lens[0]
                if sum(rlt) >= avg_len:
                    break
                elif sum(rlt) + sent_len <= max_len:
                    rlt.append(sent_len)
                    small_sent_lens = small_sent_lens[1:]
                else:
                    break
            new_rlts[-1] = rlt
            new_rlts.append(small_sent_lens)
            i += 1
        if new_rlts == rlts:
            break
        rlts = new_rlts
    return rlts


def main():
    max_len = 35
    # sent_lens = np.random.randint(1, max_len, size=20)
    sent_lens = [7, 11, 12, 31,  1,  1, 26,  2,  7, 22,  1, 14, 28,  1,  1, 34, 24, 32, 10, 31]
    # sent_lens = [34, 1, 34, 1, 30, 1]
    print(sent_lens)

    import timeit

    start_time = timeit.default_timer()
    comb_rlt1 = sent_comb1(sent_lens, max_len=max_len)
    print(timeit.default_timer() - start_time)
    print(comb_rlt1)
    # print([sum(comb) for comb in comb_rlt1])

    start_time = timeit.default_timer()
    comb_rlt2 = sent_comb2(sent_lens, max_len=max_len)
    print(timeit.default_timer() - start_time)
    print(comb_rlt2)
    # print([sum(comb) for comb in comb_rlt2])

    start_time = timeit.default_timer()
    comb_rlt3 = sent_comb3(sent_lens, max_len=max_len)
    print(timeit.default_timer() - start_time)
    print(comb_rlt3)
    # print([sum(comb) for comb in comb_rlt3])


if __name__ == "__main__":
    main()

 

以上是关于数组切分(句子拼接)的主要内容,如果未能解决你的问题,请参考以下文章

PyTorch: 张量的拼接切分索引

使用 C++ 反转句子中的每个单词需要对我的代码片段进行代码优化

Leetcode.1024 视频拼接

如何通过C#中的特定片段从句子中提取整个单词?

二维数组中按子数组首个元素值去重

SQL语句问题动态拼接