如何将单个文件中的特定列重复替换为另一个文件的列?

Posted

技术标签:

【中文标题】如何将单个文件中的特定列重复替换为另一个文件的列?【英文标题】:How to replace specific columns in a single file repeatedly into another file's columns? 【发布时间】:2017-07-07 21:29:33 【问题描述】:

我是 python 编码的新手,我有这两个需要操作的文本文件。有谁知道如何将一个文件的特定列替换为另一个文件列?所以,例如, 我想取'test1.txt'的最后四列,

  1 N1          -3.8340    -1.0640     2.8770 n3         1 UNL      -0.696600
  2 N2          -2.7490    -1.5690     2.2220 n3         1 UNL      -0.278400
  3 C1          -2.3750    -0.9950     1.1200 c3         1 UNL       0.169400
  4 C2          -1.2280    -1.5720     0.2740 c3         1 UNL       0.671800

只将第一个文本的最后四列替换为“test2.txt”——注意当它重复时,第三列到最后一列的整数会增加。

  1 N1          31.2480    39.4030    91.8950 N.3        1 UNL       0.000000
  2 N2          32.0980    38.3940    91.5460 N.2        1 UNL       0.000000
  3 C1          33.0530    38.6590    90.7070 C.2        1 UNL       0.000000
  4 C2          33.9820    37.5500    90.1880 C.2        1 UNL       0.000000
  5 N1          55.1040    41.1430    27.6790 N.3        2 UNL       0.000000
  6 N2          53.9860    41.7250    27.1570 N.2        2 UNL       0.000000
  7 C1          53.7640    41.5940    25.8850 C.2        2 UNL       0.000000
  8 C2          52.5820    42.3090    25.2080 C.2        2 UNL       0.000000

这样最终的结果就变成了

  1 N1          31.2480    39.4030    91.8950 n3         1 UNL      -0.696600
  2 N2          32.0980    38.3940    91.5460 n3         1 UNL      -0.278400
  3 C1          33.0530    38.6590    90.7070 c3         1 UNL       0.169400
  4 C2          33.9820    37.5500    90.1880 c3         1 UNL       0.671800
  5 N1          55.1040    41.1430    27.6790 n3         2 UNL      -0.696600
  6 N2          53.9860    41.7250    27.1570 n3         2 UNL      -0.278400
  7 C1          53.7640    41.5940    25.8850 c3         2 UNL       0.169400
  8 C2          52.5820    42.3090    25.2080 c3         2 UNL       0.671800

像这样... 这甚至是python编码的可能性吗? 这两个文件以两个不同的文件名保存。

【问题讨论】:

数据只是一个txt文件,中间有空格?总是相同数量的空格?例如,如果您可以将数据保存为 csv 文件,这将使事情变得容易得多。 我不清楚你想要什么。是否要将最后一列替换为第一个表中的值?是否还要替换第 6 列 (N.3 -> n3) 中的值? 欢迎来到 ***。请阅读并遵循帮助文档中的发布指南。 on topic 和 how to ask 在这里申请。 *** 不是设计、编码、研究或教程服务。 特别是,这个应用程序不够普遍,没有标准化的格式。您必须自己编写重复代码。请注意,您要更改的只是最后一列; test2.txt 中的倒数第三列已正确递增。将重复值存储在列表中。对线条使用简单的计数器。每行的最后一列都替换为counter % 4 指示的值。 【参考方案1】:

我真的不明白这些值<37, 38, 39, 40> 来自所需结果的第一列的下 4 行的哪里。我忽略了这些,并假设这些值不应该被替换。

下面的my_cycle() 函数不是被设计为任何可迭代的通用函数,它在这里只是为了帮助我们只使用text1.txt。虽然它可以被修改用于其他目的。我尝试使用 itertools.cycle() 的修改版本在每个循环后更新特定值,在这种情况下,是 test1.txt 右侧的第 3 列。要更好地了解itertools.cycle(),请转至this post。 Python 文档总是很有帮助的。

def update_targeted_column(element):
    list_elem = element.split()
    new_element = '    '.join(list_elem[:-3] + [str(int(list_elem[-3]) + 1)] + list_elem[-2:])
    return '\n    ' + new_element


def my_cycle(iterable):
    """After each iteration of all rows, my_cycle() should increment the 3rd right-most column by 1"""
    saved = []
    for element in iterable:
        yield element
        saved.append(update_targeted_column(element))
    while saved:
        for element in saved:
            yield element
            saved.append(update_targeted_column(element))


# Combining the two files into a third one
with open('f1.txt', 'r') as file_01:
    with open('f2.txt', 'r') as file_02:
        with open('f3.txt', 'a+') as file_03:
            cycled = my_cycle(file_01.readlines())
            for line_01, line_02 in zip(cycled, file_02.readlines()):
                last = '    '.join(line_01.split()[-4:])    # Separating the 4 right-most columns from lines of file_01
                first = '    '.join(line_02.split()[:5])    # Separating the 5 left-most columns from lines of file_02
                print(first + '    ' + last)                # Joining the separated columns to get expected result
                # file_03.write(first + '    ' + last + '\n')

输出(在第三个文件中):

1    N1    31.2480    39.4030    91.8950    n3    1    UNL    -0.696600
2    N2    32.0980    38.3940    91.5460    n3    1    UNL    -0.278400
3    C1    33.0530    38.6590    90.7070    c3    1    UNL    0.169400
4    C2    33.9820    37.5500    90.1880    c3    1    UNL    0.671800
5    N1    55.1040    41.1430    27.6790    n3    2    UNL    -0.696600
6    N2    53.9860    41.7250    27.1570    n3    2    UNL    -0.278400
7    C1    53.7640    41.5940    25.8850    c3    2    UNL    0.169400
8    C2    52.5820    42.3090    25.2080    c3    2    UNL    0.671800

【讨论】:

以上是关于如何将单个文件中的特定列重复替换为另一个文件的列?的主要内容,如果未能解决你的问题,请参考以下文章

将数据框特定列中的 Nan 值替换为另一个数据框特定列中的值

使用部分字符串匹配将数据框中的列替换为另一个数据框列

使用 dplyr [重复] 有条件地将一列中的值替换为另一列中的值

替换第一列文本中的特定字符

使用 Spark 将多个文件中的列合并到单个文件中

删除pandas数据帧中的重复项后,替换特定的列值