根据内容在linux中拆分文件[重复]

Posted 2023-03-24

技术标签:

【中文标题】根据内容在linux中拆分文件[重复]【英文标题】：Splitting a file in linux based on content [duplicate] 【发布时间】：2012-01-22 13:43:33 【问题描述】：

我有一个大约 400mb 的电子邮件转储。我想将其拆分为 .txt 文件，每个文件中包含一封邮件。每封电子邮件都以指定文档类型的标准 html 标头开头。

这意味着我将不得不根据上述标题拆分我的文件。在 linux 中如何处理？

【问题讨论】：

这真的是电子邮件转储吗？你的意思是你根本没有邮件标题？你怎么称呼“指定文档类型的标准 HTML 标头”？ ""-//W3C//DTD HTML 4.01 Transitional//EN\"> 这后面是整个电子邮件！ 【参考方案1】：

如果你有mail.txt

$ cat mail.txt
<html>
    mail A
</html>

<html>
    mail B
</html>

<html>
    mail C
</html>

运行csplit以<html>分割

$ csplit mail.txt '/^<html>$/' '*'

 - mail.txt    => input file
 - /^<html>$/  => pattern match every `<html>` line
 - *         => repeat the previous pattern as many times as possible

检查输出

$ ls
mail.txt  xx00  xx01  xx02  xx03

如果你想在awk做它

$ awk '/<html>/filename=NR".txt"; print >filename' mail.txt
$ ls
1.txt  5.txt  9.txt  mail.txt

【讨论】：

我害怕！我做了同样的事情并做了一个 $ls mail.txt xx00 并且显然 mail.txt 与 xx00 相同。任何修复？ @Ramprakash 我的csplit 的版本是8.5。也许你的没有重复模式的*。请检查手册页。我只是添加awk 解决方案。你可以试试看。 @Greenhorn 我的csplit 版本也不支持*，但这有效：csplit -n 6 -f 'mail-' -k mail.txt '/^<html>$/' '5000' 为了防止在第一行与模式不匹配时出现awk 错误（至少对于gawk），请执行以下操作：awk 'BEGIN filename="0.txt" /...'【参考方案2】：

csplit 程序优雅地解决了您的问题：

csplit '/<!DOCTYPE.*/' $FILE

【讨论】：

参数的顺序错误，没有按照预期进行重复。【参考方案3】：

csplit 是解决这个问题的最佳方案。只是想我会发布一个 bash 解决方案来表明没有必要在这个任务上使用 perl：

#!/usr/bin/bash

MAIL='mail'        # path to huge mail-file

#get linenumbers for all headers
line_no=$(grep -n html $MAIL | cut -d: -f1)

read -a LINES<<< $line_no

file=0
for i in $(seq 0 2 $#LINES[@]); do
    start=$LINES[i]
    end=$(($LINES[i+1]-1))
    echo $start, $end
    sed -n "$start,$endp" $MAIL > $MAIL$file.txt
    file=$((file+1))
done

【讨论】：

【参考方案4】：

我同意 fge。使用perl 会简单得多。你可以试试这样的 -

#!/usr/bin/perl

undef $/;
$_ = <>;
$n = 0;

for $match (split(/(?=HEADER_FORMAT)/)) 
      open(O, '>mail' . ++$n);
      print O $match;
      close(O);

将HEADER_FORMAT 替换为您的标头类型。

【讨论】：

是的，积极的前瞻会很好地工作，特别是因为这里的标题不包含任何元字符。您甚至可以使用qr// 来构建拆分正则表达式。【参考方案5】：

使用一些 perl“魔法”是可行的......很多人会说这很丑，但这里就是这样。

诀窍是将$/ 替换为您想要的内容并读取您的输入，如下所示：

#!/usr/bin/perl -W
use strict;
my $i = 1;

$/ = <<EOF;
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"><html><head> <xmeta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
EOF

open INPUT, "/path/to/inputfile" or die;

while (my $mail = <INPUT>) 
    $mail = substr($mail, 0, index($mail, $/));
    open OUTPUT, ">/path/to/emailfile." . $i . ".txt" or die;
    $i++;
    print OUTPUT $mail;
    close OUTPUT;

编辑：已修复，我总是忘记 $/ 包含在输入中。此外，第一个文件将始终为空，但随后可以轻松处理。

【讨论】：

以上是关于根据内容在linux中拆分文件[重复]的主要内容，如果未能解决你的问题，请参考以下文章

根据输入偏移值拆分数组，但在同一块中保留重复

根据字符串的不同模式拆分字符串[重复]

linux shell脚本：拆分字符串，将它们放在一个数组中然后循环它们[重复]

用于根据空格分隔符拆分文本的正则表达式 [重复]

在拆分为多个文件的大型数据框中查找重复行和包含重复行的文件

根据值的数量将熊猫列拆分为多个单独的列[重复]