在 Perl 中将文件转换为字符串的最佳方法是啥?
Posted
技术标签:
【中文标题】在 Perl 中将文件转换为字符串的最佳方法是啥?【英文标题】:What is the best way to slurp a file into a string in Perl?在 Perl 中将文件转换为字符串的最佳方法是什么? 【发布时间】:2010-09-17 10:12:59 【问题描述】:是的,There's More Than One Way To Do It,但必须有一个规范或最有效或最简洁的方法。我会添加我知道的答案,看看有什么内容会渗透到顶部。
要清楚,问题是如何最好地将文件的内容读入字符串。 每个答案一个解决方案。
【问题讨论】:
【参考方案1】:这个怎么样:
use File::Slurp;
my $text = read_file($filename);
预计到达时间:注意 Bug #83126 for File-Slurp: Security hole with encoding(UTF-8)。我现在推荐使用File::Slurper(免责声明:我写的),也是因为它在编码方面有更好的默认值:
use File::Slurper 'read_text';
my $text = read_text($filename);
或Path::Tiny:
use Path::Tiny;
path($filename)->slurp_utf8;
【讨论】:
如果文件不存在,如果你不想让它死掉怎么办? 防止这种情况发生的最简单方法是首先检查文件是否存在... 这确实有一个缺点,即它不包含在开箱即用的 perl 中。至少不是我的 ActiveState perl for windows (v5.10.0)。 请注意,最近发现 File::Slurp 是一个巨大的安全问题:rt.cpan.org/Ticket/Display.html?id=83126 嗨,我收到了Undefined subroutine &main::read_text
。应该是use File::Slurper 'read_text';
。 metacpan.org/pod/File::Slurper【参考方案2】:
我喜欢使用 do
块执行此操作,我在其中本地化 @ARGV
,因此我可以使用菱形运算符为我执行文件魔术。
my $contents = do local(@ARGV, $/) = $file; <> ;
如果你需要它更健壮一点,你可以很容易地把它变成一个子例程。
如果您需要能够处理各种特殊情况的强大功能,请使用File::Slurp。即使您不打算使用它,也请查看源代码以了解它必须处理的所有古怪情况。 File::Slurp 有一个 big security problem 看起来没有解决方案。部分原因是它未能正确处理编码。即使我的快速回答也有这个问题。如果您需要处理编码(可能是因为默认情况下您没有将所有内容都设为 UTF-8),则此扩展为:
my $contents = do
open my $fh, '<:encoding(UTF-8)', $file or die '...';
local $/;
<$fh>;
;
如果您不需要更改文件,您可以使用File::Map。
【讨论】:
我很懒,写my $contents = do local (@ARGV,$/) = $file; <>;
,用更少的字符写完全一样的东西:)
我想知道为什么本地 @ARGV = $file; 将与 不同。
@Bemrose:因为 $file 不是文件句柄。
我把这个方法添加到一个已经在使用<>
的文件中,希望它从STDIN
读取。 <>
的行为不同于第一次调用和后续调用,并且由于我更改了第一次调用,因此我也更改了现有调用的行为(预期 <STDIN>
的行为 <>
)。【参考方案3】:
在写File::Slurp(这是最好的方式)时,Uri Guttman 对多种啜饮方式进行了大量研究,哪种方式最有效。他写下了his findings here 并将它们合并到信息 File::Slurp。
【讨论】:
请注意,最近发现 File::Slurp 是一个巨大的安全问题:rt.cpan.org/Ticket/Display.html?id=83126【参考方案4】:open(my $f, '<', $filename) or die "OPENING $filename: $!\n";
$string = do local($/); <$f> ;
close($f);
【讨论】:
【参考方案5】:需要考虑的事情(尤其是与其他解决方案相比时):
-
词法文件句柄
缩小范围
减少魔法
所以我得到:
my $contents = do
local $/;
open my $fh, $filename or die "Can't open $filename: $!";
<$fh>
;
我不是魔法的忠实粉丝,除了实际使用魔法。与其伪装出来,不如直接使用 open 调用?这不是更多的工作,而且是明确的。 (真正的魔法,尤其是在处理“-”时,要完美模拟需要做更多的工作,但无论如何我们都不会在这里使用它。)
【讨论】:
如果对那些在家跟随的人来说不是很明显,在花括号的末尾,$fh 会超出范围并且文件句柄会自动关闭。【参考方案6】:字符串的mmap(内存映射)可能在以下情况下很有用:
有非常大的字符串,您不想加载到内存中 想要一个盲目的快速初始化(您在访问时获得渐进式 I/O) 对字符串进行随机或惰性访问。 可能想要更新字符串,但只是扩展它或替换字符:#!/usr/bin/perl
use warnings; use strict;
use IO::File;
use Sys::Mmap;
sub sip
my $file_name = shift;
my $fh;
open ($fh, '+<', $file_name)
or die "Unable to open $file_name: $!";
my $str;
mmap($str, 0, PROT_READ|PROT_WRITE, MAP_SHARED, $fh)
or die "mmap failed: $!";
return $str;
my $str = sip('/tmp/words');
print substr($str, 100,20);
更新:2012 年 5 月
在将Sys::Mmap 替换为File::Map 之后,以下内容应该非常等效
#!/usr/bin/perl
use warnings; use strict;
use File::Map qwmap_file;
map_file(my $str => '/tmp/words', '+<');
print substr($str, 100, 20);
【讨论】:
实际上,File::Map(免责声明:由我编写)是当今更好的选择。它更便携(适用于 Unix 和 Windows),但也更易于使用(«map_file my $str, $file_name;»)。【参考方案7】:use Path::Class;
file('/some/path')->slurp;
【讨论】:
【参考方案8】:
open F, $filename or die "Can't read $filename: $!";
local $/; # enable slurp mode, locally.
$file = <F>;
close F;
【讨论】:
【参考方案9】:这既不快速,也不独立于平台,而且非常邪恶,但它很短(我在 Larry Wall 的代码中看到了这一点 ;-):
my $contents = `cat $file`;
孩子们,不要在家里这样做;-)。
【讨论】:
【参考方案10】:use IO::All;
# read into a string (scalar context)
$contents = io($filename)->slurp;
# read all lines an array (array context)
@lines = io($filename)->slurp;
【讨论】:
【参考方案11】:查看Perl6::Slurp 的摘要,它非常灵活,通常只需很少的努力就能做正确的事情。
【讨论】:
【参考方案12】:以下是最流行的方法的一个很好的比较:
http://poundcomment.wordpress.com/2009/08/02/perl-read-entire-file/
【讨论】:
【参考方案13】:没有人谈论 read 或 sysread,所以这里有一个简单快捷的方法:
my $string;
open my $fh, '<', $file or die "Can't open $file: $!";
read $fh, $string, -s $file; # or sysread
close $fh;
【讨论】:
【参考方案14】:对于单行,你通常可以使用the -0
switch(和-n
)让perl一次读取整个文件(如果文件不包含任何空字节):
perl -n0e 'print "content is in $_\n"' filename
如果是二进制文件,可以使用-0777
:
perl -n0777e 'print length' filename
【讨论】:
提供了一种检查文件中尝试的行替换是否实际发生的好方法: perl -p -i -0 -e 's/^old_line/new_line/m or (print and die) ' some_file,或者如果很多人期望的话,可能可以使用 /mg 来完成所有匹配的行。【参考方案15】:以最坏的方式做的候选人! (见评论。)
open(F, $filename) or die "OPENING $filename: $!\n";
@lines = <F>;
close(F);
$string = join('', @lines);
【讨论】:
这可能是我能想到的最低效的方式,尤其是对于大文件。现在您有两个相同数据的副本,并且您已经处理了两次,只是为了将其加载到一个标量中。 这都是情境性的。对于小文件或只运行一次的快速脚本,其中 "$string=cat $filename
" 不可用,这是完全合理的。低效是的!但这不一定是唯一的考虑因素。
这个答案不值得负面评价。一群不理解或不关心 调整特殊记录分隔符变量$/
undef $/;
open FH, '<', $filename or die "$!\n";
my $contents = <FH>;
close FH;
【讨论】:
以上是关于在 Perl 中将文件转换为字符串的最佳方法是啥?的主要内容,如果未能解决你的问题,请参考以下文章
在 JavaScript 中将数字转换为字符串的最佳方法是啥?