我可以使用 Perl 的 unpack 将字符串分解为 vars 吗?
Posted
技术标签:
【中文标题】我可以使用 Perl 的 unpack 将字符串分解为 vars 吗?【英文标题】:Can I use Perl's unpack to break up a string into vars? 【发布时间】:2009-10-07 21:53:54 【问题描述】:我有一个由四部分组成的图像文件名:
$Directory
(图片所在目录)
$Name
(对于艺术网站,这是画名参考#)
$File
(图片文件名减去扩展名)
$Extension
(图片扩展名)
$example 100020003000.png
我希望相应地分解:
$dir=1000 $name=2000 $file=3000 $ext=.png
我想知道 substr 是否是分解传入的 $example
的最佳选择,这样我就可以处理 4 个变量,如验证/错误检查、从其 $Name
分配中获取详细名称等。我找到了这篇文章:
is unpack faster than substr? 所以,在我的初学者“石头工具”方法中:
my $example = "100020003000.png";
my $dir = substr($example, 0,4);
my $name = substr($example, 5,4);
my $file = substr($example, 9,4);
my $ext = substr($example, 14,3); # will add the the "." later #
那么,我可以使用 unpack,或者甚至是其他更有效的方法吗?
我也想避免加载任何模块,除非这样做会因为某种原因使用更少的资源。模组是我喜欢的很棒的工具,但我认为这里没有必要。
我意识到我可能应该将变量推入数组/哈希,但是,我真的是这里的初学者,我需要进一步说明如何做到这一点以及如何将它们拉回来。
感谢 ***.com 的每一个人!
【问题讨论】:
我相信在 Perl 中,只要你足够努力,你就可以使用任何函数来做任何事情。 :-) 是的,我发现了。您只需要说“您不能那样做”,然后bam,解决方案来了!到目前为止,我也真的更喜欢 Perl 而不是 php。 至于性能:pack
可能是最快的,但pack
、substr
和正则表达式应该所有都足够快,以至于你不会'不必担心。如果性能确实是一个问题,请不要猜测,使用Benchmark
进行基准测试。
我很高兴我说“不要猜测,基准测试”。结果在gist.github.com/204800。他们都非常快,但substr
获胜。
@Jim_Bo 直接子字符串版本所做的工作非常少。
【参考方案1】:
绝对:
my $example = "100020003000.png";
my ($dir, $name, $file, $ext) = unpack 'A4' x 4, $example;
print "$dir\t$name\t$file\t$ext\n";
输出:
1000 2000 3000 .png【讨论】:
+1 实际上提供了一个很好的基于包的答案,即使我更喜欢使用正则表达式的想法。 :-) @Sinan 非常好。这向我解释了 unpack 如何很好地工作。我今天阅读了有关它的文档,但是找不到对我有意义的示例。非常感谢!荣誉!【参考方案2】:我只是为此使用正则表达式:
my ($dir, $name, $file, $ext) = $path =~ m:(.*)/(.*)/(.*)\.(.*):;
或者,为了匹配您的具体示例:
my ($dir, $name, $file, $ext) = $example =~ m:^(\d4)(\d4)(\d4)\.(.3)$:;
【讨论】:
太棒了!另一个很好的答案。非常感谢。现在,该使用哪一个? 我想知道哪种方法实际上更快?我为检查哪个答案而苦苦挣扎,但我想因为标题是“我可以使用 unpack 代替......”检查就在那里。不过,我肯定会在这里给你有用的颠簸! ;-) 视情况而定。如果您有一个包含这种固定格式的大量文件名的列表(从您的问题看来),请使用unpack
。否则,使用正则表达式。
是的,这是一击奇迹。只需要处理一个 $example。所以,正则表达式可能是最好的选择。但是,当我的朋友想查看他在目录中的所有画作,或者查看他的命中数据时,我会尝试使用 unpack。相信我,我会回来看看我做得对不对!【参考方案3】:
使用unpack
很好,但是由于元素都是相同的宽度,所以正则表达式也很简单:
my $example = "100020003000.png";
my ($dir, $name, $file, $ext) = $example =~ /(.4)/g;
【讨论】:
伙计,越来越小了!谢谢@FM!那个也出现在我的 Perl 圣经中。我将每个区域(var)保存在一组四个字符中,因为我知道它会以某种方式受益。你刚刚告诉我为什么!谢谢!【参考方案4】:它不是解包,但由于您有 4 个字符组,您可以使用有限的拆分,捕获:
my ($dir, $name, file, $ext) = grep length, split /(....)/, $filename, 4;
这很模糊,所以我可能不会使用它,但拆分中的捕获是一个经常被忽视的能力。
所以,这里解释一下这段代码的作用:
步骤 1。split
带有捕获括号,将模式捕获的值添加到其输出流中。流包含字段和分隔符的混合。
qw( a 1 b 2 c 3 ) == split /(\d)/, 'a1b2c3';
第 2 步。split
使用 3 个参数限制字符串被拆分的次数。
qw( a b2c3 ) == split /\d/, 'a1b2c3', 2;
第 3 步。现在,当我们使用与几乎所有 /(....)/
匹配的分隔符模式时,我们会得到一堆空(0 长度)字符串。我用D
字符标记了分隔符,用F
标记了字段:
( '', 'a', '', '1', '', 'b', '', '2' ) == split /(.)/, 'a1b2';
F D F D F D F D
第 4 步。因此,如果我们将字段数限制为 3,我们将得到:
( '', 'a', '', '1', 'b2' ) == split /(.)/, 'a1b2', 3;
F D F D F
第 5 步。将所有内容放在一起,我们可以做到这一点(我使用了 .jpeg
扩展名,以便扩展名超过 4 个字符):
( '', 1000, '', 2000, '', 3000, '.jpeg' ) = split /(....)/, '100020003000.jpeg',4;
F D F D F D F
第 6 步。第 5 步几乎完美,我们只需去掉空字符串即可:
(1000, 2000, 3000, '.jpeg' ) = grep 长度,拆分 /(....)/, '100020003000.jpeg',4;
这段代码有效,而且很有趣。但它并不比任何其他解决方案更紧凑。我没有进行基准测试,但如果它赢得任何速度或内存效率奖,我会感到非常惊讶。
但真正的问题是,它对于真正的代码来说太棘手了。使用split
捕获分隔符(可能还有一个最终字段),同时丢弃字段数据太奇怪了。它也很脆弱:如果一个字段改变长度,代码就会被破坏并且必须重写。
所以,实际上不要这样做。
至少它提供了一个机会来探索split
的一些鲜为人知的功能。
【讨论】:
【参考方案5】:substr
和 unpack
都将您的想法偏向于固定布局,而正则表达式解决方案更倾向于带有分隔符的灵活布局。
您给出的示例似乎是固定布局,但目录通常通过分隔符与文件名分隔(例如 POSIX 样式文件系统的斜杠,MS-DOS 的反斜杠等)所以您实际上可能有一个案例对彼此而言;将目录和文件名分开(甚至目录/名称/扩展名)的正则表达式解决方案,然后是名称部分本身的固定长度方法。
【讨论】:
以上是关于我可以使用 Perl 的 unpack 将字符串分解为 vars 吗?的主要内容,如果未能解决你的问题,请参考以下文章
关于 unpack() 和 printf() 中的 v 标志的 Perl 问题
解包函数将如何在 perl 中用于此代码 $str =~ s/([^\w ])/'%'.unpack('H2', $1)/eg;