使用正则表达式或 Javascript 从 URL 获取文件名

Posted

技术标签:

【中文标题】使用正则表达式或 Javascript 从 URL 获取文件名【英文标题】:Get filename from URL using Regular Expressions or Javascript 【发布时间】:2011-05-31 18:47:23 【问题描述】:

我需要从 URL 地址中获取文件名。

这是标准:

以下场景需要返回空字符串""

http://somedomain.com
http://www.somedomain.com
http://somedomain.com/
http://www.somedomain.com/

并在以下情况下返回filename.php

http://somedomain.com/filename.php?query
http://www.somedomain.com/filename.php?query
http://somedomain.com/filename.php#query
http://www.somedomain.com/filename.php#query

我找到了这个正则表达式

[\w_.-]*?(?=[\?\#])|[\w_.-]*$ 来自here

但是它在输入 http://somedomain.com 时返回 somedomain.com。当它的末尾没有/ 时,我不知道如何修改它以忽略域。

如果使用正则表达式很难,我也会感谢 javascript 解决方案。

提前感谢。

【问题讨论】:

【参考方案1】:

假设您正在浏览器中编写脚本,那么已经有一个功能齐全的 URL 解析器供您使用,而无需编写不可靠的不完整正则表达式。使用 htmlAnchorElement 读取类似于location 的属性hostpathnamesearchhash 等:

var a= document.createElement('a');
a.href= 'http://somedomain.com/dirname/filename.php?query';
var filename= a.pathname.split('/').pop(); // filename.php

【讨论】:

【参考方案2】:

这会将文件名放入$1[^:]+://[^/]+/?([^?#]*)

(p.s. http://rentzsch.github.com/JSRegexTeststand/ 是您参加此类测试的朋友)

【讨论】:

谢谢。这很好用,但是我最终使用了 bobince 的解决方案。我虽然它更简单。【参考方案3】:

使用这个经过调整的 Reg ex 版本:(将 \/ 添加到现有版本中)

[\w_.-]*?(?=[\/\?\#])|[\w_.-]*$

【讨论】:

【参考方案4】:
function returnPHPname(x) 
    var fileName = x.split(/[#\?]/).shift().split('/').pop()
    return fileName.slice(-3) == 'php'? fileName: ""

split(/[#\?]/) split 输入“#”或“?”通过正则表达式character class。shift()shift从拆分输入中取出“最左边”元素。split('/')split每个斜杠上的这个元素并返回一个数组。@987654333 @ pop 数组的“最顶层”元素作为文件名。slice(-3) slice 关闭文件名的最后三个字符以检查..'php'? fileName: "" 'php' 返回文件名,否则返回空字符串。

请注意,regex 中的 '\?' 被转义为字符而不是正则表达式运算符。

【讨论】:

请为您的答案添加解释,而不仅仅是代码本身。 虽然此代码 sn-p 可能是解决方案,但 including an explanation 确实有助于提高您的帖子质量。请记住,您是在为将来的读者回答问题,而这些人可能不知道您提出代码建议的原因。 比你!这变得更短了。现在也解释一下。但我没有解释为什么我没有解释:P 有趣的是数组上的函数如何更改数组,但字符串上的函数不会更改字符串而是返回字符串的新更改。所以 slice 会保留文件名。但是 x 会在每一步中发生变化,您实际上可以将这些部分存储在变量中。

以上是关于使用正则表达式或 Javascript 从 URL 获取文件名的主要内容,如果未能解决你的问题,请参考以下文章

使用正则表达式从 url 中提取参数值

使用正则表达式从 url 中提取参数值

使用 Javascript 正则表达式检查有效的 url

如何使用正则表达式从字符串中删除以www。***开头的URL?

javascript 如何使用Javascript正则表达式获取URL参数

Javascript - 正则表达式从标题中删除特殊字符