YouTube 网址 - 正则表达式
Posted
技术标签:
【中文标题】YouTube 网址 - 正则表达式【英文标题】:YouTube URL - regex 【发布时间】:2011-10-04 21:59:18 【问题描述】:我的 antisamy 策略文件中有以下配置:
旧 YouTube 对象:
<object >
<param
name="movie"
value="http://www.youtube.com/v/Hl-zzrqQoSE
?version=3
&hl=en_US
&rel=0">
</param>
<param name="allowFullScreen" value="true">
</param>
<param name="allowscriptaccess" value="always">
</param>
<embed src="http://www.youtube.com/v/Hl-zzrqQoSE
?version=3
&hl=en_US
&rel=0"
type="application/x-shockwave-flash"
allowscriptaccess="always"
allowfullscreen="true">
</embed>
</object>
AntiSamy 配置:
<common-regexps>
<regexp name="YouTubeURL" value="(\s)*(http(s?)://)www.youtube.com/v/[\pL\pN]+[\pL\pN\pZs\.\#@\$%\+&;:\-_~,\?=/!]*(\s)*"/>
....
<!-- Tags related to YouTube -->
<tag name="object" action="validate">
<attribute name="height"/>
<attribute name="width"/>
<attribute name="type">
<literal-list>
<literal value="application/x-shockwave-flash"/>
</literal-list>
</attribute>
<attribute name="data">
<regexp-list>
<regexp name="YouTubeURL"/>
</regexp-list>
</attribute>
</tag>
<tag name="embed" action="validate">
<attribute name="height"/>
<attribute name="width"/>
<attribute name="type">
<literal-list>
<literal value="application/x-shockwave-flash"/>
</literal-list>
</attribute>
<attribute name="allowfullscreen">
<regexp-list>
<regexp name="boolean"/>
</regexp-list>
</attribute>
<attribute name="allowscriptaccess">
<literal-list>
<literal value="always"/>
</literal-list>
</attribute>
<attribute name="src">
<regexp-list>
<regexp name="YouTubeURL"/>
</regexp-list>
</attribute>
<attribute name="movie">
<regexp-list>
<regexp name="YouTubeURL"/>
</regexp-list>
</attribute>
</tag>
目前我在 iframe 上的配置:
<!-- Frame & related tags -->
<tag name="iframe" action="remove"/>
<tag name="frameset" action="remove"/>
<tag name="frame" action="remove"/>
新的 YouTube iframe:
<iframe
<!-- src="https://www.youtube-nocookie.com/embed/Hl-zzrqQoSE" -->
src="https://www.youtube.com/embed/Hl-zzrqQoSE"
frameborder="0"
allowfullscreen>
</iframe>
我认为 iframe 的代码应该是这样的:
<tag name="iframe" action="validate">
<attribute name="height"/>
<attribute name="width"/>
<attribute name="frameborder"/>
<attribute name="src">
<regexp-list>
<regexp name="YouTubeURL"/>
</regexp-list>
</attribute>
<attribute name="allowfullscreen">
<regexp-list>
<regexp name="boolean"/>
</regexp-list>
</attribute>
</tag>
如何更改正则表达式,使其接受新旧链接,例如:
https://www.youtube-nocookie.com/embed/Hl-zzrqQoSE
https://www.youtube.com/embed/Hl-zzrqQoSE
https://www.youtube.com/v/Hl-zzrqQoSE
http://www.youtube-nocookie.com/v/Hl-zzrqQoSE?version=3&hl=en_US&rel=0
http://www.youtube.com/v/Hl-zzrqQoSE?version=3&hl=en_US&rel=0"
【问题讨论】:
【参考方案1】:\s*(https?://)www.youtube(-nocookie)?.com/(?:v|embed)/[\pL\pN]+[\pL\pN\pZs.#@$%+&;:_~,?=!/-]*\s*
我冒昧地删除了不必要的捕获组、转义和字符。
虽然我个人会使用类似的东西:
\s*(https?://www.youtube(?:-nocookie)?.com/(?:v|embed)/([a-zA-Z0-9-]+).*)
这会将整个 youtube URL 放在匹配组 0 中,将视频 ID 放在匹配组 1 中。 此外,当 youtube 的 URL 不包含 unicode 字符时,使用 unicode 属性也没有多大意义。
演示:http://rubular.com/r/jv4zO9ys2L
【讨论】:
以上是关于YouTube 网址 - 正则表达式的主要内容,如果未能解决你的问题,请参考以下文章