Python:使用正则表达式爬虫如何处理HTML代码中的换行?

Posted fxalll

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python:使用正则表达式爬虫如何处理HTML代码中的换行?相关的知识,希望对你有一定的参考价值。

比如我们需要爬豆瓣二十条短评,使用正则表达式:

<span class=“short”>(.*?)</span>


我们只能爬到17个,为什么呢?因为有的短评是带有换行的,正则表达式无法识别。

如何让它识别呢?

将(.*?)换为((?:.|\\n)*?)就可以了!

<span class=“short”>((?:.|\\n)*?)</span>

以上是关于Python:使用正则表达式爬虫如何处理HTML代码中的换行?的主要内容,如果未能解决你的问题,请参考以下文章

python正则如何处理NULL?

[IT学习]Python如何处理异常特殊字符

python如何处理单行实现三元表达式求解

如何处理python爬虫ip被封

如何处理python爬虫ip被封

如何处理python爬虫ip被封