Python:使用正则表达式爬虫如何处理HTML代码中的换行?
Posted fxalll
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python:使用正则表达式爬虫如何处理HTML代码中的换行?相关的知识,希望对你有一定的参考价值。
比如我们需要爬豆瓣二十条短评,使用正则表达式:
<span class=“short”>(.*?)</span>
我们只能爬到17个,为什么呢?因为有的短评是带有换行的,正则表达式无法识别。
如何让它识别呢?
将(.*?)换为((?:.|\\n)*?)就可以了!
<span class=“short”>((?:.|\\n)*?)</span>
以上是关于Python:使用正则表达式爬虫如何处理HTML代码中的换行?的主要内容,如果未能解决你的问题,请参考以下文章