用正则表达式,清除文章中多余的换行和空白字符

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用正则表达式,清除文章中多余的换行和空白字符相关的知识,希望对你有一定的参考价值。

在我们养成一个写文章的好习惯之前,往往格式是一团糟的.

尤其是使用各种富文本格式.

现在我已经认识到富文本格式的坏处了,我写文章,一般都会用纯文本格式,比如markdown.

如果以后写书,需要更丰富的排版的时候,我想我也会选择latex而不是word

写word还不如写html来的爽快.

富文本格式最大的问题在于不适合用git进行版本控制.而且体积也十分庞大.多占用了很多空间.

而且富文本格式里面并不像我们用vscode之类的编辑器编辑文本文件一样,也能显示出空白字符,所以不注意就生产了大量无用的空白字符.

另外富文本的格式太多太乱了,而且又对我们掩盖了这些格式的细节.

这里我翻出我5年前写的word文档,当时我比较喜欢换行,来表达自己奔放的情绪.

但是现在,我认识到了换行越多,信息密度越低的道理,觉得一个空行就够多了.

还有以前格式比较乱,即使是空行的行也有许多没用的空格,增加了文件大小

我把word文档复制到markdown里面就是这副惨状..

正则中的 \s 可以匹配空格和换行符.

我们用vscode的查找与替换功能

这里我们匹配大于一个空白字符的空行,然后用换行符替换,这样就去除多余的空格了,一番操作,去掉了50多个空行

我们设置最多有连续三个换行,所以我们把大于3个换行符的进行替换

换成3个换行符
参考技术A 多余的空白字符指什么,有什么要求?多余换行指的是不是空白行?
删除多余空白行,查找:^/s*\n,替换:空

以上是关于用正则表达式,清除文章中多余的换行和空白字符的主要内容,如果未能解决你的问题,请参考以下文章

vscode用正则清除多余空行

正则表达式的空值该如何写?

Python:使用正则表达式爬虫如何处理HTML代码中的换行?

Python:使用正则表达式爬虫如何处理HTML代码中的换行?

正则表达式 最近在做文本清洗,遇到(,,!或者?!!,),想要清除第一个逗号后面的所有多余标点符号

java正则表达式,怎么匹配空白行