浏览器中复制不能复制的文档并使用word通配符进行高级替换整理

Posted 数码爬坑

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了浏览器中复制不能复制的文档并使用word通配符进行高级替换整理相关的知识,希望对你有一定的参考价值。

使用谷歌浏览器找到自己需要的文档却不能复制,复制并整理的解决办法如下:

在浏览器页面按“F12”,出现编码页面:

选择“Console”选项卡,在命令提示后输入“document.body.innerText”后回车,即得到所需要的文本。与网页上的展示对比

 

 

 选择复制,或点击文末的“Copy”拷贝全文,打开work新建文档粘贴进去。

我们对网页文档和复制下来的代码进行对比:

网页展示:

 

 

复制下来的文本为: 

 

 

复制粘贴的文本中,每个新行都是上一行的中文汉字后跟两个“\\n\\n”再跟英文字符作为分隔。我们需要将这种规则的字符段提取出来将“\\n\\n”替换为word中的回车。

word中按“ctrl+H”后作如下配置后进行全文替换:

 

 

 其中各选项说明如下:

  查找内容(N):“([一-龥])(\\\\n)(\\\\n)([a-zA-Z])”中的四个元组代表4个字符,“[一-龥]”匹配所有汉字,为第1个元组;“\\\\n”匹配特殊字符“\\n”,按照文本中的内容有连续两个,匹配第2、3两个元组;“[a-zA-Z]”匹配一个英文字符,为第4个元组。

  替换为(I):“\\1^p\\4”中“\\1”将查找到的第1个元组原样保留;“^p”为添加一个回车;“\\4”将查找的第4个元组原样保留。第2、第3个元组不再保留丢弃。

  务必选中“搜索选项”中的“使用通配符”复选框,否则word无法识别查找替换内容。

点击“全部替换(A)”后是这样的:

 

 

再将页码和分页广告部分分离出来手工删除:

 

 

 

 

这里我们看到已经基本将表格内容展示出来了。随后再将连续两个“\\n\\n”替换为制表符,按键“ctrl+H”设置查找替换如下:

 

 

 最终成为按行以制表符分隔的word文档。

如有需要,还可以将word文档另存为txt后使用excel打开设置表列分隔符为制表符制成excel的表格,查询时更加清晰。具体操作如下:

将word文档另存为txt文档:

 

 

这里选择“其他编码(O)”为“简体中文(GB18030)”,否则会出现“标记为红色的文字将无法用所选编码正确保存”的错误提示如下:

 

 笔者使用的word为2019版office。

使用excel打开上述txt文件,文件原始格式选择刚才存储txt文档时使用的“简体中文(GB18030)”,否则会有部分不兼容的情况。

 

 

即可看到熟悉的分列提示,按需要设置:

 

 

最终转换为excel表格成功。

 

以上是关于浏览器中复制不能复制的文档并使用word通配符进行高级替换整理的主要内容,如果未能解决你的问题,请参考以下文章

文档可修改,但不能复制粘贴,怎么办?

我刚安装了mathtype软件后,word文档中就不能进行复制粘贴操作了,提示宏被禁止,是啥原因,

怎么把网页的word文档导出来

网页中复制的文字不能粘贴到word中是啥原因

怎么把word文档的内容直接复制粘贴到excel里面自动生成表格?

word文档如何生成二维码