抽取网页源代码中的中文字符

Posted 草莓干123456

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了抽取网页源代码中的中文字符相关的知识,希望对你有一定的参考价值。

通过正则匹配中文字符,写入新的文本,我在这里删除了表示字体的中文

import re
f=open(r‘C:\Users\lenovo\Desktop\1.txt‘,‘r‘,encoding=‘utf8‘)
m= re.compile(u"[\u4e00-\u9fa5]+")
p=open(r‘C:\Users\lenovo\Desktop\2.txt‘,‘w‘,encoding=‘utf8‘)
for line in f.readlines():
    list=re.findall(m,line)
    for i in list:
        if i!=‘宋体‘:
            p.write(i)
    p.write(‘\n‘)
p.close()
f.close()

1.txt是网页源代码文件,如下:

<html>

<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<meta name="GENERATOR" content="Microsoft FrontPage 6.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<title>回归分析原理之逐步回归分析</title>
</head>

<body background="images/bg.jpg">
<p style="line-height: 150%; margin-top: 0; margin-bottom: 0" align="center"><b>
<font face="宋体" style="font-size: 11pt">§</font><font face="宋体" size="3">4 
逐步回归分析</font></b></p>
<p style="line-height: 150%; margin-top: 0; margin-bottom: 0" align="center"> </p>
<p style="line-height: 150%; margin-top: 0; margin-bottom: 0">
<font face="宋体" style="font-size: 9pt">、逐步回归分析的主要思路</font></p>
<p style="line-height: 150%; margin-top: 0; margin-bottom: 0">
...

2.txt是抽取中文后的文件,如下:

逐步回归分析


逐步回归分析的主要思路

在实际问题中人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量应用多元回归分析的方法建立最优回归方程以便对因变量进行预报或控制所谓最优回归方程主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程逐步回归分析正是根据这种原则提出来的一种回归分析方法它的主要思路是在考虑的全部自变量中按其对的作用大小显著程度大小或者说贡献大小由大到小地逐个引入回归方程而对那些对作用不显著的变量可能始终不被引人回归方程另外己被引人回归方程的变量在引入新变量后也可能失去重要性而需要从回归方程中剔除出去引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步每一步都要进行检验以保证在引人新变量前回归方程中只含有对影响显著的变量而不显著的变量已被剔除
...

 

以上是关于抽取网页源代码中的中文字符的主要内容,如果未能解决你的问题,请参考以下文章

11SpringBoot-CRUD-thymeleaf公共页面元素抽取

新闻网页通用抽取器GNEv0.04版更新,支持提取正文图片与源代码

在 JSP 中的 <% %> 代码片段中添加链接

HTML代码片段

HTML代码片段

21个常用代码片段