Python中怎样获取一网页上的内容?我想通过python读取网页上的各个不同的单词和分别出现的次数

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python中怎样获取一网页上的内容?我想通过python读取网页上的各个不同的单词和分别出现的次数相关的知识,希望对你有一定的参考价值。

参考技术A 最简单的办法,不需要任何第三方库,获取网页源代码,进行正则匹配:
import
urllib,re
url
=
"http://www.163.com"
#网页地址
wp
=
urllib.urlopen(url)
#打开连接
content
=
wp.read()
#获取页面内容
m
=
re.match(r"^你的单词$",
content)
len(m)
m就是匹配到所有单词的列表,len(m)就是该单词的个数了
参考技术B 你好
首先,浏览器显示给用户的内容完全是根据html源码来的、所以,你想获取的一切浏览器显示的内容,都是在html文件中存在的内容
统计页面上的单词,必然是要读html源文件的
可以使用urllib2库,以及re库来进行匹配查找,代码如下:
import
urllib2
import
re
word
=
'你想查找的单词'
urlfile
=
urllib2.urlopen('你要打开的网址内容,记住要带上协议前缀,比如http')
#以文件的形式打开一个网页
html
=
urlfile.read()
#从网页文件中读html
wordList
=
re.findall(re.compile(word),
html)
#正则findall
查找所有的单词
print
len(wordList)
#个数re模块记不太清,没试验、试试看,不行再追问

python怎样抓取securecrt上的数据

通过execl执行是有区别的,通过命令行执行解释器文件就像通过命令行执行普通程序一样,程序名称作为第一个参数,命令行后面依次作为后续参数。正因为对于解释器文件的execl方式和命令行方式执行时选取第一个参数的方式不同,所以对于解释器文件a.py:
(1) 在命令行输入:./a.py arg1 arg2;
(2) execl("./a.py","arg1","arg2",(char*)0));
(3) execl("./a.py",”xxx”,"arg1","arg2",(char*)0));
方式(1)和方式(2)不等价,因为方式(1)中arg1会被当做第二个参数传递给解释器,而方式(2)中arg2会被当做第二个参数传递给解释器。方式(1)和方式(3)是等价的。
对于普通文件foo:
(1) 在命令行输入: ./foo arg1 arg2;
(2) execl("./foo","arg1","arg2",(char*)0))
方式(1)和方式(2)是等价的。
参考技术A 抓取网页数据的方法:
1,BeautifulSoup 处理一下, 修复一些格式上的问题;
2,用lxml提供的xpath解析器抽取网页内容到dict中;
3,用json库将dict转变成JSON;
4,用pymysql库提供的数据库api, 将JSON存储到数据库中。
参考技术B 围观python的众多功能,学习中。。 参考技术C securecrt有脚本功能,支持python语言 参考技术D python有ssh模块,请百度关键字:python ssh

以上是关于Python中怎样获取一网页上的内容?我想通过python读取网页上的各个不同的单词和分别出现的次数的主要内容,如果未能解决你的问题,请参考以下文章

python怎样抓取securecrt上的数据

python怎样抓取网页中的文字和数字数据

爬虫中怎样用扒出来的链接扒网页中的内容?

怎样用爬取网页中的pdf的内容

在ASP中怎样获取某表内容中所有图片?

VB如何获取网页的内容