如何利用python读取网页中变量的内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何利用python读取网页中变量的内容相关的知识,希望对你有一定的参考价值。

参考技术A 正常情况下都是能抓取的,有可能是你抓取时环境不一样所致。
比如你在某页面输入好了之后用Python抓取,py会发出请求,这时候你输入的东西是不可能被抓到的。
相当于你重新打开页面没有任何输入时在浏览器点击网页另存为一样。
或者补充下你的问题,才能有具体的解决方案!
参考技术B # encoding: UTF-8
import urllib2
import re
import json
content = urllib2.urlopen('http://yinyue.kuwo.cn/cinfo/24149/12_422038408_45/70后.htm').read()
pattern = re.compile(r'var\s+jsonm[=\s]+((?:(?!stortData[=\s]+)[\s\S])*);[\s\S]*stortData')
result = pattern.findall(content)
result = result[0]
print result
s = json.loads(result)
print s
print s.keys()
print s["musiclist"][0]["name"]

Python中怎样获取一网页上的内容?我想通过python读取网页上的各个不同的单词和分别出现的次数

参考技术A 最简单的办法,不需要任何第三方库,获取网页源代码,进行正则匹配:
import
urllib,re
url
=
"http://www.163.com"
#网页地址
wp
=
urllib.urlopen(url)
#打开连接
content
=
wp.read()
#获取页面内容
m
=
re.match(r"^你的单词$",
content)
len(m)
m就是匹配到所有单词的列表,len(m)就是该单词的个数了
参考技术B 你好
首先,浏览器显示给用户的内容完全是根据html源码来的、所以,你想获取的一切浏览器显示的内容,都是在html文件中存在的内容
统计页面上的单词,必然是要读html源文件的
可以使用urllib2库,以及re库来进行匹配查找,代码如下:
import
urllib2
import
re
word
=
'你想查找的单词'
urlfile
=
urllib2.urlopen('你要打开的网址内容,记住要带上协议前缀,比如http')
#以文件的形式打开一个网页
html
=
urlfile.read()
#从网页文件中读html
wordList
=
re.findall(re.compile(word),
html)
#正则findall
查找所有的单词
print
len(wordList)
#个数re模块记不太清,没试验、试试看,不行再追问

以上是关于如何利用python读取网页中变量的内容的主要内容,如果未能解决你的问题,请参考以下文章

Python中怎样获取一网页上的内容?我想通过python读取网页上的各个不同的单词和分别出现的次数

python如何读取网页中的数据

python怎么获取手机通话内容?

python 如何抓取动态页面内容?

Python编程学习之利用selenium分辨出可访问的网页并获取网页内容

python爬虫01-使用urllib爬取网页