Python爬虫系列 - 初探:爬取新闻推送

Posted kaimobile

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫系列 - 初探:爬取新闻推送相关的知识,希望对你有一定的参考价值。

Get发送内容格式

Get方式主要需要发送headersurlcookiesparams等部分的内容。

t = requests.get(url, headers = header, params = content, cookies = newscookies)

基本上发送以上四个变量即可,以下是示例代码。

url = https://weibo.com/a/aj/transform/loadingmoreunlogin
content = {
    ajwvr:        6,
    category:     1760,
    page:         3,
    lefnav:       0
    }
header = {
        User-Agent:       rMozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1,
        Accept:           r*/*,
        Accept-Language:  ren-US,en;q=0.5,
        Accept-Encoding:  rgzip, deflate,
        Referer:          referer,
        DNT:              1,
        Connection:       rkeep-alive
    }
# "" 字符可以起到代码换行的作用
newscookies = {
    "Apache":       "8599973819110.777.1525849965283",
    "SINAGLOBAL":   "8599973819110.777.1525849965283"
}
t = requests.get(url, headers = header, params = content, cookies = newscookies)
print(t.text)

处理JSON文件

主要思路将JSON文件转化为Python字典变量,二者的形式类似。

处理时注意JSON文件中可能同时包含列表List,有时需要指定下标,提取字典。

json.loads()

该函数将str类型转换为dict类型,其中字典中的引号为双引号。

p = ‘‘‘{"a": 1, "b": 2}‘‘‘
q = json.loads(p)

json.dumps()

该函数将dict类型的数据转换为str

p = {"a": 1, "b": 2}
q = json.dumps(p)

 


以上是关于Python爬虫系列 - 初探:爬取新闻推送的主要内容,如果未能解决你的问题,请参考以下文章

爬取汽车之家新闻图片的python爬虫代码

python3爬虫初探之从爬取到保存

Python 爬虫实例—— 爬取 新浪军事新闻

python2.7 爬虫初体验爬取新浪国内新闻_20161130

Python如何简单爬取腾讯新闻网前五页文字内容?

python初探爬虫