Python爬取新浪新闻(存入MySQL,EXCEL)

Posted xingweikun

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬取新浪新闻(存入MySQL,EXCEL)相关的知识,希望对你有一定的参考价值。

爬取新浪新闻的国内新闻,存入mysql和EXCEL

存入MySQL的代码可以爬取200多条新闻

存入EXCEL的代码可以爬取80至8000多条新闻不等(在代码中更改range中的数字,我会注释说明),或许可以爬取的更多,但爬取越多的数据同时也需要花费越多的时间。目前爬取6000多条新闻大概需要25分钟左右的时间。

Python爬取新浪新闻(存入MySQL)

爬取的是新闻标题和内容

首先在MySQL中创建spider(database),news1(table)
三个数据列,id(主键,非空,自增),content,text(Varchar(这里的值给多一些,要存入新闻正文内容))

def gethtmlText(url):
    

以上是关于Python爬取新浪新闻(存入MySQL,EXCEL)的主要内容,如果未能解决你的问题,请参考以下文章

python2.7 爬虫初体验爬取新浪国内新闻_20161130

Python_网络爬虫(新浪新闻抓取)

小爬新浪新闻AFCCL

python爬虫---实现项目 用BeautifulSoup分析新浪新闻数据

requests, Beautifusoup 爬取新浪新闻资讯

爬虫笔记第一次写爬虫,爬取新浪新闻网标题