网页抓取后如何保存结果文本

Posted

技术标签:

【中文标题】网页抓取后如何保存结果文本【英文标题】:How to save result text after web scraping 【发布时间】:2015-06-02 09:19:03 【问题描述】:

我正在学习 Python 来制作网络爬虫。下面的代码通过帮助很好地工作。然后我想知道如何保存结果?你能帮忙解决这个问题吗?

import nltk
import urllib
import readability
from bs4 import BeautifulSoup
from readability.readability import Document
import mechanize

url = "http://www.nytimes.com/2015/06/02/science/medicines-hidden-roots-in-an-ancient-manuscript.html?ref=science&_r=0"

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Firefox')]

html = br.open(url).read()

readable_article = Document(html).summary()
readable_title = Document(html).short_title()

soup = BeautifulSoup(readable_article)

final_article = soup.text

links = soup.findAll('img', src=True)

print final_article

output = zip(readable_article,readable_title)
writer = csv.writer(open('newyorktimes.csv', 'wb'))
writer.writerows(final_article)

 exit()

【问题讨论】:

【参考方案1】:

这是一堆错别字:

你在做:

from readabiliry.radability import Document
#             ^   ^

你应该导入

from readability.readability import Document

【讨论】:

以上是关于网页抓取后如何保存结果文本的主要内容,如果未能解决你的问题,请参考以下文章

用python抓取的网页保存后为啥乱码?

苹果 swift 3 中的网页抓取

抓取网页数据

python怎么抓取网页中DIV的文字

为啥浏览器可以保存网页中js动态内容,用java编写的爬虫却无法抓取

如何用python抓取百度地图数据