我想用python抓取网页里的图片,地址,商铺名,电话号码,怎么写代码

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我想用python抓取网页里的图片,地址,商铺名,电话号码,怎么写代码相关的知识,希望对你有一定的参考价值。

我想用python抓取网页里的图片,地址,商铺名,电话号码,怎么写代码

参考技术A class DB(object):
def __init__(self, host, port, user,
passwd, db, use_unicode=True, charset='utf8'):
self.host = host
self.port = port
self.user = user
self.passwd = passwd
self.db = db
self.use_unicode = use_unicode
self.charset = charset

@property
def conn(self):
if not hasattr(self, '__conn'):
self.__conn = mysqldb.connect(
host=self.host,
port=self.port,
user=self.user,
passwd=self.passwd,
db=self.db,
use_unicode=self.use_unicode,
charset=self.charset
)
return self.__conn

def reboot_conn(self):
if hasattr(self, '__conn'):
try:
self.__conn.close()
del self.__conn
except:
pass

@catch_2006
def query(self, sql, args=None):
print sql
cursor = self.conn.cursor()
cursor.execute(sql, args)
cursor.execute('commit')
cursor.close()

@catch_2006
def select(self, sql, args=None, is_dict=False, is_one=False):
# print sql, args
if is_dict:
cursor = self.conn.cursor(cursorclass=DictCursor)
else:
cursor = self.conn.cursor()
cursor.execute(sql, args)
if is_one:
resultset = cursor.fetchone()[0]
else:
resultset = cursor.fetchall()
cursor.close()
return resultset
参考技术B 自行查询下这个:scrapy 参考技术C 为何不直接用采集工具呢?

Python爬虫技术干货,教你如何实现抓取京东店铺信息及下载图片

什么是Python爬虫开发

Python爬虫开发,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
技术图片
世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。

Python爬虫实例参考

这是一个用Python爬虫实现抓取京东店铺信息以及下载图片的例子,仅供参考。

信息抓取:

技术图片
图片下载的:
技术图片
注意:

1、在选择信息的时候用CSS

2、用 get_text()方法筛选标签中的文本信息

3、strip ,lstrip,rstrip 的用法:

Python中的strip 用于去除字符串的首尾字符;同理,lstrip 用于去除左边的字符;rstrip 用于去除右边的字符。

这三个函数其实都可以传入一个参数,指定要去除的首尾字符。

但是需要注意的是,传入的是一个字符数组,编译器去除两端所有相应的字符,直到没有匹配的字符,比如:
技术图片
theString依次被去除首尾在[‘s‘,‘a‘,‘y‘]数组内的字符,直到字符在不数组内。所以,输出的结果为:
技术图片
比较简单吧,lstrip和rstrip原理是一样的。

注意:当没有传入参数时,是默认去除首尾空格和换行符的。
技术图片
运行结果:
技术图片
以上案例代码部分以图片形式展示,仅供参考。

以上是关于我想用python抓取网页里的图片,地址,商铺名,电话号码,怎么写代码的主要内容,如果未能解决你的问题,请参考以下文章

使用 python 和 sqlite 进行网页抓取。如何有效存储抓取的数据?

Python爬虫技术干货,教你如何实现抓取京东店铺信息及下载图片

30分钟编写一个抓取 Unsplash 图片的 Python爬虫

请教网页里的特定数据怎么抓取?

如何用Java抓取网页的具体内容

Python3简单爬虫抓取网页图片