python3.6+BeautifulSoup4.2 爬取各类app应用信息并下载app包

Posted xianjie0318

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python3.6+BeautifulSoup4.2 爬取各类app应用信息并下载app包相关的知识,希望对你有一定的参考价值。

---------------环境配置---------------

1、在Windows操作系统下安装python-3.6.4-amd64.exe

2、配置环境变量

Path变量:如C:\Users\Administrator\AppData\Local\Programs\Python\Python36\

打开cmd命令窗口,输入:python命令,可以进入python 编辑命令行,即可。

技术分享图片

3、把beautifulsoup4-4.6.0.tar.gz解压后,放在Python36\目录下,在cmd中...\Python36\beautifulsoup4-4.6.0\下执行命令

python setup.pyinstall ,安装成功不报错。

4、把get-pip.py放在...\Python36\目录下,执行命令:python get-pip.py,安装pip成功。

5、在...\Python36\Scripts目录下,打开cmd,导入requests、pymysql、urllib等模块,执行命令如下

pip installrequests

pip installpymysql

pip installurllib

测试一下python的环境---导入几个包,不报错即可

import requests

from bs4 importBeautifulSoup

import pymysql

fromurllib.request import urlopen

技术分享图片

 

-------------执行app应用信息爬取-----

1、首先把app爬取脚本getmiAppInfo整个文件夹放在...\Python36\Lib\site-packages目录下

2、修改数据库配置文件

\GetAllAppInfo\baseconfig.ini

如下:

[db]

DB_HOST=192.168.2.73

DB_PORT=3306

DB_USERNAME=root

DB_PASSWORD=cecgw

DB_BASEDATA=app

3、需要创建一个mysql数据库,数据库名称为app

执行表创建脚本

------------------------------

-- Tablestructure for appinfo1

------------------------------

DROP TABLE IFEXISTS `appinfo1`;

CREATE TABLE`appinfo1` (

  `id` int(11) NOT NULL AUTO_INCREMENT,

  `channel` varchar(50) DEFAULT NULL,

  `Faclassname` varchar(255) DEFAULT NULL,

  `subclassname` varchar(100) DEFAULT NULL,

  `appname` varchar(255) DEFAULT NULL,

  `score` varchar(50) DEFAULT NULL,

  `loadcounts` varchar(50) DEFAULT NULL,

  `size` varchar(50) DEFAULT NULL,

  `author` varchar(255) DEFAULT NULL,

  `updatetime` varchar(50) DEFAULT NULL,

  `version` varchar(100) DEFAULT NULL,

  `supsystem` varchar(100) DEFAULT NULL,

  `suplang` varchar(50) DEFAULT NULL,

  `appurl` varchar(255) DEFAULT NULL,

  `loadurl` varchar(255) DEFAULT NULL,

  `str1` varchar(255) DEFAULT NULL,

  `str2` varchar(255) DEFAULT NULL,

  `str3` varchar(255) DEFAULT NULL,

  `str4` varchar(255) DEFAULT NULL,

  `str5` varchar(255) DEFAULT NULL,

  PRIMARY KEY (`id`)

) ENGINE=InnoDBAUTO_INCREMENT=1038 DEFAULT CHARSET=utf8;

4、运行app爬取脚本

打开...\Python36\Lib\site-packages\GetAllAppInfo\目录,打开cmd,

执行命令python RunMain.py

根据渠道说明,输入渠道标号

如输入1,自动执行‘360手机助手’渠道的app应用信息爬取

技术分享图片

存储到数据库后,根据loadurl需要下载app.apk包下载到\GetAllAppInfo\pkg,请执行python appDownload.py

技术分享图片

注意:

源代码详见

链接:https://pan.baidu.com/s/1ggOJl2j 密码:0auz

以上是关于python3.6+BeautifulSoup4.2 爬取各类app应用信息并下载app包的主要内容,如果未能解决你的问题,请参考以下文章

vscode Python 无法导入beautifulsoup4解决方案 (bs4报错:vscode unresolved import 'beautifulsoup4')

BeautifulSoup4用法总结

python模块--BeautifulSoup4 和 lxml

BeautifulSoup4的学习

Beautifulsoup4 没有返回页面上的所有链接

安装BeautifulSoup4