使用爬虫,不知道这些库那你就亏大了,9年工作经历的老程序员熬夜总结,建议收藏!
Posted 奋斗奋斗在奋斗!
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用爬虫,不知道这些库那你就亏大了,9年工作经历的老程序员熬夜总结,建议收藏!相关的知识,希望对你有一定的参考价值。
“人生苦短,我用python。”这句话已经成为了众多python使用者的口头禅,随着几十年的累积和沉淀,python已经成为当今最热门的语言之一!python能有今天的位置,不是没有原因的,python功能强大,但是这些都离不开它各种强大的库,今天就给大家介绍一些python中好用强大的库!
网络爬虫
- pyquery 最简洁网页解析库.
- cola 一个分布式爬虫框架.
- MechanicalSoup 用于自动和网络站点交互的 Python 库.
- Scrapy 一个简单的Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器.
- portia - Scrapy 可视化爬取.
- BeautifulSoup 最简单的网页解析库
-
scylla 智能IP代理池,用于反爬.
机器学习
- scikit-learn 机器学习最流行的Python库,支持有监督、无监督多种算法,含文本分析功能.
- Spark ML 是一个Python scikit构建和分析推荐系统.
- label-studio 最牛掰的文本数据标注工具.
- Orange3 点击操作的机器学习分析软件, 可文本分析.
- NuPIC Apache Spark的可扩展机器学习库.
- Metrics 一个Python实现的一些流行的推荐算法.
-
gensim Gensim用于主题建模,文档索引和大型语料库的相似探索的python库.
视频
- moviepy - 用于基于脚本的电影编辑的模块,包括动画GIF等多种格式.
- scikit-video - SciPy的视频处理模块.
图像处理库
- hmap 图像直方图的库.
- scikit-image 用于(科学)图像处理的Python库.
- python-qrcode 一个纯Python QR码生成器.
- thumbor 一个小型图像服务,具有剪裁,尺寸重设和翻转功能.
GUI
- curses 用于创建终端GUI应用程序的ncurses的内置包装器.
- PySimpleGUI 最简单的gui开发库.
- tkinter Python内置的gui库.
- kivy 用于创建在Windows,Linux,Mac OS X,android和ios上运行的GUI应用程序的库.
邮件
- Marrow Mailer 高性能可扩展邮件传递框架.
- envelopes 发送邮件的库.
- flanker 用于发送和解析邮件的库.
- modoboa 邮件托管和管理平台,包括现代和简化的Web UI.
- Nylas Sync Engine 在功能强大的电子邮件同步平台之上提供RESTful API.
游戏开发库
- PyOgre Ogre 3D渲染引擎的Python绑定,可用于游戏、模拟、任何3D.
- RenPy - 视觉新颖引擎.
- Panda3D - 迪斯尼开发和卡内基梅隆大学娱乐技术中心保持的3D游戏引擎。用C ++编写,完全包含在Python中.
数据分析库
- Orange - 通过视觉编程或脚本进行数据挖掘、数据可视化、分析和机器学习.
- modin pandas加速库,接口语法与pandas十分相似.
- networkx 社交网络分析库.
- Pandas 量化领域数据分析最常用的一个包.
可视化
- Altair Altair是一个专为Python编写的可视化软件包,它能让数据科学家更多地关注数据本身和其内在的联系.
- Bokeh 是一个专门针对Web浏览器的呈现功能的交互式可视化Python库.
- Pygal 将数字转化成图表的形式来呈现,它提供的图表样式有柱状图、折线图、饼状图、雷达图d等.
- datapane 一个开放源代码的python库/框架,可轻松将脚本和笔记本转换为交互式报告.
- matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。
数据库
- TinyDB 一个面向文档的数据库.
- Sqlite3 python内置库,轻量级的sql数据库.
- redis 一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API.
- pymongo 非关系型MongoDB库.
- ZODB Python的本机对象数据库.
- pickleDB 一个用于Python的简单轻便的键值存储.
Web框架
- Django Python中功能最强大的Web框架.
- Flask 一个由Python语言写成的轻量级Web框架.
- TurboGears 提供网页前端到后端开发的一个整合的Web框架.
- Web2py 免费的开源Web框架,具有快速、可扩展、安全以及可移植的数据库驱动的应用.
- Sanic 基于Python3.5+的web框架,它编写的代码速度特别快.
文本格式库
- tablib python操作Excel数据最好用的库,处理XLS,CSV,JSON,YAML中的表格数据集的模块.
- pyexcel 提供一个用于读取,操作和编写csv、ods、xls、xlsx和xlsm文件的APIs.
- Marmir 使用Python数据结构并将其转换成电子表格.
- XlsxWriter 用于创建Excel .xlsx文件的Python模块.
- python-docx - 读取、查询和修改Microsoft Word 2007/2008 docx文件.
- ReportLab 允许快速创建丰富的PDF文档
深度学习
- Keras 一个由Python编写的开源人工神经网络库,可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口,进行深度学习模型的设计、调试、评估、应用和可视化.
- Theano 是神经网络python机器学习的模块,和TensorFlow非常类似,可以说是TensorFlow的鼻祖.
- TensorFlow TensorFlow是Google开发的一款神经网络的Python外部的结构包,也是一个采用数据流图来进行数值计算的开源软件库.
- MXNet 一个旨在提高效率和灵活性的深度学习框架.
- Caffe 咖啡是一个深刻的学习框架,其思想包括表达、速度和模块化.
结语
以上就是我这些年使用python收集的一些比较好用的库,如果大家觉得有所帮助,希望可以给我一个素质三连,谢谢!
以上是关于使用爬虫,不知道这些库那你就亏大了,9年工作经历的老程序员熬夜总结,建议收藏!的主要内容,如果未能解决你的问题,请参考以下文章