使用爬虫,不知道这些库那你就亏大了,9年工作经历的老程序员熬夜总结,建议收藏!

Posted 奋斗奋斗在奋斗!

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用爬虫,不知道这些库那你就亏大了,9年工作经历的老程序员熬夜总结,建议收藏!相关的知识,希望对你有一定的参考价值。

“人生苦短,我用python。”这句话已经成为了众多python使用者的口头禅,随着几十年的累积和沉淀,python已经成为当今最热门的语言之一!python能有今天的位置,不是没有原因的,python功能强大,但是这些都离不开它各种强大的库,今天就给大家介绍一些python中好用强大的库!

网络爬虫

  1. pyquery 最简洁网页解析库.
  2. cola  一个分布式爬虫框架.
  3. MechanicalSoup  用于自动和网络站点交互的 Python 库.
  4. Scrapy 一个简单的Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器.
  5. portia - Scrapy 可视化爬取.
  6. BeautifulSoup 最简单的网页解析库
  7. scylla 智能IP代理池,用于反爬.

机器学习

  1. scikit-learn 机器学习最流行的Python库,支持有监督、无监督多种算法,含文本分析功能.
  2. Spark ML  是一个Python scikit构建和分析推荐系统.
  3. label-studio 最牛掰的文本数据标注工具.
  4. Orange3 点击操作的机器学习分析软件, 可文本分析.
  5. NuPIC  Apache Spark的可扩展机器学习库.
  6. Metrics  一个Python实现的一些流行的推荐算法.
  7. gensim  Gensim用于主题建模,文档索引和大型语料库的相似探索的python库.

视频

  1. moviepy - 用于基于脚本的电影编辑的模块,包括动画GIF等多种格式.
  2. scikit-video - SciPy的视频处理模块.

图像处理库

  1. hmap  图像直方图的库.
  2. scikit-image  用于(科学)图像处理的Python库.
  3. python-qrcode  一个纯Python QR码生成器.
  4. thumbor  一个小型图像服务,具有剪裁,尺寸重设和翻转功能.

GUI

  1. curses  用于创建终端GUI应用程序的ncurses的内置包装器.
  2. PySimpleGUI  最简单的gui开发库.
  3. tkinter Python内置的gui库.
  4. kivy  用于创建在Windows,Linux,Mac OS X,androidios上运行的GUI应用程序的库.

邮件

  1. Marrow Mailer  高性能可扩展邮件传递框架.
  2. envelopes  发送邮件的库.
  3. flanker  用于发送和解析邮件的库.
  4. modoboa  邮件托管和管理平台,包括现代和简化的Web UI.
  5. Nylas Sync Engine  在功能强大的电子邮件同步平台之上提供RESTful API.

游戏开发库

  1. PyOgre  Ogre 3D渲染引擎的Python绑定,可用于游戏、模拟、任何3D.
  2. RenPy - 视觉新颖引擎.
  3. Panda3D - 迪斯尼开发和卡内基梅隆大学娱乐技术中心保持的3D游戏引擎。用C ++编写,完全包含在Python中.

数据分析库

  1. Orange - 通过视觉编程或脚本进行数据挖掘、数据可视化、分析和机器学习.
  2. modin  pandas加速库,接口语法与pandas十分相似.
  3. networkx  社交网络分析库.
  4. Pandas  量化领域数据分析最常用的一个包.

可视化

  1. Altair  Altair是一个专为Python编写的可视化软件包,它能让数据科学家更多地关注数据本身和其内在的联系.
  2. Bokeh  是一个专门针对Web浏览器的呈现功能的交互式可视化Python库.
  3. Pygal  将数字转化成图表的形式来呈现,它提供的图表样式有柱状图、折线图、饼状图、雷达图d等.
  4. datapane  一个开放源代码的python库/框架,可轻松将脚本和笔记本转换为交互式报告.
  5. matplotlib  是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。

数据库

  1. TinyDB  一个面向文档的数据库.
  2. Sqlite3  python内置库,轻量级的sql数据库.
  3. redis  一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API.
  4. pymongo  非关系型MongoDB库.
  5. ZODB  Python的本机对象数据库.
  6. pickleDB  一个用于Python的简单轻便的键值存储.

Web框架

  1. Django  Python中功能最强大的Web框架.
  2. Flask  一个由Python语言写成的轻量级Web框架.
  3. TurboGears 提供网页前端到后端开发的一个整合的Web框架.
  4. Web2py  免费的开源Web框架,具有快速、可扩展、安全以及可移植的数据库驱动的应用.
  5. Sanic  基于Python3.5+的web框架,它编写的代码速度特别快.

文本格式库

  1. tablib  python操作Excel数据最好用的库,处理XLS,CSV,JSON,YAML中的表格数据集的模块.
  2. pyexcel  提供一个用于读取,操作和编写csv、ods、xls、xlsx和xlsm文件的APIs.
  3. Marmir  使用Python数据结构并将其转换成电子表格.
  4. XlsxWriter  用于创建Excel .xlsx文件的Python模块.
  5. python-docx - 读取、查询和修改Microsoft Word 2007/2008 docx文件.
  6. ReportLab  允许快速创建丰富的PDF文档

深度学习

  1. Keras  一个由Python编写的开源人工神经网络库,可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口,进行深度学习模型的设计、调试、评估、应用和可视化.
  2. Theano  是神经网络python机器学习的模块,和TensorFlow非常类似,可以说是TensorFlow的鼻祖.
  3. TensorFlow  TensorFlow是Google开发的一款神经网络的Python外部的结构包,也是一个采用数据流图来进行数值计算的开源软件库.
  4. MXNet  一个旨在提高效率和灵活性的深度学习框架.
  5. Caffe  咖啡是一个深刻的学习框架,其思想包括表达、速度和模块化.

 结语

以上就是我这些年使用python收集的一些比较好用的库,如果大家觉得有所帮助,希望可以给我一个素质三连,谢谢!

以上是关于使用爬虫,不知道这些库那你就亏大了,9年工作经历的老程序员熬夜总结,建议收藏!的主要内容,如果未能解决你的问题,请参考以下文章

不懂分布式锁的这些问题,就亏大了

别以为面试完就完事了!大厂HR告诉你这件事不做就亏大了!

年后“离职潮”来袭,跳槽不注意这些亏大了!

2021年,不懂这1条赚钱法则的人都亏大了!

学习Python,这29个实用小技巧你如果不知道的话,那亏大了!纯干货,建议收藏

这些后台启动姿势错过可亏大了