2017年10大流行Python库都有哪些

Posted 2023-04-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了2017年10大流行Python库都有哪些相关的知识，希望对你有一定的参考价值。

1、NumPy
NumPy是构建科学计算 stack 的最基础的包。它为 Python 中的 n 维数组和矩阵的操作提供了大量有用的功能。该库还提供了 NumPy 数组类型的数学运算向量化，可以提升性能，从而加快执行速度。

2、SciPy
SciPy 是一个工程和科学软件库，包含线性代数、优化、集成和统计的模块。SciPy 库的主
要功能建立在 NumPy 的基础之上，它通过其特定的子模块提供高效的数值例程操作。SciPy 的所有子模块中的函数都有详细的文档，这也是一个优势。
3、Pandas
Pandas是一个 Python 包，旨在通过「标记(labeled)」和「关系(relational)」数据进行工作，简单直观。Pandas 是 data wrangling 的完美工具。它设计用于快速简单的数据操作、聚合和可视化。
4、Seaborn
Seaborn 主要关注统计模型的可视化;这种可视化包括热度图(heat map)，可以总结数据但也描绘总体分布。Seaborn 基于 Matplotlib，并高度依赖于它。
5、Bokeh
Bokeh是一个很好的可视化库，其目的是交互式可视化，不过这个库独立于 Matplotlib，它通过现代浏览器以数据驱动文档(D3.js)的风格呈现。
6、Scikits
Scikits 是 SciPy Stack 的附加软件包，专为特定功能(如图像处理和辅助机器学习)而设计。其中最突出的一个是 scikit-learn。该软件包构建于 SciPy 之上，并大量使用其数学操作，是使用 Python 进行机器学习的实际上的行业标准。
7、Theano
Theano 是一个 Python 包，它定义了与 NumPy 类似的多维数组，以及数学运算和表达式。该库是经过编译的，使其在所有架构上能够高效运行。这个库最初由蒙特利尔大学机器学习组开发，主要是为了满足机器学习的需求。
8、Keras
Keras是一个使用高层接口构建神经网络的开源库，它是用 Python 编写的。它简单易懂，具有高级可扩展性。Keras 极其容易上手，而且可以进行快速的原型设计，足以用于严肃的建模。
9、Gensim
Gensim是一个用于 Python 的开源库，实现了用于向量空间建模和主题建模的工具。Gensim 实现了诸如分层 Dirichlet 进程(HDP)、潜在语义分析(LSA)和潜在 Dirichlet 分配(LDA)等算法，还有 tf-idf、随机投影、word2vec 和 document2vec，以便于检查一组文档(通常称为语料库)中文本的重复模式。
10、Scrapy
Scrapy 是用于从网络检索结构化数据的爬虫程序的库。它现在已经发展成了一个完整的框架，可以从 API 收集数据，也可以用作通用的爬虫。该库在接口设计上遵循著名的 Don』t Repeat Yourself 原则——提醒用户编写通用的可复用的代码，因此可以用来开发和扩展大型爬虫。参考技术A Python常用库大全，看看有没有你需要的。
环境管理
管理 Python 版本和环境的工具
p – 非常简单的交互式 python 版本管理工具。
pyenv – 简单的 Python 版本管理工具。
Vex – 可以在虚拟环境中执行命令。
virtualenv – 创建独立 Python 环境的工具。
virtualenvwrapper- virtualenv 的一组扩展。
包管理
管理包和依赖的工具。
pip – Python 包和依赖关系管理工具。
pip-tools – 保证 Python 包依赖关系更新的一组工具。
conda – 跨平台，Python 二进制包管理工具。
Curdling – 管理 Python 包的命令行工具。
wheel – Python 分发的新标准，意在取代 eggs。
包仓库
本地 PyPI 仓库服务和代理。
warehouse – 下一代 PyPI。
Warehousebandersnatch – PyPA 提供的 PyPI 镜像工具。
devpi – PyPI 服务和打包/测试/分发工具。
localshop – 本地 PyPI 服务（自定义包并且自动对 PyPI 镜像）。
分发
打包为可执行文件以便分发。
PyInstaller – 将 Python 程序转换成独立的执行文件（跨平台）。
dh-virtualenv – 构建并将 virtualenv 虚拟环境作为一个 Debian 包来发布。
Nuitka – 将脚本、模块、包编译成可执行文件或扩展模块。
py2app – 将 Python 脚本变为独立软件包（Mac OS X）。
py2exe – 将 Python 脚本变为独立软件包（Windows）。
pynsist – 一个用来创建 Windows 安装程序的工具，可以在安装程序中打包 Python本身。
构建工具
将源码编译成软件。
buildout – 一个构建系统，从多个组件来创建，组装和部署应用。
BitBake – 针对嵌入式 Linux 的类似 make 的构建工具。
fabricate – 对任何语言自动找到依赖关系的构建工具。
PlatformIO – 多平台命令行构建工具。
PyBuilder – 纯 Python 实现的持续化构建工具。
SCons – 软件构建工具。
交互式解析器
交互式 Python 解析器。
IPython – 功能丰富的工具，非常有效的使用交互式 Python。
bpython- 界面丰富的 Python 解析器。
ptpython – 高级交互式Python解析器，构建于python-prompt-toolkit 之上。
文件
文件管理和 MIME（多用途的网际邮件扩充协议）类型检测。
imghdr – （Python 标准库）检测图片类型。
mimetypes – （Python 标准库）将文件名映射为 MIME 类型。
path.py – 对 os.path 进行封装的模块。
pathlib – （Python3.4+ 标准库）跨平台的、面向对象的路径操作库。
python-magic- 文件类型检测的第三方库 libmagic 的 Python 接口。
Unipath- 用面向对象的方式操作文件和目录
watchdog – 管理文件系统事件的 API 和 shell 工具
日期和时间
操作日期和时间的类库。
arrow- 更好的 Python 日期时间操作类库。
Chronyk – Python 3 的类库，用于解析手写格式的时间和日期。
dateutil – Python datetime 模块的扩展。
delorean- 解决 Python 中有关日期处理的棘手问题的库。
moment – 一个用来处理时间和日期的Python库。灵感来自于Moment.js。
PyTime – 一个简单易用的Python模块，用于通过字符串来操作日期/时间。
pytz – 现代以及历史版本的世界时区定义。将时区数据库引入Python。
when.py – 提供用户友好的函数来帮助用户进行常用的日期和时间操作。
文本处理
用于解析和操作文本的库。
通用
chardet – 字符编码检测器，兼容 Python2 和 Python3。
difflib – (Python 标准库)帮助我们进行差异化比较。
ftfy – 让Unicode文本更完整更连贯。
fuzzywuzzy – 模糊字符串匹配。
Levenshtein – 快速计算编辑距离以及字符串的相似度。
pangu.py – 在中日韩语字符和数字字母之间添加空格。
pyfiglet -figlet 的 Python实现。
shortuuid – 一个生成器库，用以生成简洁的，明白的，URL 安全的 UUID。
unidecode – Unicode 文本的 ASCII 转换形式。
uniout – 打印可读的字符，而不是转义的字符串。
xpinyin – 一个用于把汉字转换为拼音的库。

最受欢迎的 15 大 Python 库都有哪些

1、Pandas：是一个Python包，旨在通过“标记”和“关系”数据进行工作，简单直观。它设计用于快速简单的数据操作、聚合和可视化，是数据整理的完美工具。
2、Numpy：是专门为Python中科学计算而设计的软件集合，它为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库提供了NumPy数组类型的数学运算向量化，可以改善性能，从而加快执行速度。
3、SciPy：是一个工程和科学软件库，包含线性代数，优化，集成和统计的模块。SciPy库的主要功能是建立在NumPy上，通过其特定子模块提供有效的数值例程，并作为数字积分、优化和其他例程。
4、Matplotlib：为轻松生成简单而强大的可视化而量身定制，它使Python成为像MatLab或Mathematica这样的科学工具的竞争对手。
5、Seaborn：主要关注统计模型的可视化(包括热图)，Seaborn高度依赖于Matplotlib。
6、Bokeh：独立于Matplotlib，主要焦点是交互性，它通过现代浏览器以数据驱动文档的风格呈现。
7、Plotly：是一个基于Web用于构建可视化的工具箱，提供API给一些编程语言(Python在内)。
8、Scikits：是Scikits
Stack额外的软件包，专为像图像处理和机器学习辅助等特定功能而设计。它建立在SciPy之上，中集成了有质量的代码和良好的文档、简单易用并且十分高效，是使用Python进行机器学习的实际行业标准。
9、Theano：是一个Python软件包，它定义了与NumPy类似的多维数组，以及数学运算和表达式。此库是被编译的，可实现在所有架构上的高效运行。
10、TensorFlow：是数据流图计算的开源库，旨在满足谷歌对训练神经网络的高需求，并且是基于神经网络的机器学习系统DistBelief的继任者，可以在大型数据集上快速训练神经网络。
11、Keras：是一个用Python编写的开源的库，用于在高层的接口上构建神经网络。它简单易懂，具有高级可扩展性。
12、NLTK：主要用于符号学和统计学自然语言处理(NLP) 的常见任务，旨在促进NLP及相关领域(语言学，认知科学人工智能等)的教学和研究。
13、Gensim：是一个用于Python的开源库，为有向量空间模型和主题模型的工作提供了使用工具。这个库是为了高效处理大量文本而设计，不仅可以进行内存处理，还可以通过广泛使用NumPy数据结构和SciPy操作来获得更高的效率。参考技术A Igor Bobriakov
近年来，Python 在数据科学行业扮演着越来越重要的角色。因此，我根据近来的使用体验，在本文中列出了对数据科学家、工程师们最有用的那些库。
由于这些库都开源了，我们从Github上引入了提交数，贡献者数和其他指标，这可以作为库流行程度的参考指标。
核心库1. NumPy (提交数: 15980, 贡献者数: 522)
当开始处理Python中的科学任务，Python的SciPy Stack肯定可以提供帮助，它是专门为Python中科学计算而设计的软件集合（不要混淆SciPy库，它是SciPy Stack的一部分，和SciPy Stack的社区）这样我们开始来看一下吧。然而，SciPy Stack相当庞大，其中有十几个库，我们把焦点放在核心包上（特别是最重要的）。
关于建立科学计算栈，最基本的包是Numpy（全称为Numerical Python）。它为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库提供了NumPy数组类型的数学运算向量化，可以改善性能，从而加快执行速度。
2. SciPy (提交数: 17213, 贡献者数: 489)
SciPy是一个工程和科学软件库。雷锋网再次提醒，你需要理解SciPy Stack和SciPy库之间的区别。
SciPy包含线性代数，优化，集成和统计的模块。SciPy库的主要功能是建立在NumPy上，从而它的数组大量的使用了NumPy的。它通过其特定子模块提供有效的数值例程，并作为数字积分、优化和其他例程。SciPy的所有子模块中的功能都有详细的说明 ——又是一个SciPy非常有帮助的点。
3. Pandas (提交数: 15089, 贡献者数：762)
Pandas是一个Python包，旨在通过“标记”和“关系”数据进行工作，简单直观。Pandas是数据整理的完美工具。它设计用于快速简单的数据操作，聚合和可视化。
库中有两个主要的数据结构：
“系列”（Series），一维

“数据帧”（Data Frames），二维

例如，当您要从这两种类型的结构中接收到一个新的Dataframe时，通过传递一个Series，您将收到一个单独的行到DataFrame的DF：

这里稍微列出了你可以用Pandas做的事情：
轻松删除并添加数据帧（DataFrame）中的列
将数据结构转换为数据帧（DataFrame）对象
处理丢失的数据，表示为NaN
功能强大的分组
Google趋势记录

trends.google.com
GitHub请求历史记录

datascience.com/trends
可视化4.Matplotlib (提交数: 21754, 贡献者数: 588)
又一个SciPy Stack核心软件包以及 Python库，Matplotlib为轻松生成简单而强大的可视化而量身定制。它是一个顶尖的软件（在NumPy，SciPy和Pandas的帮助下），它使Python成为像MatLab或Mathematica这样的科学工具的竞争对手。
然而，这个库是低层级的，这意味着你需要编写更多的代码才能达到高级的可视化效果，而且通常会比使用更多的高级工具付出更多的努力，但总体上这些努力是值得的。
只要付出一点你就可以做任何可视化：
线图
散点图
条形图和直方图
饼状图;
茎图
轮廓图
场图
频谱图
还有使用Matplotlib创建标签，网格，图例和许多其他格式化实体的功能。基本上，一切都是可定制的。
该库由不同的平台支持，并使用不同的GUI套件来描述所得到的可视化。不同的IDE（如IPython）都支持Matplotlib的功能。
还有一些额外的库可以使可视化变得更加容易。

5. Seaborn (提交数: 1699, 贡献者数: 71)
Seaborn主要关注统计模型的可视化；这种可视化包括热图，这些热图（heat map）总结数据但仍描绘整体分布。Seaborn基于Matplotlib，并高度依赖于此。

6. Bokeh (提交数: 15724, 贡献者数: 223)
另一个很不错的可视化库是Bokeh，它针对交互式可视化。与以前的库相比，它独立于Matplotlib。正如我们提到的，Bokeh的主要焦点是交互性，它通过现代浏览器以数据驱动文档（d3.js）的风格呈现。

7. Plotly (提交数: 2486, 贡献者数: 33)
最后，关于Plotly的话。它是一个基于Web用于构建可视化的工具箱，提供API给一些编程语言（Python在内）。在plot.ly网站上有一些强大的、上手即用的图形。为了使用Plotly，你将需要设置API密钥。图形将在服务器端处理，并发布到互联网，但有一种方法可以避免。

Google趋势记录

trends.google.com
GitHub请求历史记录

datascience.com/trends
机器学习8. SciKit-Learn (提交数：21793, 贡献者数：842)
Scikits是Scikits Stack额外的软件包，专为像图像处理和机器学习辅助等特定功能而设计。对于机器学习辅助，scikit-learn是所有软件包里最突出的一个。它建立在SciPy之上，并大量利用它的数学运算。
scikit-learn给常见的机器学习算法公开了一个简洁、一致的接口，可简单地将机器学习带入生产系统中。该库中集成了有质量的代码和良好的文档、简单易用并且十分高效，是使用Python进行机器学习的实际行业标准。
深度学习—— Keras / TensorFlow / Theano
在深度学习方面，Python中最着名和最便的库之一是Keras，它可以在TensorFlow或Theano框架上运行。让我们来看一下它们的一些细节。
9.Theano. (提交数：25870, 贡献者数：300)
首先让我们谈谈Theano。
Theano是一个Python软件包，它定义了与NumPy类似的多维数组，以及数学运算和表达式。此库是被编译的，可实现在所有架构上的高效运行。最初由蒙特利尔大学机器学习组开发，它主要用于满足机器学习的需求。
值得注意的是，Theano紧密结合了NumPy在低层次上的运算。另外，该库还优化了GPU和CPU的使用，使数据密集型的计算平台性能更佳。
效率和稳定性微调保证了即使在数值很小的情况下，仍有更精确的结果，例如，即使只给出x的最小值，log（1 + x）仍能计算出合理的结果。
10. TensorFlow. (提交数: 16785,贡献者数: 795)
TensorFlow来自Google的开发人员，它是数据流图计算的开源库，为机器学习不断打磨。它旨在满足谷歌对训练神经网络的高需求，并且是基于神经网络的机器学习系统DistBelief的继任者。然而，TensorFlow并不限制于谷歌的科学应用范围 – 它可以通用于多种多样的现实应用中。
TensorFlow的关键特征是它的多层节点系统，可以在大型数据集上快速训练神经网络。这为谷歌的语音识别和图像对象识别提供了支持。
11. Keras. (提交数: 3519,贡献者数: 428)
最后我们来看看Keras。它是一个用Python编写的开源的库，用于在高层的接口上构建神经网络。它简单易懂，具有高级可扩展性。Keras使用Theano或TensorFlow作为后端，但微软现在正努力整合CNTK（微软的认知工具包）作为新的后端。
设计中的简约方法旨在通过建立紧凑型系统进行快速、简便的实验。
Keras真的容易上手，并在持续完善它的快速原型能力。它完全用Python编写，可被高度模块化和扩展。尽管它以易上手、简单和以高层次为导向，但是Keras足够有深度并且足够强大，去支持复杂的模型。
谷歌发展趋势历史

trends.google.com
GitHub请求历史记录

datascience.com/trends
自然语言处理12. NLTK (提交数: 12449,贡献者数: 196)
这个库的名称“Natural Language Toolkit”，代表自然语言工具包，顾名思义，它用于符号学和统计学自然语言处理（NLP) 的常见任务。 NLTK旨在促进NLP及相关领域（语言学，认知科学人工智能等）的教学和研究，目前受到重点关注。
NLTK的功能允许很多操作，例如文本标记，分类和标记，实体名称识别，建立语料库，可以显示语言内部和各句子间的依赖性、词根、语义推理等。所有的构建模块都可以为不同的任务构建复杂的研究系统，例如情绪分析，自动总结。
13. Gensim (提交数: 2878,贡献者数: 179)
它是一个用于Python的开源库，为有向量空间模型和主题模型的工作提供了使用工具。这个库是为了高效处理大量文本而设计的，所以不仅可以进行内存处理，还可以通过广泛使用NumPy数据结构和SciPy操作来获得更高的效率。Gensim高效也易于使用。
Gensim旨在与原始和非结构化的数字文本一起使用。它实现了诸如hierarchical Dirichlet processes（HDP），潜在语义分析（LSA）和潜在Dirichlet分配（LDA）之类的算法，以及tf-idf，随机预测，word2vec和document2vec，便于检查一组文档中有重复模式的文本（通常称为语料库）。所有的算法均是无监督的，意味着不需要任何参数，唯一的输入只有语料库。
谷歌发展趋势历史

trends.google.com
GitHub请求历史记录

datascience.com/trends
数据挖掘，统计学14. Scrapy (提交数: 6325,贡献者数: 243)
Scrapy库是用于从网络结构化检索数据（如联系人信息或URL）,可以用来设计crawling程序（也称为蜘蛛bots）。
它是开源的，使用用Python编写的。最开始只是如它的名字暗示的一样，只用来做scraping，但是它现在已经在完整的框架中发展，能够从API采集数据并作为通用的crawlers了。
该库在界面设计中标榜着“不要重复自己” 它推荐用户们编写泛化得到、可被重复使用的通用代码，从而构建和扩展大型的crawlers。
Scrapy的架构围绕着Spider class构建，这其中包含了crawler追从的一套指令。
15. Statsmodels (提交数: 8960,贡献者数: 119)
你可能从名字就猜出大概了，statsmodels使用户能够通过使用各种统计模型的估算方法进行数据挖掘，并执行统计判断和分析。
许多有用的特征是可被描述的，并通过使用线性回归模型，广义线性模型，离散选择模型，鲁棒线性模型，时间序列分析模型，各种估计方法得出统计结果。
这个库还提供了广泛的标定功能，专门用于大数据统计中的性能优化工作。
总结
许多数据科学家和工程师认为这些库是顶级的，并值得关注，或者需要或多或少了解它们。以下是每个库在Github上的详细统计资料：
当然，这不是完全详尽的列表，还有许多其他的库和框架也是值得关注。一个很好的例子是SciKit的不同软件包各自专注一个特定的领域，如SciKit-Image是用于处理图像的

以上是关于2017年10大流行Python库都有哪些的主要内容，如果未能解决你的问题，请参考以下文章

常用的python库都有哪些?

java目前流行的并发库都有哪些

最受欢迎的 15 大 Python 库都有哪些

python库都有哪些

大数据可视化中numpy库都有哪些作用？

常用的python库都有哪些