python基础:数据分析常用包

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python基础:数据分析常用包相关的知识,希望对你有一定的参考价值。

参考技术A 本文重点介绍pyhon最常用的几个库:

SymPy是python一个科学计算库,有一套强大的科学计算体系,覆盖了从基本的符号运算到计算数学、代数学、离散数学、量子物理等多个领域。可以完成诸如多项式求值、求极限、解方程、微分方程、级数展开、矩阵运算等等计算问题。

虽然Matlab的类似科学计算能力也很强大,但是Python以其语法简单、易上手、异常丰富的三方库生态,个人认为可以更优雅地解决日常遇到的各种计算问题。

Numpy是用于数据分析、机器学习、科学计算的重要软件包。它极大的简化了向量矩的操作及处理。Python的不少数据处理软件包依赖于Numpy作为其基础架构的核心部分(如Scikit-learn, Scipy, Pandas和tensflow等)

Scipy是一个科学计算工具包,可以处理插值、积分、优化、图像处理、常微分方程数据解的求解、信息处理等问题。它是基于Numpy搭建的。可用于有效计算Numpy矩阵,使Numpy和Scipy协同工作,高效解决问题

Sklearn是一个机器学习包,它是基于Numpy, Scipy和matplotlib搭建。它的主要功能分为六大部分:分类、回归、聚类、数据降维、模型选择和数据预处理,性能也很不错。

不过,sklearn不支持深度学习和强化学习,不支持图模型和序列预测,同时也不支持python之外的语言,不支持PyPy也不支持GPU加速。

常用子模块有:

Statsmodels用于拟合统计模型、参数据估计、假设检验、不确定性评估以及数据探索和可视化。相比sklearn,statsmodels更侧重于统计推理、p值和不确定性评价。常用子模块包括:

Matplotlib是python中类似于matlab的绘图工具,实际上matplotlib有一套完全依照MATLAB的函数形式的绘图接口,在matplot.pyplot模块中,这套函数接口方便MATLAB用户过度到matplotlib

Seaborn在matplotlib基础上进行封装的,但seaborn是针对统计绘图的。一般来说,seaborn能满足数据分析90%的的绘图需求。

Seaborn旨在使可视化成为探索和理解数据的核心部分。其面向数据集的绘图功能对包含整个数据集的数据框和数据组进行操作,并在内部执行必要的语义映射和统计聚合,以生成信息图。

Seaborn可以做热力图、散点图、直方图、箱形图、树形图、热点图等等

Pandas是基于Numpy数组构建的,专门为处理表格和混杂数据设的,而Numpy更适合处理统一的数据数组数据。

参考资料:
参考技术B 1. Numpy
Python没有提供数组功能,Numpy可以提供数组支持以及相应的高效处理函数,是Python数据分析的基础,也是SciPy、Pandas等数据处理和科学计算库最基本的函数功能库,且其数据类型对Python数据分析十分有用。
2. Pandas
Pandas是Python强大、灵活的数据分析和探索工具,包含Series、DataFrame等高级数据结构和工具,安装Pandas可使Python中处理数据非常快速和简单。
3. SciPy
SciPy是一组专门解决科学计算中各种标准问题域的包的集合,包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算等,这些对数据分析和挖掘十分有用。
4. Matplotlib
Matplotlib是强大的数据可视化工具和作图库,是主要用于绘制数据图表的Python库,提供了绘制各类可视化图形的命令字库、简单的接口,可以方便用户轻松掌握图形的格式,绘制各类可视化图形。
5. Scikit-Learn
Scikit-Learn是Python常用的机器学习工具包,提供了完善的机器学习工具箱,支持数据预处理、分类、回归、聚类、预测和模型分析等强大机器学习库,其依赖于Numpy、Scipy和Matplotlib等。
6. Keras
Keras是深度学习库,人工神经网络和深度学习模型,基于Theano之上,依赖于Numpy和Scipy,利用它可以搭建普通的神经网络和各种深度学习模型,如语言处理、图像识别、自编码器、循环神经网络、递归审计网络、卷积神经网络等。
7. Gensim
Gensim是用来做文本主题模型的库,常用于处理语言方面的任务,支持TF-IDF、LSA、LDA和Word2Vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算、信息检索等一些常用任务的API接口。
8. Scrapy
Scrapy是专门为爬虫而生的工具,具有URL读取、html解析、存储数据等功能,可以使用Twisted异步网络库来处理网络通讯,架构清晰,且包含了各种中间件接口,可以灵活的完成各种需求。更多python技术,推荐关注老男孩教育。

PYTHON 数据分析常用类库

numpy 科学计算的基础包
(1)快速高效多维的数组对象ndarray
(2)对数组执行元素级的计算以及直接对数组执行数学运算的函数
(3)读写硬盘上基于数组的数据集的工具
(4)线性代数运算,傅里叶变换,以及随机数生成
(5)将C、C++、Fortran代码集成到python

scipy 专门解决科学计算中各种标准问题域的模块的集合SciPy
主要包含了 8 个模块,不同的子模块有不同的应用,如插值、积分、优化、图像处理和特殊函数等。scipy.integrate 数值积分例程和微分方程求解器。
scipy.linalg 扩展了由 numpy.linalg 提供的线性代数例程和矩阵分解功能。
scipy.optimize 函数优化器(最小化器)以及根查找算法。
scipy.signal 信号处理工具。scipy.sparse 稀疏矩阵和稀疏线性系统求解器。
scipy.special SPECFUN(这是一个实现了许多常用数学函数的 Fortran 库)的包装器。
scipy.stats 检验连续和离散概率分布、各种统计检验方法,以及更好的描述统计法。
scipy.weave 利用内联 C++代码加速数组计算的工具。

pandas 数据分析核心库
?提供了一系列能够快速、便捷地处理结构化数据的数据结构和函数。高性能的数组计算功能以及电子表格和关系型数据库(如 SQL)灵活的数据处理功能。复杂精细的索引功能,以便便捷地完成重塑、切片和切块、聚合及选取数据子集等操作。

matplotlib 绘制数据图表的python库
? Python的2D绘图库,非常适合创建出版物上用的图表。操作比较容易,只需几行代码即可生成直方图、功率谱图、条形图、错误图和散点图等图形。提供了pylab的模块,其中包括了NumPy和pyplot中许多常用的函数,方便用户快速进行计算和绘图。交互式的数据绘图环境,绘制的图表也是交互式的。

scikit-learn 据挖掘和数据分析工具
?简单有效,可以供用户在各种环境下重复使用。封装了一些常用的算法方法。基本模块主要有数据预处理、模型选择、分类、聚类、数据降维和回归 6 个,在数据量不大的情况下,scikit-learn可以解决大部分问题。
















以上是关于python基础:数据分析常用包的主要内容,如果未能解决你的问题,请参考以下文章

python基础

python中都有哪些包

Python基础5 常用模块

【Python基础】python数据分析需要哪些库?

Python基础:字符串和元组常用方法

Python pip 基础命令