python大数据挖掘系列之基础知识入门知识整理（入门教程含源码）

Posted 2023-03-14

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python大数据挖掘系列之基础知识入门知识整理（入门教程含源码）相关的知识，希望对你有一定的参考价值。

参考技术A

Python在大数据行业非常火爆近两年，as a pythonic，所以也得涉足下大数据分析，下面就聊聊它们。

Python数据分析与挖掘技术概述

所谓数据分析，即对已知的数据进行分析，然后提取出一些有价值的信息，比如统计平均数，标准差等信息，数据分析的数据量可能不会太大，而数据挖掘，是指对大量的数据进行分析与挖倔，得到一些未知的，有价值的信息等，比如从网站的用户和用户行为中挖掘出用户的潜在需求信息，从而对网站进行改善等。
数据分析与数据挖掘密不可分，数据挖掘是对数据分析的提升。数据挖掘技术可以帮助我们更好的发现事物之间的规律。所以我们可以利用数据挖掘技术可以帮助我们更好的发现事物之间的规律。比如发掘用户潜在需求，实现信息的个性化推送，发现疾病与病状甚至病与药物之间的规律等。

预先善其事必先利其器

我们首先聊聊数据分析的模块有哪些：

下面就说说这些模块的基础使用。

numpy模块安装与使用

安装：
下载地址是：http://www.lfd.uci.edu/~gohlke/pythonlibs/
我这里下载的包是1.11.3版本，地址是：http://www.lfd.uci.edu/~gohlke/pythonlibs/f9r7rmd8/numpy-1.11.3+mkl-cp35-cp35m-win_amd64.whl
下载好后，使用pip install "numpy-1.11.3+mkl-cp35-cp35m-win_amd64.whl"
安装的numpy版本一定要是带mkl版本的，这样能够更好支持numpy

numpy简单使用

生成随机数

主要使用numpy下的random方法。

pandas

使用 pip install pandas 即可

直接上代码：
下面看看pandas输出的结果，这一行的数字第几列，第一列的数字是行数，定位一个通过第一行，第几列来定位：

常用方法如下：

下面看看pandas对数据的统计，下面就说说每一行的信息

转置功能：把行数转换为列数，把列数转换为行数，如下所示：

通过pandas导入数据

pandas支持多种输入格式，我这里就简单罗列日常生活最常用的几种，对于更多的输入方式可以查看源码后者官网。

CSV文件

csv文件导入后显示输出的话，是按照csv文件默认的行输出的，有多少列就输出多少列，比如我有五列数据，那么它就在prinit输出结果的时候，就显示五列

excel表格

依赖于xlrd模块，请安装它。
老样子，原滋原味的输出显示excel本来的结果，只不过在每一行的开头加上了一个行数

读取SQL

依赖于Pymysql，所以需要安装它。pandas把sql作为输入的时候，需要制定两个参数，第一个是sql语句，第二个是sql连接实例。

读取html

依赖于lxml模块，请安装它。
对于HTTPS的网页，依赖于BeautifulSoup4，html5lib模块。
读取HTML只会读取HTML里的表格，也就是只读取

显示的是时候是通过python的列表展示，同时添加了行与列的标识

读取txt文件

输出显示的时候同时添加了行与列的标识

scipy

安装方法是先下载whl格式文件，然后通过pip install “包名” 安装。whl包下载地址是：http://www.lfd.uci.edu/~gohlke/pythonlibs/f9r7rmd8/scipy-0.18.1-cp35-cp35m-win_amd64.whl

matplotlib 数据可视化分析

我们安装这个模块直接使用pip install即可。不需要提前下载whl后通过 pip install安装。

下面请看代码：

下面说说修改图的样式

关于图形类型，有下面几种：

关于颜色，有下面几种：

关于形状，有下面几种：

我们还可以对图稍作修改，添加一些样式，下面修改圆点图为红色的点，代码如下：

我们还可以画虚线图，代码如下所示：

还可以给图添加上标题，x，y轴的标签,代码如下所示

直方图

利用直方图能够很好的显示每一段的数据。下面使用随机数做一个直方图。

Y轴为出现的次数，X轴为这个数的值（或者是范围）

还可以指定直方图类型通过histtype参数：

图形区别语言无法描述很详细，大家可以自信尝试。

举个例子：

子图功能

什么是子图功能呢？子图就是在一个大的画板里面能够显示多张小图，每个一小图为大画板的子图。
我们知道生成一个图是使用plot功能，子图就是subplog。代码操作如下：

我们现在可以通过一堆数据来绘图，根据图能够很容易的发现异常。下面我们就通过一个csv文件来实践下，这个csv文件是某个网站的文章阅读数与评论数。

先说说这个csv的文件结构，第一列是序号，第二列是每篇文章的URL，第三列每篇文章的阅读数，第四列是每篇评论数。

我们的需求就是把评论数作为Y轴，阅读数作为X轴，所以我们需要获取第三列和第四列的数据。我们知道获取数据的方法是通过pandas的values方法来获取某一行的值，在对这一行的值做切片处理，获取下标为3（阅读数）和4（评论数）的值，但是，这里只是一行的值，我们需要是这个csv文件下的所有评论数和阅读数，那怎么办？聪明的你会说，我自定义2个列表，我遍历下这个csv文件，把阅读数和评论数分别添加到对应的列表里，这不就行了嘛。呵呵，其实有一个更快捷的方法，那么就是使用T转置方法，这样再通过values方法，就能直接获取这一评论数和阅读数了，此时在交给你matplotlib里的pylab方法来作图，那么就OK了。了解思路后，那么就写吧。

下面看看代码：

python入门到精通python核心知识之参数与变量完全解读

🚀 作者：“大数据小禅”

🚀 粉丝福利：加入小禅的大数据社群

🚀 欢迎小伙伴们点赞👍、收藏⭐、留言💬

python核心知识之参数与变量

什么是形参和实参？

形参：即形式参数，函数定义时指定的可以接受的参数即为形参，比如定义函数时的max(a,
b)函数中的a和b就是形参
实参：即实际参数，调用函数时传递给函数参数的实际值即为实参，比如调用上面函数用
max(1, 9)函数中的1和9就是实参；

什么是位置参数

我们定义函数max(a,b)后，在调用时，我们无需指定参数名，只需max(1,9),这个时候实参入参的
的位置进行匹配，也就是在函数中，a=1,b=9.。
当然，如果我们不想基于位置顺序，也可以直接指定对应的参数名，比如max(b=9,a=1),这个时候
调用后，不会按入参顺序赋值，而是直接按指定的参数名赋值。

核心基础知识之默认参数

编写一个计算x的n次幂的函数，要求x、n可以作为参数传入

def power(x, n):
return x ** n
print(power(2,2))

上面的函数虽然解决了问题，但是显然不够完美，假设在大部分的调用里，基本都只是求x的2次幂，但
是这个时候我在调用的时候依旧每次都得传n，这就显得有点多余。有没有什么方法可以让我调用的时
候少些一个入参呢？

如果我们直接 print(power(2))，会发现这个时候行不通，有错误。
在函数入参处，使用等号赋值默认参数，

def power(x, n=2):
return x ** n
print(power(2))

特别注意的点
必需要的参数在前，默认参数在后，否则会报错

如果有多个默认参数呢？

def test(a=1, b=2, c=3):
print("a=%d b=%d c=%d" % (a, b, c))
test(c=2)

当有多个默认参数的时候，可以显式指定传入某个参数的值，在调用函数时，入参使用参数名=参数值
的形式即可

如果默认参数是一个列表呢？

def test(L=[]):
   L.append("END")
print(L)
test([1, 1, 1])
test([2, 2, 2])

上面的程序运行起来似乎看不出啥问题，但是，我们来看一个奇怪的现象
在调用test函数的时候不传入任何参数，此时，输出的结果变得有点诡异

def test(L=[]):
L.append("END")
print(L)
test()
test()
输出结果：
['END']
['END', 'END']
函数在定义的时候，默认参数的值已确定，换句话说，L指向的地址是确定，之后如果还是对其内容进
行更改的话，默认参数的值也随之改变了
温馨提示：默认参数必须指向不可变对象

核心基础知识之可变参数

什么是可变参数？

顾名思义就是调用函数时，传递参数的个数的可变的。
如果不使用可变参数，目前有哪些方式可以实现传入不确定个数的
list、dict、set等

def sum(numbers):
total = 0
for i in numbers:
 total += i
return total
print(sum([1, 2, 3]))

y=[1,2,3]  换成（1,2,3）打印结果一样
for x in y:
    print(x)
    
输出：
6
1
2
3

上面这种写法，虽然可以实现不确定个数的入参，但是调用方并不清楚入参该是哪种类型，此时调
用方还得看函数的具体实现方知入参要是可迭代类型，所以对调用方不友好
可变参数的基本格式

在定义函数的时候，入参前加*号，表示可变参数，如

def sum(*numbers):
total = 0
for i in numbers:
 total += i
return total
print(sum(1, 2, 3))

输出：
6

可变参数，其实是将入参封装成元组

def my_fun(*numbers):
 print(type(numbers))

 total = 0
 for i in numbers:
  total += i
 return total

print(my_fun(1, 2, 3))
输出结果：
<class 'tuple'>
6

核心基础知识之命名关键字参数

我们先来看看之前最普通的入参方式–位置参数

def person(name, age):
 print(name,age)
person("wiggin",29)

这种方式无需指定入参的名字，只要位置相对应，就可以。
与位置参数相对的另一种方式，是每次调用的时候，都必需指定参数的名字，也就是命名关键字

什么是命名关键字参数？

限制调用者不能按位置传递，需要放在形参的后面，并在前面使用星号*（独占一个参数位）与普通形参分隔

为什么要有命名关键字参数？
为了限制后面几个参数只能按关键字传递，这往往是因为后面几个形参名具有十分明显的含义，显式写**
出有利于可读性；或者后面几个形参随着版本更迭很可能发生变化，强制关键字形式有利于保证跨版本**
兼容性

与位置参数相对的另一种方式，是每次调用的时候，都必需指定参数的名字，也就是命名关键字**
命名关键字用法

def person(name, age, *, pet):
 print(name,age,pet)
person("wiggin",29,pet="tomcat")

命名关键字使用*做分隔，*之前的参数，基于位置参数，注意了！！*后面的参数，在调用的时候必需指定其参数
名，一旦使用命名关机字之后，如果调用时，没指定参数名，会报相应的错误

def person(name, age, *, pet):
 print(name,age,pet)
person("wiggin",29,"tomcat")
TypeError: person() takes 2 positional arguments but 3 were given

*后面的参数，同样也可以使用默认参数进行设置

def person(name, age, *, pet="cat"):
print(name,age,pet)
person("wiggin",29)

特别注意：如果函数定义中已经有了一个可变参数，后面跟着的命名关键字参数就不再需要一个特殊分
隔符

核心基础知识之关键字参数

什么是关键字参数？

关键字参数允许你传入0个或任意个含参数名的参数，这些关键字参数在函数内部自动组装为一个dict，**kw参数的作用如下
def person(name, age, **kw):
 print('name:', name, 'age:', age, 'other:', kw)
person("wiggin",29,city="广州",pet="cat")
输出：
name: wiggin age: 29 other: 'city': '广州', 'pet': 'cat'

也可以使用下面的方式传参

def person(name, age, **kw):
 print('name:', name, 'age:', age, 'other:', kw)
other_info = "pet": "cat"
person("wiggin",29,city="广州",**other_info)

输出：
name: wiggin age: 29 other: 'city': '广州', 'pet': 'cat'

other_info表示把other_info这个dict的所有key-value用关键字参数传入到函数的****kw参数，kw将获
一个dict，注意kw获得的dict是other_info的一份拷贝，对kw的改动不会影响到函数外的
other_info。

混合使用参数
本章之前所学习的各种类型的参数，可以在定义函数时混合使用，但是，有一个核心注意的点：
混合使用时，参数定义的顺序必须是：必选参数、默认参数、可变参数、命名关键字参数和关键字参
数。

以上是关于python大数据挖掘系列之基础知识入门知识整理（入门教程含源码）的主要内容，如果未能解决你的问题，请参考以下文章

python大数据挖掘系列之基础知识入门 知识整理（入门教程含源码）