数据分析之numpy基础包
Posted 骑着哈哥去旅行
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析之numpy基础包相关的知识,希望对你有一定的参考价值。
首先为啥要学numpy呢?空口无凭,看个小练习
假如有一个列表,里面有n个值,取出列表大于某个数的值
import numpy as np
import random
# 假如取出其中大于60的值
a = [random.randint(1, 100) for i in range(50)]
# print(a)
# 学python第一天
new_list = []
for i in a:
if i > 60:
new_list.append(i)
print(new_list)
# 学了匿名函数后
c = list(filter(lambda x: x > 60, a))
print(c)
# 学了numpy后
d = np.array(a)
print(d[d > 60])
[68, 69, 77, 69, 61, 77, 95, 96, 73, 88, 98, 74, 88, 98, 92, 63]
[68, 69, 77, 69, 61, 77, 95, 96, 73, 88, 98, 74, 88, 98, 92, 63]
[68 69 77 69 61 77 95 96 73 88 98 74 88 98 92 63]
显而易见,使用numpy之后要简单的多!即numpy将许多批量操作变得更简单,更高效!!!
一,安装环境
numpy属于python中的第三方库,需要在Windows的dos窗口或pycharm下面的Terminal中输入如下命令进行安装
pip install numpy
二,创建array
1,导入numpy包
import numpy as np
import random
2,创建array
a = [random.randint(10, 30) for i in range(10)]
b = np.array(a) # 创建数组
print(b)
print(type(a), type(b)
[25 22 28 10 21 12 22 29 20 11]
<class 'list'> <class 'numpy.ndarray'>
a = np.array([1, 2, 3, 4, 5])
print(a)
b = np.array(range(10))
print(b)
[1 2 3 4 5]
[0 1 2 3 4 5 6 7 8 9]
3,创建多维数组
①创建二维数组
a = np.array([[1, 2, 3, 4], [6, 7, 8, 9]])
print(a)
[[1 2 3 4]
[6 7 8 9]]
a = np.arange(5, 20).reshape((3, 5))
print(a)
[[ 5 6 7 8 9]
[10 11 12 13 14]
[15 16 17 18 19]]
②创建三维数组
a = np.array([[[1, 2, 3, 4], [6, 7, 8, 9]], [[2, 4, 5, 6], [3, 4, 5, 6]]])
print(a)
[[[1 2 3 4]
[6 7 8 9]]
[[2 4 5 6]
[3 4 5 6]]]
a = np.arange(5, 17).reshape((2, 3, 2))
print(a)
[[[ 5 6]
[ 7 8]
[ 9 10]]
[[11 12]
[13 14]
[15 16]]]
4,创建全0数组
print(np.array([0] * 10))
a = np.zeros(10) # 默认是float
b = np.zeros(10, dtype=int) # 转换为int
print(a)
print(b)
[0 0 0 0 0 0 0 0 0 0]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0 0 0 0 0 0 0 0 0 0]
5,创建全1数组
print(np.ones(10)) # 默认是小数
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
6,创建空数组
print(np.empty(10)) # 创建空数组,以前内存中留下的值,没有意义
[6.23042070e-307 4.67296746e-307 1.69121096e-306 3.11523921e-307
7.56599128e-307 1.37961913e-306 8.01097889e-307 1.78019082e-306
1.78020984e-306 1.60218627e-306]
7,创建单位矩阵
print(np.eye(5))
[[1. 0. 0. 0. 0.]
[0. 1. 0. 0. 0.]
[0. 0. 1. 0. 0.]
[0. 0. 0. 1. 0.]
[0. 0. 0. 0. 1.]]
8, 其他一些
①求数组长度
b = np.array(range(20))
print(b.size)
20
②
print(np.linspace(1, 13, 10)) # 将1~13平均分为10份
[ 1. 2.33333333 3.66666667 5. 6.33333333 7.66666667
9. 10.33333333 11.66666667 13. ]
③
print(np.arange(10)) # 和range用法基本类似,唯一的区别是arange第三个参数可以用小数
print(np.arange(1, 10, 0.5))
[0 1 2 3 4 5 6 7 8 9]
[1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 6. 6.5 7. 7.5 8. 8.5 9. 9.5]
三,array的批量运算
1,
b = [random.randint(0, 100) for n in range(10)]
c = np.array(b)
print(c)
print(c + 1)
print(c / 3)
[72 50 91 95 35 63 66 65 53 15]
[73 51 92 96 36 64 67 66 54 16]
[24. 16.66666667 30.33333333 31.66666667 11.66666667 21.
22. 21.66666667 17.66666667 5. ]
2,
a = np.arange(10)
b = np.arange(5, 15)
print(a, b)
print(a + b)
print(b / a)
print(a > b)
print(a > 5)
print(a**0.5)
[0 1 2 3 4 5 6 7 8 9] [ 5 6 7 8 9 10 11 12 13 14]
[ 5 7 9 11 13 15 17 19 21 23]
G:/untitled/data_habding/numpy_study/day1/study2.py:76: RuntimeWarning: divide by zero encountered in true_divide
print(b / a) # [ inf 6. 3.5 2.66666667 2.25 2.
[ inf 6. 3.5 2.66666667 2.25 2.
1.83333333 1.71428571 1.625 1.55555556] # inf(infinity即无穷) 比任何浮点数都大
[False False False False False False False False False False]
[False False False False False False True True True True]
[0. 1. 1.41421356 1.73205081 2. 2.23606798
2.44948974 2.64575131 2.82842712 3. ]
四,array的索引
1,
a = np.arange(5, 16)
print(a) # [ 5 6 7 8 9 10 11 12 13 14 15]
print(a[0]) # 5
2,
a = np.arange(15).reshape((3, 5)) # 快速创建3行5列的二维数组
print(a)
# [[ 0 1 2 3 4]
# [ 5 6 7 8 9]
# [10 11 12 13 14]]
print(a[0][0]) # 0 列表式写法
print(a[0, 0]) # 0 推荐(新式写法)
print(a[1, 2]) # 7
3,布尔索引
a = np.arange(5)
print(a)
b = a[[True, False, True, False, False]]
print(b) # [0 2]
4,花式索引
a = np.arange(5, 20).reshape((3, 5))
print(a)
# [[ 5 6 7 8 9]
# [10 11 12 13 14]
# [15 16 17 18 19]]
print(a[0, a[0] > 6]) # [7 8 9]
print(a[[0, 2], :][:, [1, 3]])
# [[ 6 8]
# [16 18]]
五,array的切片
1,
a = np.arange(5, 15) # [ 5 6 7 8 9 10 11 12 13 14]
print(a[: 3]) # [5 6 7]
print(a[-5:]) # [10 11 12 13 14]
2,
a = np.arange(5, 20).reshape((3, 5))
# [[ 5 6 7 8 9]
# [10 11 12 13 14]
# [15 16 17 18 19]]
print(a[:, 1]) # [ 6 11 16]
print(a[: 2, 1: 3])
# [[ 6 7]
# [11 12]]
print(a[1:, 3:])
# [[13 14]
# [18 19]]
3,数组和列表的一个小区别
a = list(range(5, 15))
print(a)
b = np.arange(5, 15)
print(b)
c = a[: 5]
d = b[: 5]
c[0] = 20 # [5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
d[0] = 20 # [20 6 7 8 9 10 11 12 13 14]
print(a)
print(b)
总结:数组中修改其切片中的元素,数组中也会被修改,但是列表不会
六,numpy中通用函数
1,abs取绝对值
a = np.arange(-20, 5)
print(np.abs(a))
[20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 1 2 3
4]
2,sqrt开方
a = np.arange(-20, 5)
print(np.sqrt(a))
[ nan nan nan nan nan nan
nan nan nan nan nan nan
nan nan nan nan nan nan
nan nan 0. 1. 1.41421356 1.73205081
2. ]
注:nan(即not a number)不是一个数 不等于任何浮点数(nan != nan)
3,round
①原python中
import math
print(round(3.4)) # 四舍五入取整 3
print(int(1.9)) # 直接扔掉小数位 1
print(math.floor(1.8)) # 向下取整 1
print(math.floor(-1.8)) # 向下取整 -2
print(math.ceil(1.1)) # 向上取整 2
print(math.ceil(-1.6)) # 向上取整 -1
②numpy中
a = np.arange(-5.5, 5)
print(a)
print(np.round(a)) # [-6. -4. -4. -2. -2. -0. 0. 2. 2. 4. 4.]
print(np.trunc(a)) # [-5. -4. -3. -2. -1. -0. 0. 1. 2. 3. 4.]
print(np.floor(a)) # [-6. -5. -4. -3. -2. -1. 0. 1. 2. 3. 4.]
print(np.ceil(a)) # [-5. -4. -3. -2. -1. -0. 1. 2. 3. 4. 5.]
③
a = np.linspace(1, 5, 10)
print(a)
print(np.round(a, 2)) # 取两位小数
[1. 1.44444444 1.88888889 2.33333333 2.77777778 3.22222222
3.66666667 4.11111111 4.55555556 5. ]
[1. 1.44 1.89 2.33 2.78 3.22 3.67 4.11 4.56 5. ]
4,modf 剥离小数位和整数位
a = np.arange(-5.5, 5.5)
print(a)
print(np.modf(a))
# (array([-0.5, -0.5, -0.5, -0.5, -0.5, -0.5, 0.5, 0.5, 0.5, 0.5, 0.5]),
# array([-5., -4., -3., -2., -1., -0., 0., 1., 2., 3., 4.]))
5,两个特殊的浮点数
①nan
# nan(nan即not a number)不是一个数 不等于任何浮点数(nan != nan)
print(float('nan')) # nan
a = np.arange(0, 5)
print以上是关于数据分析之numpy基础包的主要内容,如果未能解决你的问题,请参考以下文章