Python 数据处理(三十五)—— 文本数据处理
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 数据处理(三十五)—— 文本数据处理相关的知识,希望对你有一定的参考价值。
参考技术A 在 pandas 中,存储文本主要有两种方式但一般建议使用 StringDtype 类型存储文本数据。都是由于各种原因,现在字符串数据的默认存储类型还是 object 。
要存储为 string 类型,需要显式的设置 dtype 参数
或者在创建 Series 或 DataFrame 之后,使用 astype 转换类型
也可以使用 StringDtype/"string" 转换其他非字符串类型的数据
转换现有数据的类型
StringDtype 类型对象与 object 类型之间存在一些差异
两个结果的输出都是 Int64 类型。将其与 object 类型比较
当存在 NA 值时,输出为 float64 。类似地,对于返回布尔值的方法
Series 和 Index 有一套字符串处理方法,可以方便地对数组的每个元素进行操作,最重要的是,这些方法会自动忽略缺失值。
这些方法可以通过 str 属性访问,通常具有与内置字符串方法相匹配的名称
Index 上的字符串方法对于清理或转换 DataFrame 的列特别有用。
例如,您可能有带有前导或后置空格的列
因为 df.columns 是一个 Index 对象,所以我们可以使用 .str 访问器
我们可以根据需要对列名进行处理,然后重新设置列名。
例如,我们删除列名的前后空格,并将其改为小写字母,同时用 _ 替换剩余的空格
split 方法会返回一个值为 list 的 Series
可以使用 get 或 [] 访问拆分后的列表中的元素
更简单的方法是设置 expand 参数,返回一个 DataFrame
当原来的 Series 包含 StringDtype 类型的数据时,输出列也将全部为 StringDtype
当然,也可以设置切割次数
它还有个对应的 rsplit 方法,从右边起始对字符串进行拆分
replace 参数支持使用正则表达式,前两个参数是 pat (匹配模式) 和 repl (替换字符串)
如果只是想要替换字符串字面值,可以将 regex 参数设置为 False ,而不需要对每个特殊字符进行转义。此时 pat 和 repl 参数必须是字符串
此外, replace 方法还接受一个可调用的替换函数,会使用 re.sub() 方法在每个匹配的模式上调用该函数
该函数需要传入一个正则对象作为位置参数,并返回一个字符串。例如
replace 方法的 pat 参数还接受 re.compile() 编译的正则表达式对象。所有的 flags 需要在编译正则对象时设置
如果在 replace 中设置 flags 参数,则会抛出异常
有几种方法可以将一个 Series 或 Index 与自己或其他的 Series 或 Index 相连接,所有这些方法都是基于 cat() 方法
可以连接一个 Series 或 Index 的内容
如果未指定 sep 参数,则默认为空字符串
默认会跳过缺失值,也可以使用 na_rep 指定缺失值的表示方式
cat() 的第一个参数 others 可以是类似列表的对象,但是其长度需要和调用对象一致
只要两个对象中存在缺失值,对应的结果中也是缺失值,除非指定了 na_rep
others 参数也可以是二维的,但是得保证其行数必须与调用的对象一致
对于 Series 或 DataFrame 的连接,可以通过设置 join 参数指定对齐方式
通常 join 可选范围为: 'left' , 'outer' , 'inner' , 'right' 。此时,不再要求两个对象长度一致
当 others 参数是 DataFrame 时,也可以使用
可以将一些类似数组的对象(如 Series , Index 等)放在一个类似列表的容器中,然后传递给 cat
对于没有索引的对象,其长度必须与调用 cat 的对象相同。但是 Series 和 Index 可以是任意的,除非设置了 json=None 。
如果在 others 参数上包含不同索引的对象,且设置了 join='right' ,则最后的结果将会是这些索引的并集
Python机器学习(三十五)NumPy ndarray
NumPy中最重要的类是ndarray,ndarray是存储单一数据类型的多维数组。
可以使用索引(从0开始)访问ndarray对象中的元素。
ndarray的内存结构
标准的Python列表(list)中,元素是对象。如:L = [1, 2, 3],需要3个指针和三个整数对象,对于数值运算比较浪费资源。
与此不同,ndarray中元素直接存储为原始数据,元素的类型由ndarray对象中的属性dtype描述。
当ndarray数组中的元素,通过索引或切片返回时,会根据dtype,从原始数据转换成Python对象,以便外部使用。
上图中,ndarray头部信息中的dtype描述了数组元素的数据类型,元素保存为原始数据(二进制数据),从数组中取出后,将根据dtype转换为相应的python对象。
创建Ndarray对象
要创建ndarray对象,可以使用numpy模块中的array
构造函数。为此,首先需要导入numpy模块。
>>> a = numpy.array
示例
[root@qikegu py3]# python Python 3.7.3 (default, Jun 17 2019, 22:07:41) [GCC 4.8.5 20150623 (Red Hat 4.8.5-36)] on linux Type "help", "copyright", "credits" or "license" for more information. >>> import numpy >>> a = numpy.array >>> print(a) <built-in function array>
可以将集合对象传递给array
函数,用于创建与集合对象内容相同的n维数组。语法如下所示:
>>> numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
下表是参数说明:
序号 | 参数 | 描述 |
---|---|---|
1 | object | 表示集合对象,可以是列表、元组、字典、集合等等。 |
2 | dtype | 可选。可以通过此项参数更改数组元素的类型,默认值是none,表示保持原集合对象中的类型。 |
3 | copy | 可选参数。默认是true,表明复制对象。 |
4 | order | {‘K’, ‘A’, ‘C’, ‘F’}, 可选参数。指定数组的内存布局,可以是C语言顺序(行)或Fortan语言顺序(列)。详情可参考官方文档。
|
5 | subok | 布尔量,可选参数。默认false,表示须返回基类数组;如果设置为true,表示可以返回子类。 |
6 | ndmin | 整型,可选。指定返回数组的最小维数。 |
要使用Python列表创建ndarray数组,使用以下语句:
a = numpy.array([1, 2, 3])
示例
>>> a = numpy.array([1,2,3]) >>> print(a) [1 2 3]
要创建多维数组,可使用以下语句。
a = numpy.array([[1, 2, 3], [4, 5, 6]])
示例
>>> a = numpy.array([[1, 2, 3], [4, 5, 6]]) >>> print(a) [[1 2 3] [4 5 6]]
要指定数组元素的数据类型,可以传入dtype
参数。
a = numpy.array([1, 3, 5, 7], complex)
示例
指定数组元素为复数类型:
>>> a = numpy.array([1, 3, 5, 7], complex) >>> print(a) [1.+0.j 3.+0.j 5.+0.j 7.+0.j]
获取数组的维数
ndarray.ndim
属性可以用来获取数组的维数。
示例
>>> arr = numpy.array([[1, 2, 3, 4], [4, 5, 6, 7], [9, 10, 11, 23]]) >>> print(arr.ndim) 2
获取数组元素的大小
ndarray.itemsize
属性用于获取数组元素的大小,该函数返回数组元素的字节数。
示例
#获取数组元素的大小 import numpy as np a = np.array([[1,2,3]]) print("数组元素大小:", a.itemsize, "字节")
输出
数组元素大小: 8 字节
获取数组元素的数据类型
要检查数组元素的数据类型,可以使用ndarray.dtype
属性。
示例
#检查数组元素的数据类型 import numpy as np a = np.array([[1,2,3]]) print("数据元素的数据类型是:", a.dtype)
输出
数据元素的数据类型是: int64
获取数组的形状和大小
要获得数组的形状和大小,可以使用ndarray.size
与ndarray.shape
属性。
数组形状是指数组的行数和列数,如一个二维数组的形状是:2(行)x 3(列)
示例
import numpy as np a = np.array([[1,2,3,4,5,6,7]]) print("大小:",a.size) print("形状:",a.shape)
输出
大小: 7
形状: (1, 7)
重构数组对象
数组的形状指的是多维数组的行数和列数。numpy中,可以改变数组的形状,即数组的行列排布。
ndarray.reshape()
函数可用于重构数组。该函数接受新形状的行、列两个参数。
例如,如下图所示,可以把3×2的数组改为2×3的数组。
示例
import numpy as np a = np.array([[1,2],[3,4],[5,6]]) print("原数组:") print(a) a=a.reshape(2,3) print("改变后:") print(a)
输出
原数组: [[1 2] [3 4] [5 6]] 改变后: [[1 2 3] [4 5 6]]
数组切片
NumPy中,数组切片可以从数组中提取指定范围的数组元素。NumPy中的数组切片方法与python中的列表切片方法类似。
切片语法
arr_name[start: end: step]
[:]
表示复制源列表- 负的index表示,从后往前。-1表示最后一个元素。
>>> a = np.array([1,2,3,4,5,6,7,8,9]) >>> print(a[:5]) [1 2 3 4 5] >>> print(a[1:5:2]) [2 4]
关于数组切片,后续章节将有详细介绍。
linspace
linspace()
函数的作用是: 返回给定区间内均匀分布的值。下面的示例,在给定的区间5-15内返回10个均匀分布的值
示例
import numpy as np a=np.linspace(5,15,10) #打印10个值,这些值在给定的区间5-15上均匀地分布 print(a)
输出
[ 5. 6.11111111 7.22222222 8.33333333 9.44444444 10.55555556 11.66666667 12.77777778 13.88888889 15. ]
获取数组元素中的最大值、最小值以及元素的和
ndarray.max()
、ndarray.min()
和ndarray.sum()
函数,分别用于获取数组元素中的最大值、最小值以及元素和。
示例
import numpy as np a = np.array([1,2,3,10,15,4]) print("数组:",a) print("最大值:",a.max()) print("最小值:",a.min()) print("元素总和:",a.sum())
输出
数组: [ 1 2 3 10 15 4] 最大值: 15 最小值: 1 元素总和: 35
NumPy数组轴
NumPy多维数组由轴表示,其中axis-0表示列,axis-1表示行。我们可以通过轴对列或行进行计算。例如,求某行元素的和。
示例
计算每一列中的最大元素、每一行中的最小元素,以及每一行的和:
import numpy as np a = np.array([[1,2,30],[10,15,4]]) print("数组:",a) print("每列的最大元素:",a.max(axis = 0)) print("每行的最小元素:",a.min(axis = 1)) print("每行的和:",a.sum(axis = 1))
输出
数组: [[ 1 2 30] [10 15 4]] 每列的最大元素: [10 15 30] 每行的最小元素: [1 4] 每行的和: [33 29]
求平方根和标准差
NumPy中,sqrt()
和std()
函数分别求数组元素的平方根和标准差。
标准差表示数组的每个元素与numpy数组的平均值之间的差异。
示例
import numpy as np a = np.array([[1,2,30],[10,15,4]]) print(np.sqrt(a)) print(np.std(a))
输出
[[1. 1.41421356 5.47722558] [3.16227766 3.87298335 2. ]] 10.044346115546242
数组间的算术运算
numpy中,多维数组间可以直接进行算术运算。
在下面的示例中,对两个多维数组a和b执行算术运算。
示例
import numpy as np a = np.array([[1,2,30],[10,15,4]]) b = np.array([[1,2,3],[12, 19, 29]]) print("a+b ",a+b) print("axb ",a*b) print("a/b ",a/b)
输出
a+b [[ 2 4 33] [22 34 33]] axb [[ 1 4 90] [120 285 116]] a/b [[ 1. 1. 10. ] [ 0.83333333 0.78947368 0.13793103]]
数组拼接
numpy中,可以垂直或水平拼接2个数组。
示例
import numpy as np a = np.array([[1,2,30],[10,15,4]]) b = np.array([[1,2,3],[12, 19, 29]]) print("垂直拼接 ",np.vstack((a,b))); print("水平拼接 ",np.hstack((a,b)))
输出
垂直拼接 [[ 1 2 30] [10 15 4] [ 1 2 3] [12 19 29]] 水平拼接 [[ 1 2 30 1 2 3] [10 15 4 12 19 29]]
以上是关于Python 数据处理(三十五)—— 文本数据处理的主要内容,如果未能解决你的问题,请参考以下文章