Python数据分析与可视化期末复习试题集

Posted 2021-12-29 ZSYL

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python数据分析与可视化期末复习试题集相关的知识，希望对你有一定的参考价值。

1.Jupyter notebook不具备的功能是（）

Jupyter notebook可以直接生成一份交互式文档
Jupyter notebook可以安装Python库
Jupyter notebook可以导出html文件
Jupyter notebook可以将文件分享给他人

right_answers: Jupyter notebook可以将文件分享给他人

2.在Jupyter notebook的命令模式下，要查看所有快捷键应该按下的快捷键是（）

right_answers: H

3.在Jupyter notebook的cell中安装包语句正确的是（ C ）

pip install 包名
conda install 包名
!pip install 包名
!conda install 包名

right_answers: !pip install 包名

4.Numpy提供了两种基本对象，一种是ndarray，另一种是（）

array
func
matrix
Series

right_answers: func

5.创建一个3*3的数组，下列代码中错误的是（）

np.arange(0,9).reshape(3,3)
np.eye(3)
np.random.random([3,3,3])
np.mat(“1,2,3;4,5,6;7,8,9”)

right_answers: np.random.random([3,3,3])

6.Numpy中统计数组元素个数的方法是（）

ndim
shape
size
itemsize

right_answers: itemsize

7.利用下面哪个可视化绘图可以发现数据的异常点。（）

密度图
直方图
盒图
概率图

right_answers: 盒图

8.以下关于缺失值检测的说法中，正确的是（）

null和notnull可以对缺失值进行处理
dropna方法既可以删除观测记录，还可以删除特征
fillna方法中用来替换缺失值的值只能是数据框
Pandas库中的interpolate模块包含了多种插值方法

right_answers: Pandas库中的interpolate模块包含了多种插值方法

9.Matplotlib中的哪个包提供了一批操作和绘图函数（）

pyplot
Bar
rcparams
pprint

right_answers: pyplot

10.以下关于绘图标准流程说法错误的是（）

绘制简单的图形可以使用缺省的画布
添加图例可以在绘制图形之前
添加x轴，y轴的标签可以在绘制图形之前
修改x轴标签，y轴标签和绘制的图形没有先后

right_answers: 添加图例可以在绘制图形之前

11.下列参数中调整后显示中文的（）

lines.linestyle
lines.linewidth
font.sans-serif
axes.unicode_minus

right_answers: font.sans-serif

12.以下说法错误的是（）

饼图一般用于表示不同分类的占比情况。
箱线图展示了分位数的位置。
散点图无法反映特征间的统计关系。
词云对于文本中出现频率较高的关键词予以视觉上的突出。

right_answers: 散点图无法反映特征间的统计关系。

13.列表是不可变对象，支持在原处修改。（）

right_answers: 0

14.元组是不可变的，不能直接修改元组中元素的值，也不能为元组增删元素。（）

right_answers: 1

15.Python使用lambda创建匿名函数，匿名函数拥有自己的命名空间。（）

right_answers: 1

16.同一个列表中的元素的数据类型可以各不相同。（）

right_answers: 1

17.列表、元组和字符串属于有序序列，其中的元素有严格的先后顺序。（）

right_answers: 1

18.集合中的元素没有特定顺序但可以重复。（）

right_answers: 0

19.列表推导式在逻辑上等价于一个循环语句，只是形式上更加简洁（）

right_answers: 1

20.在Python中创建一个空集合，可以直接用 set1= 。（）

right_answers: 0

21.列表、元组和字符串都支持双向索引，有效索引的范围为[-L,L]，L为列表、元组或字符串的长度。（）

right_answers: 0

22.包含列表的元组可以作为字典的键。（）

right_answers: 0

23.创建Series时如果指定了index，则只能用index访问数据。（）

right_answers: 0

24.创建DataFrame时会自动加上索引，且全部列会被有序排列。（）

right_answers: 1

25.Pandas中数据对象的索引可以随时被修改。（）

right_answers: 0

26.Pandas中数据的重建索引指对索引重新排序而不是修改。（）

right_answers: 1

27.交叉表是一种特殊的透视表，主要用于计算分组频率。（）

right_answers: 1

28.两个索引不一致的series进行算数运算会出错。（）

right_answers: 0

29.Pandas中利用merge函数合并数据表时默认的是内连接方式。（）

right_answers: 1

30.Pandas中的描述性统计一般会包括缺失数据。（）

right_answers: 0

31.语句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超过90%则删除该列。（）

right_answers: 0

32.利用merge方法合并数据时允许合并的DataFrame之间没有连接键。（）

right_answers: 0

33.哑变量（Dummy Variables）又称虚拟变量，是用以反映质的属性的一个人工变量。（）

right_answers: 1

34. Seaborn的绘图更加便捷美观，是matplotlib的替代。（）

right_answers: 0

35.需要转换默认的Seaborn绘图风格，只需调用有参数设置的set方法。（）

right_answers: 0

36.使用Seaborn中的set_style( ) 设置主题，有5个预设的主题。（）

right_answers: 1

37.热力图实现过程就是将离散的点信息映射为图像。（）

right_answers: 1

38.CSV（Comma-Separated Values）文件也称为字符分隔值文件，因为分隔字符也可以___ 逗号。

right_answers: 不是

39.列表的sort方法没有返回值，或者说返回值为______。

right_answers: None

40.Python中要使字符串转义字符不转义，则直接在字符串前加字符______。

right_answers: r

41.已知字典dic=‘w’:97,’a’:19，则dic.get(‘w’, None)的值是______。

right_answers: 97

42.有arr = np.arange(12).reshape(3,4)，则arr[(0,1),(1,3)]对应的值是和；arr[1:2,(0, 3)]对应的元素是和；arr.ndim的值是__。

right_answers: 1

43.对于上题中的arr，若定义mask = np.array([1,0,1],dtype = np.bool)，则arr[mask,1] 对应的元素是和。

right_answers: 1

44.a=np.arange(8).reshape(2,4)，np.hsplit(a,2)返回值是______。

right_answers: array([[0, 1], [4, 5]]), array([[2, 3], [6, 7]])]

45.数组转置是数据重塑的一种特殊形式，可以通过 ___方法或数组的T属性实现。

right_answers: transpose

46.创建一个范围在(0,1)之间的长度为12的等差数列的语句是 ___。

right_answers: np.linspace(0,1,12)

47.Numpy中数组的方法sort、argsort和lexsort分别是指、将___和。

right_answers: 直接排序

48.实现创建一个10*10的ndarray对象，满足矩阵边界全为1，里面全为0对应的代码是______。

right_answers: a= np.zeros((10,10), dtype =int)
a[0,:]=1
a[:,9]=1
a[:,0]=1
a[9,:]=1

49.将数组arr中所有的奇数置为-1对应的语句是______。

right_answers: arr[arr%2!=0]=-1

50.Pandas中与set_index方法相关用于还原索引的方法是 ___。

right_answers: reset_index

51.Series是一种一维数组对象，包含一个值序列。Series中的数据通过______访问。

right_answers: 索引

52.Series有两种描述某条数据的手段，即______和标签。

right_answers: 位置

53.一个DataFrame对象的属性values和ndim分别指_ 和 _。

right_answers: 数据元素

54.reindex方法中的参数method可以取值为‘ffill’和‘bfill’，分别指_ 和____。

right_answers: 前向填充

55.随机抽取数据的语句sample(frac=0.7)中的frac参数的含义是______。

right_answers: 抽取比例

56.修改数据中的参数“inplace”的含义是______。

right_answers: 是否在原数据上修改

57.Pandas的数据对象在进行算术运算时如果存在不同索引会进行数据对齐，但会引入______。

right_answers: NAN值

58.Pandas中的applymap方法的作用是______。

right_answers: 将函数套用到数据的的行与列上

59.Pandas中绘图时可以只用plot方法，具体绘图可以用参数 ___设置。

right_answers: kind

60.在Pandas中用于创建指定长度的日期型序列的方法是pandas.___ 方法。

right_answers: data_range

61.datetime类数据是date类和time类的组合。通过 ___方法可以查看当前系统时间。

right_answers: now( )

62.可以使用datetime.strptime将字符串转换为______。

right_answers: 时间类型

63.时间序列的重采样是时间序列频率转换的过程，高频率聚合到低频率称为______。

right_answers: 下采样

64.数据___ 也被称为监督学习，包括学习阶段和分类阶段。

right_answers: 分类

65.___分析是一项预测建模技术，它通过建模研究多个自变量对因变量的影响强度，预测数值型目标值。

right_answers: 回归

66.___ 是一种使用线性映射来进行数据降维的方法，它通过去除数据相关性以最大限度保持原始数据的方差信息。

right_answers: PCA （或主成分分析）

67.在K-Means算法中，由簇的______来代表整个簇。

right_answers: 均值

68.SVM的主要目标是寻找最佳 ___，以便在不同类的数据间进行正确分类。

right_answers: 超平面

69.层次聚类是按照某种方法进行层次分类，主要有和两类方法。

right_answers: 凝聚

70.简述数据分析与数据挖掘的区别与联系。

right_answers:

71.简述数据可视化分析的基本过程。

right_answers: 数据可视化分析过程如图1-2所示，包括数据处理、视觉编码和可视化生成。数据处理聚焦于数据的采集、清理、预处理、分析和挖掘；视觉编码聚焦于解决对光学图像进行接收、提取信息、加工变换、模式识别及存储显示；可视化生成则聚焦于解决将数据转换成图形，并进行交互处理。数据可视化分析通过对数据不断地观察、分析从而发现有用的信息模式。

72.简述Jupyter Notebook的安装及第三方包的安装过程。

right_answers: Python第三方包的安装方式较多，本书建议采用以下方式进行安装和管理。
（1）在CMD命令窗口中，使用conda命令进行自动下载安装，用法如下：
conda install <包名称列表> #安装包
conda remove <包名称列表> #卸载包
conda search<搜索项> #搜索包
conda list #查看所有包
conda update<包名称> #升级包
（2）在CMD命令窗口中使用pip命令，用法如下：
pip install <包名> #安装包
pip install–upgrade <包名> #更新包
pip uninstall <包名> #删除包
也可以在Jupyter notebook的cell中运行pip命令执行相应的命令，只需在命令前加“！”，如执行 ! pip install 包名进行包的安装。

73.简述Jupyter Notebook中编辑模式与命令模式之间的切换方法。

right_answers: 按esc键切换为命令模式，按enter键进入编辑模式

74.输入一个包含若干数据的列表，先将列表中的数由小到大进行排序，然后将值为负数的元素进行平方运算。

right_answers: 略

75.输入一个字符串，输出收尾交换翻转后的字符串，如输入“abcd”，输出“dcba”。要求使用内置函数实现。

right_answers: 略

76.计算1！+2！+……+n！（n由键盘输入）。

right_answers: 略

77.简述Pandas删除空缺值方法dropna中参数thresh的使用方法。

right_answers: dropna中的参数thresh当传入thresh = N时，表示要求一行至少具有N个非NaN才能存活。

78.简述Python中利用数据统计方法检测异常值的常用方法及其原理。

right_answers: a.散点图方法观察 b. 箱线图分析 c. 3σ法则，原理略，见课本。

79.简述数据分析中要进行数据标准化的主要原因。

right_answers: 不同特征之间往往具有不同的量纲，由此造成数值间的差异很大。因此为了消除特征之间量纲和取值范围的差异可能会造成的影响，需要对数据进行标准化处理。

80.简述Pandas中利用cut方法进行数据离散化的用法。

right_answers: 将数据的值域划分成具有相同宽度的区间，区间个数由数据本身的特点决定或由用户指定。Pandas提供了cut函数，可以进行连续型数据的等宽离散化。cut函数的基础语法格式为：
pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3)

81.简述数据可视化按照数据类型进行分类的类型。

right_answers: 有时空数据可视化，层次与网络结构数据可视化，文本和跨媒体数据可视化以及多变量数据可视化。

82.简述Matplotlib全局参数定制的方法。

right_answers: 查找到当前用户的配置文件目录，然后用编辑器打开，修改matplotlibrc文件，即可修改配置参数。

83.简述Matplotlib中通过text和annotate进行绘图文本注解的区别。

right_answers: text函数在指定位置加入文本注释，annotate函数在图像实现带有指向型的文本注释。

84.根据如下绘制写出相应的代码。

(1) 绘图函数：y=sin(x), y=cos(x), x = np.linspace(-np.pi, np.pi, 256, endpoint=True)；
(2) 绘制填充区域:
紫色区域：(-2.5<x)&(x<-0.5)
绿色区域：np.abs(x)<0.5，sinx>0.5
紫色的设置：color=‘purple’

right_answers:

import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.sans-serif']=['SimHei'] 
plt.rcParams['axes.unicode_minus']=False   
# 创建x轴数据，从-pi到pi平均取256个点； 
x = np.linspace(-np.pi,np.pi,256,endpoint=True)   
# 创建y轴数据，根据X的值，求正弦和余弦函数； 
sin,cos = np.sin(x),np.cos(x)  
# 设置正弦函数曲线的颜色为蓝色(blue)，线型为实线，线宽为2.5mm；
#余弦函数曲线的颜色为红色(red)，线型为实线，线宽为2.5mm。
plt.plot(x,sin,"b-",lw=2.5,label="正弦Sin()")  
plt.plot(x,cos,"r-",lw=2.5,label="余弦Cos()")   
# 设置坐标轴的范围，将x轴、y轴同时拉伸1.5倍，
plt.xlim(x.min()*1.5,x.max()*1.5)
plt.ylim(cos.min()*1.5,cos.max()*1.5)
# 设置x轴、y轴的坐标刻度，
plt.xticks([-np.pi,-np.pi/2,0,np.pi/2,np.pi],[r'$-\\pi$',r'$-\\pi/2$',r'$0$',r'$\\pi/2$',r'$\\pi$'])
plt.yticks([-1,0,1])
# 为图表添加标题“绘图实例之COS()&amp;SIN()”，字体大小设置为16，字体颜色设置为绿色；
plt.title("绘图实例之COS()&amp;SIN()",fontsize=16,color="green")
# 在图表右下角位置文本为“python-matplotlib”，文本大小为16，文本颜色为紫色
plt.text(+2.1,-1.4,"python_matplotlib",fontsize=16,color="purple")
# 获取Axes对象，并隐藏右边界和上边界；
ax=plt.gca()   
ax.spines['right'].set_color('none')   
ax.spines['top'].set_color('none')      
#  将x轴的坐标刻度设置在坐标轴下侧，坐标轴平移至经过零点（0,0）的位置，
ax.xaxis.set_ticks_position('bottom')   
ax.spines['bottom'].set_position(('data',0))  
# 将y轴的坐标刻度设置在坐标轴左侧，坐标轴平移至经过零点（0,0）的位置，
ax.yaxis.set_ticks_position('left')        
ax.spines['left'].set_position(('data',0))    
# 添加图例，图例位置为左上角，图例文字大小为12，
plt.legend(loc="upper left",fontsize=12)
# 用绘制散点图的方法在正弦，余弦函数上标注这两个点的位置，设置点大小为50，设置相应的点颜色；
t1=-np.pi
t2=2*np.pi/3
plt.scatter([t1,],[np.cos(t1),], 50, color ='b')  
plt.scatter([t2,],[np.sin(t2),], 50, color ='r')
# 为图表添加带箭头的注释；
plt.annotate(r'$\\sin(\\frac2\\pi3)=\\frac\\sqrt32$',
             xy=(t2,np.sin(t2)),    #点的位置
             xycoords='data',       #注释文字的偏移量
             xytext=(+10,+30),      #文字离点的横纵距离
             textcoords='offset points',
             fontsize=14,      #注释的大小
             arrowprops=dict(arrowstyle="-&gt;",connectionstyle="arc3,rad=.2"))   
plt.annotate(r'$\\cos(-\\pi)=-1$',
             xy=(t1,np.cos(t1)),   #点的位置
             xycoords='data',      #注释文字的偏移量
             xytext=(0,-40),       #文字离点的横纵距离
             textcoords='offset points',
             fontsize=14,    #注释的大小
             arrowprops=dict(arrowstyle="-&gt;",connectionstyle="arc3,rad=.2"))   
# 获取x,y轴的刻度，并设置字体；
for label in ax.get_xticklabels()+ax.get_yticklabels():
    label.set_fontsize(18)                                        
# 绘制填充区域；#设置正弦函数的填充区域，颜色为绿色（green），余弦函数的填充区域，颜色为紫色（purple）
plt.fill_between(x, np.abs(x)&lt;0.5, sin, sin&gt;0.5, color='g', alpha=0.8)
plt.fill_between(x, cos, where=(-2.5&lt;x)&amp;(x&lt;-0.5), color='purple')
# 绘制网格线
plt.grid()
plt.show()

85.简述Seaborn绘图风格设置的内容和方法。

right_answers: Seaborn通过set函数实现风格设置。

seaborn.set(context='notebook', style='darkgrid', palette='deep', font='sans-serif', font_scale=1, color_codes=True, rc=None)

86.简述Seaborn绘图主题设置的内容和方法。

right_answers: Seaborn将matplotlib的参数划分为两个独立的组合。第一组是设置绘图的外观风格的，第二组主要将绘图的各种元素按比例缩放的，以至可以嵌入到不同的背景环境中。控制这些参数的接口主要有两对方法：
控制风格：axes_style(), set_style()
缩放绘图：plotting_context(), set_context()
每对方法中的第一个方法（axes_style(), plotting_context()）会返回一组字典参数，而第二个方法（set_style(), set_context()）会设置matplotlib的默认参数。
利用set_style( )设置主题，Seaborn有五个预设的主题： darkgrid、 whitegrid、dark、white和 ticks，默认为darkgrid。

87.简述临时设置绘图参数的方法。

right_answers: 利用with语句
with sns.axes_style(“darkgrid”):
plt.subplot(2,1,1)
sinplot( )

88.简述pyecharts中图表绘制的步骤。

right_answers: 图形绘制过程，基本上所有的图表类型都是这样绘制的：

chart_name = Type() #初始化具体类型图表 chart_name .add() #添加数据及配置项 chart_name .render() #生成本地文件（html/svg/jpeg/png/pdf/gif） chart_name .render_notebook #在jupyter notebook中显示 #### 89.简述pyecharts代码链式调用的方法。

right_answers: V1 版本开始支持链式调用
bar = ( Bar()
.add_xaxis([“衬衫”, “毛衣”, “领带”, “裤子”, “风衣”, “高跟鞋”, “袜子”])
.add_yaxis(“商家A”, [114, 55, 27, 101, 125, 27, 105])
.set_global_opts(title_opts = opts.TitleOpts(title = “某商场销售情况”)) )
bar.render_notebook()

90.简述桑基图和平行坐标图的主要作用。

right_answers: 桑基图(Sankey diagram)即桑基能量分流图，也叫桑基能量平衡图。它是一种特定类型的流程图，图中延伸的分支的宽度对应数据流量的大小，通常应用于能源、材料成分、金融等数据的可视化分析。Pyecharts中利用Sankey绘制桑基图。
平行坐标图（Parallel Coordinates Plot）是对于具有多个属性问题的一种可视化方法。在平行坐标图中，数据集的一行数据在平行坐标图中用一条折线表示，纵向是属性值，横向是属性类别（用索引表示）。

91.简述pyecharts中地图绘制的主要过程。

right_answers: 略

92.简述时间序列数据分析的应用场景。

right_answers: 在多个时间点观测或测量的数据形成了时间序列。时间序列数据是一种重要的结构化数据类型，如金融、经济、生态学、神经科学和物理学等领域。

93.简述用Python来进行平稳性检验的常用方法。

right_answers: 用Python来进行平稳性检验主要有时序图检验、自相关图检验以及构造统计量进行检验3种方法。
（1）时序图
时序图就是普通的时间序列图，即以时间为横轴，观察值为纵轴进行检验。利用时序图可以粗略观察序列的平稳性。
（2）自相关图检验
平稳序列通常具有短期相关性，即随着延迟期数k的增加，平稳序列的自相关系数会很快地衰减向零，而非平稳序列的自相关系数的衰减速度会比较慢。画自相关图用到的是statsmodels中的plot_acf方法。自相关图中横轴表示延迟期数，纵轴表示自相关系数。
（3）构造统计量
利用绘图判断序列的平稳性比较直观，但不够精确，ADF（Augmented Dickey-Fuller）法直接通过假设检验的方式来验证平稳性。ADF的原假设（H0）和备择假设（H1）如下：
H0：具有单位根，属于非平稳序列；
H1：没有单位根，属于平稳序列。
Python中可以使用statsmodels中的adfuller方法进行ADF检验，直接输入数据，即可返回7个数值。其中的第一个返回值adf就是ADF方法的检验结果，这个值理论上越负越能拒绝原假设；第二个返回值pvalue以常用的判断标准值0.05作为参考，若其值大于0.05，说明支持原假设，反之拒绝原假设，表明该序列是一个平稳序列。

94.简述SciPy的主要功能。

right_answers: Scipy是一款用于数学、科学和工程领域的Python工具包，可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。

95.简述常见的范数含义及在Scipy中的实现方法。

right_answers: 见课本P214

96.简述Scipy中提供的优化方法。

right_answers: SciPy.optimize包提供了几种常用的优化算法，包括用来求有/无约束的多元标量函数最小值算法，最小二乘法，求有/无约束的单变量函数最小值算法，还有解各种复杂方程的算法。

97.简述最小二乘法的原理及在Scipy中的实现方法。

right_answers: 见课本P218

98.简述Scipy中稀疏矩阵的处理方法。

right_answers: 见课本P219

99.简述分类和聚类的主要特点。

right_answers: 分类是一种重要的数据分析形式，它提取刻画重要数据类的模型。数据分类也被称为监督学习，用来训练分类模型的数据需要有已标注的标签，包括学习阶段（构建分类模型）和分类阶段（使用模型预测给定数据的类标号）两个阶段。
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。聚类不需要有事先标注的标签。

100.简述回归分析的主要过程。

right_answers: 回归分析可以简单理解为数据分析与预测，通过对数据进行分析实现预测，也就是适当扩大已有自变量的取值范围，并承认该回归方程在扩大的定义域内成立。一般来说，回归分析的主要过程和步骤如下：
（1）收集一组包含因变量和自变量的数据；
（2）根据因变量和自变量之间的关系，初步设定回归模型；
（3）求解合理的回归系数；
（4）进行相关性检验，确定相关系数；
（5）利用模型对因变量作出预测或解释，并计算预测值的置信区间。

101.简述KNN最近邻分类算法的过程。

right_answers: KNN(k-Nearest Neighbor Classification)算法根据距离函数计算待分类样本X和每个训练样本的距离（作为相似度），选择与待分类样本举例最小的K个样本作为X的K个最近邻，最后以X的K个最近邻中的大多数样本所属的类别作为X的类别。

102.简述朴素贝叶斯分类的基本原理。

right_answers: 给定一个分类标签y和自由特征变量表示样本具有特征i，而表示样本不具有特征i。如果要知道具有特征1到n的向量是否属于分类标签，可以利用贝叶斯公式如11.1。

假定一个属性值在给定类上的影响独立于于其他属性的值“类条件独立性”，则

103.简述Python-OpenCV的主要功能。

right_answers: 在计算机视觉项目的开发中，OpenCV作为较大众的开源库，拥有了丰富的常用图像处理函数库，采用C/C++语言编写，可以运行在Linux/Windows/Mac等操作系统上，能够快速的实现一些图像处理和识别的任务。此外，OpenCV还提供了Java、Python、cuda等的使用接口、机器学习的基础算法调用，从而使得图像处理和图像分析变得更加易于上手，让开发人员更多的精力花在算法的设计上。OpenCV的主要应用领域有计算机视觉领域方向、物体识别、图像分割、人脸识别、动作识别、运动跟踪等。

104.简述彩色图像在OpenCV和Matplotlib中显示的区别。

right_answers: Matplotlib显示图像时是按照rgb模式，而通过OpenCV使用cv2.imread()命令读取的彩色图像是BGR格式。如果有必要的话可以将其从BGR格式转换为RGB格式。下面语句使用cv2.cvtColor()命令实现BGR格式到RGB或灰度图像的转换。
image_rgb = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
image_gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

105.利用Python-OpenCV实现图像的缩放、旋转、标注、分割和平滑等操作。

right_answers: 略

106.Jupyter notebook不具备的功能是（）。

Jupyter notebook可以直接生成一份交互式文档
Jupyter notebook可以安装Python库
Jupyter notebook可以导出HTML文件
Jupyter notebook可以将文件分享给他人

right_answers: Jupyter notebook可以将文件分享给他人

107.在Jupyter notebook的命令模式下，查看所有快捷键应该按下的键是（）。

right_answers: H

108.在Jupyter notebook的cell中安装包语句正确的是（）。

pip install 包名
conda install 包名
!pip install 包名
!conda install 包名

right_answers: !pip install 包名

109.在Jupyter notebook中按（）键进入命令模式。

回车键
ESC
Ctrl+enter
A

right_answers: ESC

110.下面不属于python特性的是（）。

简单易学
免费开源
属于低级语言
高可移植性

right_answers: 属于低级语言

111.以下哪条语句定义了一个Python字典。（）

1，2
[1, 2]
(1,2 )

right_answers:

112.字符串是一个字符序列，例如，字符串s，从右侧向左第3个字符用什么索引？（）

s[3]
[-3]
s[0:-3]
s[:-3]

right_answers: [-3]

113.循环结构可以使用Python语言中的（）语句实现。

print
while
loop
if

right_answers: while

114.Python中定义函数的关键字是（）。

def
define
function
defunc

right_answers: def

115.Numpy提供了两种基本对象，一种是ndarray，另一种是（）。

array
func
matrix
Series

right_answers: func

116.创建一个3*3的数组，下列代码中错误的是（）。

np.arange(0,9).reshape(3,3)
np.eye(3)
np.random.random([3,3,3])
np.mat(“
1,2,3;4,5,6;7,8,9”)

right_answers: np.random.random([3,3,3])

117.Numpy中统计数组元素个数的方法是（）。

ndim
shape
size
itemsize

right_answers: size

118.Numpy中的diag函数用于创建（）。

对角矩阵
三角矩阵
值为1的矩阵
值为0的矩阵

right_answers: 对角矩阵

119.Numpy.random模块中用于对一个序列进行随机排序的函数是（）。

uniform
shuffle
permutation
normal

right_answers: shuffle

120.在NumPy中创建一个元素均为0的数组可以使用（）函数。

zeros( )
arange( )
linspace( )
logspace( )

right_answers: zeros( )

121.在以下Pandas方法中不能实现实现合并数据的函数是（）。

agg()函数
concat()函数
join()方法
merge()函数

right_answers: agg()函数

122.设置索引使用哪种方法。（）

merge()方法
concat()方法
to_datetime()方法
set_index()方法

right_answers: set_index()方法

123.利用下面哪个可视化绘图可以发现数据的异常点。（）

密度图
直方图
盒图
概率图

right_answers: 盒图

124.以下关于缺失值检测的说法中，正确的是（）

null和notnull可以对缺失值进行处理
dropna方法既可以删除观测记录，还可以删除特征
fillna方法中用来替换缺失值的值只能是数据框
Pandas库中的interpolate模块包含了多种插值方法

right_answers: Pandas库中的interpolate模块包含了多种插值方法

125.Matplotlib中的哪个包提供了一批操作和绘图函数？（）

pyplot
Bar
rcparams
pprint

right_answers: pyplot

126.下列参数中调整后显示中文的是（）

lines.linestyle
lines.linewidth
font.sans-serif
axes.unicode_minus

right_answers: font.sans-serif

127.以下说法错误的是（）

饼图一般用于表示不同分类的占比情况。
箱线图展示了分位数的位置。
散点图无法反映特征间的统计关系。
词云对于文本中出现频率较高的关键词予以视觉上的突出。

right_answers: 散点图无法反映特征间的统计关系。

128.以下（）函数可以在绘制图表时，设置x轴的名称。

xlim()
ylim()
xlabel()
xticks()

right_answers: xlabel()

129.以下哪个函数可以实现画布的创建？（）

subplots( )
add_subplot( )
figure( )
subplot2grid( )

right_answers: figure( )

130.分析股票你选择用哪种分析方法（）

聚类
一元线性回归
时间序列
多元线性回归

right_answers: 时间序列

131.在现实世界的数据中，缺失值是常有的，一般的处理方法有（）。

忽略
删除
平均值填充
最大值填充

right_answers: 忽略

132.列表是不可变对象，支持在原处修改。（）

right_answers: 0

133.元组是不可变的，不能直接修改元组中元素的值，也不能为元组增删元素。（）

right_answers: 0

134.Python使用lambda创建匿名函数，匿名函数拥有自己的命名空间。（）

right_answers: 1

135.同一个列表中的元素的数据类型可以各不相同。（）

right_answers: 1

136.集合中的元素没有特定顺序但可以重复。（）

right_answers: 0

137.列表推导式在逻辑上等价于一个循环语句，只是形式上更加简洁。（）

right_answers: 0

138.在Python中创建一个空集合，可以直接用 set1=。（）

right_answers: 0

139.列表、元组和字符串都支持双向索引，有效索引的范围为[-L,L]，L为列表、元组或字符串的长度。（）

right_answers: 0

140.列表是包含0个或多个对象引用的有序序列，属于序列类型。（）

right_answers: 1

141.字典是存储可变数量键值对的数据结构，键和值可以是任意类型数据结构。（）

right_answers: 1

142.创建Series时如果指定了index，则只能用index访问数据。（）

right_answers: 0

143.Pandas中的apply方法能将函数应用于每一列。（）

right_answers: 1

144.Pandas中数据对象的索引可以随时被修改。（）

right_answers: 0

145.Pandas中数据的重建索引指对索引重新排序而不是修改。（）

right_answers: 1

146.交叉表是一种特殊的透视表，主要用于计算分组频率。（）

right_answers: 1

147.两个索引不一致的series进行算数运算会出错。（）

right_answers: 0

148.Pandas中可以通过行索引或行索引位置的切片形式选取行数据。（）

right_answers: 1

149.Pandas中可以通过query方法查询数据。（）

right_answers: 1

150.Pandas中使用loc和isin两个函数配合使用，按指定条件对数据进行提取。（）

right_answers: 1

151.线性图一般用于描述两组数据之间的趋势。Pandas中的Plot方法默认绘制线形图。（）

right_answers: 1

152.Pandas中使用isnull().sum()可以统计缺失值。（）

right_answers: 1

153.Pandas中的dropna中的thresh=N时表明要求一行有N个NaN值时该数据才能保留。（）

right_answers: 0

154.Pandas中利用merge函数合并数据表时默认的是内连接方式。（）

right_answers: 1

155.Pandas中的描述性统计一般会包括缺失数据。（）

right_answers: 0

156.语句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超过90%则删除该列。（）

right_answers: 0

157.利用merge方法合并数据时允许合并的DataFrame之间没有连接键。（）

right_answers: 0

158.哑变量（Dummy Variables）又称虚拟变量，是用以反映质的属性的一个人工变量。（）

right_answers: 1

159.DataFrame的duplicates方法可以用来删除重复数据。（）

right_answers: 0

160.网络关联关系在大数据中是一种常见的关系。（）

right_answers: 1

161.在极坐标投影中，需要以半径和角度的形式定义。（）

right_answers: 1

162.Seaborn的绘图更加便捷美观，是matplotlib的替代。（）

right_answers: 0

163.需要转换默认的Seaborn绘图风格，只需调用有参数设置的set方法。（）

right_answers: 0

164.使用Seaborn中的set_style( ) 设置主题，有5个预设的主题。（）

right_answers: 1

165.热力图实现过程就是将离散的点信息映射为图像。（）

right_answers: 1

166.Seaborn中的relplot方法关注的是统计量之间的关系，利用kind参数设置，可以绘制出曲线图和散点图。（）

right_answers: 1

167.在Seaborn中可以将一个字典参数传递给axes_style()的参数rc进行参数设置。（）

right_answers: 1

168.绘制回归图可以揭示两个变量之间的线性关系。（）

right_answers: 1

169.pyecharts还可以生成地理空间流动图，用来表示航班数量、人口流动等等。（）

right_answers: 1

170.图是一种抽象的数据结构，可以描述最广泛的数据间的关系，如交通网络，微信中的朋友关系网。（）

right_answers: 1

171.时间序列索引方法和Pandas数据的索引是相同的。（）

right_answers: 1

172.时序图就是普通的时间序列图，即以时间为横轴，观察值为
以上是关于Python数据分析与可视化期末复习试题集的主要内容，如果未能解决你的问题，请参考以下文章

数据分析与挖掘期末复习笔记（不挂科）

软件工程导论期末复习试题集

数据挖掘期末复习模拟题（暨考试题）

你还在担心期末复习没有题目做？爬虫帮帮你

《软件需求分析（第二版）》期末考试试题总结/复习资料

数据库原理及应用期末复习汇总(附某高校期末真题试卷)

Python数据分析与可视化期末复习试题集

1.Jupyter notebook不具备的功能是 （）

2.在Jupyter notebook的命令模式下，要查看所有快捷键应该按下的快捷键是 （ ）

3.在Jupyter notebook的cell中安装包语句正确的是 （ C ）

4.Numpy提供了两种基本对象，一种是ndarray，另一种是（ ）

5.创建一个3*3的数组，下列代码中错误的是（ ）

6.Numpy中统计数组元素个数的方法是（ ）

7.利用下面哪个可视化绘图可以发现数据的异常点。 （ ）

8.以下关于缺失值检测的说法中，正确的是（ ）

9.Matplotlib中的哪个包提供了一批操作和绘图函数（ ）

10.以下关于绘图标准流程说法错误的是（ ）

11.下列参数中调整后显示中文的（ ）

12.以下说法错误的是（ ）

13.列表是不可变对象，支持在原处修改。 （ ）

14.元组是不可变的，不能直接修改元组中元素的值，也不能为元组增删元素。（ ）

15.Python使用lambda创建匿名函数，匿名函数拥有自己的命名空间。（ ）

16.同一个列表中的元素的数据类型可以各不相同。（ ）

17.列表、元组和字符串属于有序序列，其中的元素有严格的先后顺序。 （ ）

18.集合中的元素没有特定顺序但可以重复。（ ）

19.列表推导式在逻辑上等价于一个循环语句，只是形式上更加简洁（ ）

20.在Python中创建一个空集合，可以直接用 set1= 。（ ）

21.列表、元组和字符串都支持双向索引，有效索引的范围为[-L,L]，L为列表、元组或字符串的长度。（ ）

22.包含列表的元组可以作为字典的键。（ ）

23.创建Series时如果指定了index，则只能用index访问数据。（ ）

24.创建DataFrame时会自动加上索引，且全部列会被有序排列。（ ）

25.Pandas中数据对象的索引可以随时被修改。 （ ）

26.Pandas中数据的重建索引指对索引重新排序而不是修改。（ ）

27.交叉表是一种特殊的透视表，主要用于计算分组频率。 （ ）

28.两个索引不一致的series进行算数运算会出错。（ ）

29.Pandas中利用merge函数合并数据表时默认的是内连接方式。（ ）

30.Pandas中的描述性统计一般会包括缺失数据。 （ ）

31.语句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超过90%则删除该列。 （ ）

32.利用merge方法合并数据时允许合并的DataFrame之间没有连接键。 （ ）

33.哑变量（Dummy Variables）又称虚拟变量，是用以反映质的属性的一个人工变量。（ ）

34. Seaborn的绘图更加便捷美观，是matplotlib的替代。 （ ）

35.需要转换默认的Seaborn绘图风格，只需调用有参数设置的set方法。（ ）

36.使用Seaborn中的set_style( ) 设置主题，有5个预设的主题。（ ）

37.热力图实现过程就是将离散的点信息映射为图像。（ ）

38.CSV（Comma-Separated Values）文件也称为字符分隔值文件，因为分隔字符也可以___ 逗号。

39.列表的sort方法没有返回值，或者说返回值为______。

40.Python中要使字符串转义字符不转义，则直接在字符串前加字符______。

41.已知字典dic=‘w’:97,’a’:19，则dic.get(‘w’, None)的值是______。

42.有arr = np.arange(12).reshape(3,4)，则arr[(0,1),(1,3)]对应的值是______和______；arr[1:2,(0, 3)]对应的元素是______和______；arr.ndim的值是______。

43.对于上题中的arr，若定义mask = np.array([1,0,1],dtype = np.bool)，则arr[mask,1] 对应的元素是______和______。

44.a=np.arange(8).reshape(2,4)，np.hsplit(a,2)返回值是______。

45.数组转置是数据重塑的一种特殊形式，可以通过 ___方法或数组的T属性实现。

46.创建一个范围在(0,1)之间的长度为12的等差数列的语句是 ___。

47.Numpy中数组的方法sort、argsort和lexsort分别是指 、 将___和 。

48.实现创建一个10*10的ndarray对象，满足矩阵边界全为1，里面全为0对应的代码是______。

49.将数组arr中所有的奇数置为-1对应的语句是______。

50.Pandas中与set_index方法相关用于还原索引的方法是 ___。

51.Series是一种一维数组对象，包含一个值序列。Series中的数据通过______访问。

52.Series有两种描述某条数据的手段，即______和标签。

53.一个DataFrame对象的属性values和ndim分别指___ 和 ___。

54.reindex方法中的参数method可以取值为‘ffill’和‘bfill’，分别指___ 和______。

55.随机抽取数据的语句sample(frac=0.7)中的frac参数的含义是______。

56.修改数据中的参数“inplace”的含义是______。

57.Pandas的数据对象在进行算术运算时如果存在不同索引会进行数据对齐，但会引入______。

58.Pandas中的applymap方法的作用是______。

59.Pandas中绘图时可以只用plot方法，具体绘图可以用参数 ___设置。

60.在Pandas中用于创建指定长度的日期型序列的方法是pandas.___ 方法。

61.datetime类数据是date类和time类的组合。通过 ___方法可以查看当前系统时间。

62.可以使用datetime.strptime将字符串转换为______。

63.时间序列的重采样是时间序列频率转换的过程，高频率聚合到低频率称为______。

64.数据___ 也被称为监督学习，包括学习阶段和分类阶段。

65.___分析是一项预测建模技术，它通过建模研究多个自变量对因变量的影响强度，预测数值型目标值。

66.___ 是一种使用线性映射来进行数据降维的方法，它通过去除数据相关性以最大限度保持原始数据的方差信息。

67.在K-Means算法中，由簇的______来代表整个簇。

68.SVM的主要目标是寻找最佳 ___，以便在不同类的数据间进行正确分类。

69.层次聚类是按照某种方法进行层次分类，主要有______和______两类方法。

70.简述数据分析与数据挖掘的区别与联系。

71.简述数据可视化分析的基本过程。

72.简述Jupyter Notebook的安装及第三方包的安装过程。

73.简述Jupyter Notebook中编辑模式与命令模式之间的切换方法。

74.输入一个包含若干数据的列表，先将列表中的数由小到大进行排序，然后将值为负数的元素进行平方运算。

75.输入一个字符串，输出收尾交换翻转后的字符串，如输入“abcd”，输出“dcba”。要求使用内置函数实现。

76.计算1！+2！+……+n！（n由键盘输入）。

77.简述Pandas删除空缺值方法dropna中参数thresh的使用方法。

78.简述Python中利用数据统计方法检测异常值的常用方法及其原理。

79.简述数据分析中要进行数据标准化的主要原因。

1.Jupyter notebook不具备的功能是（）

2.在Jupyter notebook的命令模式下，要查看所有快捷键应该按下的快捷键是（）

3.在Jupyter notebook的cell中安装包语句正确的是（ C ）

4.Numpy提供了两种基本对象，一种是ndarray，另一种是（）

5.创建一个3*3的数组，下列代码中错误的是（）

6.Numpy中统计数组元素个数的方法是（）

7.利用下面哪个可视化绘图可以发现数据的异常点。（）

8.以下关于缺失值检测的说法中，正确的是（）

9.Matplotlib中的哪个包提供了一批操作和绘图函数（）

10.以下关于绘图标准流程说法错误的是（）

11.下列参数中调整后显示中文的（）

12.以下说法错误的是（）

13.列表是不可变对象，支持在原处修改。（）

14.元组是不可变的，不能直接修改元组中元素的值，也不能为元组增删元素。（）

15.Python使用lambda创建匿名函数，匿名函数拥有自己的命名空间。（）

16.同一个列表中的元素的数据类型可以各不相同。（）

17.列表、元组和字符串属于有序序列，其中的元素有严格的先后顺序。（）

18.集合中的元素没有特定顺序但可以重复。（）

19.列表推导式在逻辑上等价于一个循环语句，只是形式上更加简洁（）

20.在Python中创建一个空集合，可以直接用 set1= 。（）

21.列表、元组和字符串都支持双向索引，有效索引的范围为[-L,L]，L为列表、元组或字符串的长度。（）

22.包含列表的元组可以作为字典的键。（）

23.创建Series时如果指定了index，则只能用index访问数据。（）

24.创建DataFrame时会自动加上索引，且全部列会被有序排列。（）

25.Pandas中数据对象的索引可以随时被修改。（）

26.Pandas中数据的重建索引指对索引重新排序而不是修改。（）

27.交叉表是一种特殊的透视表，主要用于计算分组频率。（）

28.两个索引不一致的series进行算数运算会出错。（）

29.Pandas中利用merge函数合并数据表时默认的是内连接方式。（）

30.Pandas中的描述性统计一般会包括缺失数据。（）

31.语句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超过90%则删除该列。（）

32.利用merge方法合并数据时允许合并的DataFrame之间没有连接键。（）

33.哑变量（Dummy Variables）又称虚拟变量，是用以反映质的属性的一个人工变量。（）

34. Seaborn的绘图更加便捷美观，是matplotlib的替代。（）

35.需要转换默认的Seaborn绘图风格，只需调用有参数设置的set方法。（）

36.使用Seaborn中的set_style( ) 设置主题，有5个预设的主题。（）

37.热力图实现过程就是将离散的点信息映射为图像。（）

42.有arr = np.arange(12).reshape(3,4)，则arr[(0,1),(1,3)]对应的值是和；arr[1:2,(0, 3)]对应的元素是和；arr.ndim的值是__。

43.对于上题中的arr，若定义mask = np.array([1,0,1],dtype = np.bool)，则arr[mask,1] 对应的元素是和。

47.Numpy中数组的方法sort、argsort和lexsort分别是指、将___和。

53.一个DataFrame对象的属性values和ndim分别指_ 和 _。

54.reindex方法中的参数method可以取值为‘ffill’和‘bfill’，分别指_ 和____。

69.层次聚类是按照某种方法进行层次分类，主要有和两类方法。

106.Jupyter notebook不具备的功能是（）。

107.在Jupyter notebook的命令模式下，查看所有快捷键应该按下的键是（）。

108.在Jupyter notebook的cell中安装包语句正确的是（）。

109.在Jupyter notebook中按（）键进入命令模式。

110.下面不属于python特性的是（）。

111.以下哪条语句定义了一个Python字典。（）

112.字符串是一个字符序列，例如，字符串s，从右侧向左第3个字符用什么索引？（）

113.循环结构可以使用Python语言中的（）语句实现。

114.Python中定义函数的关键字是（）。

115.Numpy提供了两种基本对象，一种是ndarray，另一种是（）。

116.创建一个3*3的数组，下列代码中错误的是（）。

117.Numpy中统计数组元素个数的方法是（）。

118.Numpy中的diag函数用于创建（）。

119.Numpy.random模块中用于对一个序列进行随机排序的函数是（）。

120.在NumPy中创建一个元素均为0的数组可以使用（）函数。

121.在以下Pandas方法中不能实现实现合并数据的函数是（）。

122.设置索引使用哪种方法。（）

123.利用下面哪个可视化绘图可以发现数据的异常点。（）

124.以下关于缺失值检测的说法中，正确的是（）

125.Matplotlib中的哪个包提供了一批操作和绘图函数？（）

126.下列参数中调整后显示中文的是（）

127.以下说法错误的是（）

128.以下（）函数可以在绘制图表时，设置x轴的名称。

129.以下哪个函数可以实现画布的创建？（）

130.分析股票你选择用哪种分析方法（）

131.在现实世界的数据中，缺失值是常有的，一般的处理方法有（）。

132.列表是不可变对象，支持在原处修改。（）

133.元组是不可变的，不能直接修改元组中元素的值，也不能为元组增删元素。（）

134.Python使用lambda创建匿名函数，匿名函数拥有自己的命名空间。（）

135.同一个列表中的元素的数据类型可以各不相同。（）

136.集合中的元素没有特定顺序但可以重复。（）

137.列表推导式在逻辑上等价于一个循环语句，只是形式上更加简洁。（）

138.在Python中创建一个空集合，可以直接用 set1=。（）

139.列表、元组和字符串都支持双向索引，有效索引的范围为[-L,L]，L为列表、元组或字符串的长度。（）

140.列表是包含0个或多个对象引用的有序序列，属于序列类型。（）

141.字典是存储可变数量键值对的数据结构，键和值可以是任意类型数据结构。（）

142.创建Series时如果指定了index，则只能用index访问数据。（）