[大数据Hadoop数据采集MySQL计算机基础Windows练习题库面试]
Posted 发量不足
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[大数据Hadoop数据采集MySQL计算机基础Windows练习题库面试]相关的知识,希望对你有一定的参考价值。
1. 下列哪种行为符合使用计算机的道德规范()
A.利用网络公布他人隐私
B.利用网络歪曲他人私人信息
C.利用网络破坏他人计算机
D.删除自己计算机中不用的软件
正确答案:D
2. 创建用户时,需要赋予新用户( )权限才能使它联上数据库
A.connect
B.source
C.table
D.role
正确答案:A
3. 公司中有多个部门和多名职员,每个职员只能属于一个部门,一个部门可以有多名职员,从部门到职员的联系类型是( )
A.多对多
B.一对一
C.多对一
D.一对多
正确答案:D
4. 使用( ),可以将某个SQL语句的执行依赖于另一个查询语句的执行结果
A.内连接查询
B.子查询
C.外连接查询
D.合并查询
正确答案:B
5. SQL的下列运算符中表示任意字符的是
A.*
B.%
C.LIKE
D._
正确答案:B
6. 分析以下SQL命令: SELECT price FROM inventory WHERE price BETWEEN 1 AND 50 AND (price IN(55, 30, 95); 命令执行后的最可能的输出结果是
A.55
B.30
C.95
D.51
正确答案:B
7. 数据采集是数据分析前的重要且首要环节,数据采集需要符合哪些特性()
A.多维性、灵活性、高延迟
B.全面性、多维性、高效性
C.低维度、高并发、高速率
D.单一化、低维度、低并发
正确答案:B
8. 在操作系统中,多个进程请求相同资源而引起的无休止的相互等待的过程叫做()
A.死锁
B.挂起
C.阻塞
D.中断
正确答案:A
9. 在OSI的七层参考模型中,工作在第二层上的网间连接设备是()
A.交换机
B.网关
C.路由器
D.集线器
正确答案:A
10. Apache服务器是实现( )网络协议的服务器。
A.FTP
B.DHCP
C.HTTPD
D.HTTP
正确答案:D
11. 关于Python语言的变量,以下选项中说法正确的是
A.随时声明、随时使用、随时释放
B.随时命名、随时赋值、随时使用
C.随时声明、随时赋值、随时变换类型
D.随时命名、随时赋值、随时变换类型
正确答案:B
12. 若k为整形, 下述while循环执行的次数为() k=1000 while k>1: print(k) k = k/2
A.9
B.10
C.11
D.1000
正确答案:B
13. type(1+2L*3.14)的结果是( )。
A.<type "int">
B.<type "long">
C.<type "float">
D.<type "str">
正确答案:C
14. 网络爬虫最常需要配置的请求头是()。
A.user-agent
B.accept-encoding
C.accept
D.referer
正确答案:A
15. JS埋点式数据采集的主要作用不包括()
A.数据监控
B.性能监控
C.异常监控
D.访问者IP收集
正确答案:D
16. 以长格式列目录时,若文件test的权限描述为:drwxrw-r--,则文件test的类型及文件主的权限是()
A.目录文件、读写执行
B.目录文件、读写
C.普通文件、读写
D.普通文件、读
正确答案:A
17. 在Linux环境下的Apache容器数据的采集中,启动apache服务代码是( )。
A.httpd
B.startup.bat
C.filebeat
D.logstash
正确答案:A
18. 在Linux环境下的Tomcat容器数据的采集中,启动Tomcat容器的代码是( )。
A.httpd
B.startup.sh
C.filebeat
D.logstash
正确答案:B
19. 在XPath中,XML文档是被作为节点树来对待的。树的根被称为()。
A.文档节点
B.总节点
C.树节点
D.元素
正确答案:A
20. 下列哪个正则表达式表示简单的身份证号验证?
A.\\d15|\\d18$
B.\\d15|\\d18
C.\\15|\\d18$
D.d15|\\d18$
正确答案:A
21. ELK在安装过程中,彼此之间存在一定的依赖关系,正确的安装顺序是()
A.Logstash-ElasticSearch-Kibana
B.ElasticSearch-Logstash-Kibana
C.ElasticSearch-Kibana-Logstash
D.Kibana-ElasticSearch-Logstash
正确答案:B
22. 以下不属于常用的日志框架的是()
A.Log4j
B.Slf4j
C.Logback
D.vue
正确答案:D
23. 响应状态码中,表示“未授权,不能访问”的是()。
A.500
B.501
C.302
D.401
正确答案:D
24. 选择html页面上所有class属性为“cls”的div标签,Xpath代码为()。
A.//div[class='cls']
B.//div[@class='cls']
C./div[@class='cls']
D.//div[@class=cls]
正确答案:B
25. 以下哪项()URL对SEO最友好
A.seostudy/index.html
B.seostudy/
C.seostudy.php?id=021
D.seostudy.aspx
正确答案:A
多选题(共15题 共30分)
1. 下列哪些概念不是为了提高数据库的访问速度而存在( )
A.外键
B.视图
C.关系
D.索引
正确答案:A B C
2. 使用SQL命令将教师表teacher中工资salary字段的值增加500,下列哪些命令是不能实现的( )
A.Replace salary with salary+500
B.Update teacher salary with salary+500
C.Update set salary with salary+500
D.Update teacher set salary=salary+500
正确答案:A B C
3. 数据采集,从网页或各业务系统中来抽取数据,并进行本地存储,其具体步骤包括()
A.分析数据
B.采集数据
C.清洗数据
D.存储数据
正确答案:B C D
4. Windows操作系统在其运行的生命周期中会记录其大量的日志信息,这些日志信息包括()
A.Windows事件日志(Event Log)
B.Windows服务器系统的IIS日志
C.FTP日志
D.Exchange Server邮件服务
E.MS SQL Server数据库日志
正确答案:A B C D E
5. 在Windows系统中申请、查看、释放IP地址分别使用什么命令?
A.ipconfig /refree
B.ipconfig /renew
C.ipconfig /all
D.ipconfig /release
正确答案:B C D
6. 关于 Python 组合数据类型,以下选项中描述错误的是()
A.Python 的 str、tuple 和 list 类型不都属于序列类型
B.Python 组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序、更容易
C.组合数据类型可以分为 3 类:序列类型、集合类型和映射类型
D.序列类型是二维元素向量,元素之间存在先后关系,通过序号访问
正确答案:A D
7. HTTP请求报文包含()
A.请求行
B.请求头
C.空行
D.请求体
正确答案:A B C D
8. 埋点式采集数据的方式又可以根据埋点位置的不同,可以分为哪几种()
A.前端埋点
B.代理埋点
C.后端埋点
D.数据库埋点
正确答案:A C
9. 下面哪些建议可以增强系统的安全性?
A.尽可能关闭不必要的服务
B.废除所有默认的帐号
C.限制用户尝试登陆的次数
D.加密
正确答案:A C D
10. Apache容器数据采集中常用( )工具完成数据采集。
A.Apache服务器
B.Filebeat
C.logstash
D.nginx
正确答案:B C
11. Xpath表达式的返回值可以返回什么类型?
A.节点值
B.字符串
C.布尔类型
D.数字
正确答案:A B C D
12. 下列哪些是正则表达式的正确表示?
A.Regular Expression
B.regex
C.regexp
D.RE
正确答案:A B C D
13. 完整的日志具有哪些作用()
A.信息查找
B.服务诊断
C.业务拓展
D.数据分析
正确答案:A B D
14. Scrapy架构中,中间件包括()。
A.Downloader Middlewares
B.Scheduler Middlewares
C.Spider Middlewares
D.Pipeline Middlewares
正确答案:A C
15. urllib的urlopen方法的参数,至少是()或()中的一个。
A.data
B.url
C.headers
D.Request对象
正确答案:B D
判断题(共20题 共20分)
1. 关系数据库中,实体之间的联系是通过表与表之间的公共元组实现的
正确
错误
正确答案:错误
2. 视图是由一个或若干基表产生的数据集合,但视图不占存储空间。建立视图可以保护数据安全(仅让用户查询修改可以看见的一些行列)、简化查询操作、保护数据的独立性
正确
错误
正确答案:正确
3. DELETE语句用来删除表中的数据,一次只能删除一行
正确
错误
正确答案:错误
4. 大数据采集一般数据量大、数据面广,因此信息采集执行效率相对低效且获取数据不追求及时性
正确
错误
正确答案:错误
5. 进程具备多种特性,如:动态性、顺序性、独立性和同步性
正确
错误
正确答案:错误
6. 在TCP/IP协议中,TCP提供可靠的面向连接服务,UDP提供简单的无连接服务
正确
错误
正确答案:正确
7. Apache虚拟目录的位置与主目录的位置可以不在同一磁盘上
正确
错误
正确答案:正确
8. Python 不需要显式声明变量类型,在第一次变量赋值时由值决定变量的类型
正确
错误
正确答案:正确
9. Python内存管理中,变量无须先创建和赋值而直接使用
正确
错误
正确答案:错误
10. 在TCP/IP协议中,TCP协议提供可靠的连接服务,通过使用四次握手建立一个连接。
正确
错误
正确答案:错误
11. 通过前端埋点数据采集,可以统计用户在每一个页面的停留时间。
正确
错误
正确答案:正确
12. 利用JS埋点技术进行数据采集时,必须通过用户在网页中触发网络请求才能完成采集。
正确
错误
正确答案:错误
13. chmod命令仅由root用户可以执行。
正确
错误
正确答案:错误
14. 经常使用filebeat和logstash完成日志数据的采集
正确
错误
正确答案:正确
15. Xpath通配符不可以用来选取未知的XML元素。
正确
错误
正确答案:错误
16. 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正确
错误
正确答案:正确
17. 若要了解一个业务系统的访问量、运行状态、异常情况、功能访问分布等情况,可通过爬取其日志信息进行数据分析和信息提取
正确
错误
正确答案:正确
18. 一个网站获取的反向链接越多越好,说明被认同的范围越广,所以反向链接追求高数量,对质量要求低
正确
错误
正确答案:错误
19. Get传送的数据量较小,这主要是因为受URL长度限制;Post传送的数据量较大,一般被默认为不受限制。
正确
错误
正确答案:正确
20. Scrapy中,pipline用于对Item进行清理、验证,并定义其输出
正确
错误
正确答案:正确
1. 下列哪种行为符合使用计算机的道德规范
A.利用网络公布他人隐私
B.利用网络歪曲他人私人信息
C.利用网络破坏他人计算机
D.删除自己计算机中不用的软件
正确答案:D
2. 创建用户时,需要赋予新用户( )权限才能使它联上数据库
A.connect
B.source
C.table
D.role
正确答案:A
3. 公司中有多个部门和多名职员,每个职员只能属于一个部门,一个部门可以有多名职员,从部门到职员的联系类型是( )
A.多对多
B.一对一
C.多对一
D.一对多
正确答案:D
4. 使用( ),可以将某个SQL语句的执行依赖于另一个查询语句的执行结果
A.内连接查询
B.子查询
C.外连接查询
D.合并查询
正确答案:B
5. SQL的下列运算符中表示任意字符的是
A.*
B.%
C.LIKE
D._
正确答案:B
6. 分析以下SQL命令: SELECT price FROM inventory WHERE price BETWEEN 1 AND 50 AND (price IN(55, 30, 95); 命令执行后的最可能的输出结果是
A.55
B.30
C.95
D.51
正确答案:B
7. 数据采集是数据分析前的重要且首要环节,数据采集需要符合哪些特性()
A.多维性、灵活性、高延迟
B.全面性、多维性、高效性
C.低维度、高并发、高速率
D.单一化、低维度、低并发
正确答案:B
8. 在操作系统中,多个进程请求相同资源而引起的无休止的相互等待的过程叫做()
A.死锁
B.挂起
C.阻塞
D.中断
正确答案:A
9. 在OSI的七层参考模型中,工作在第二层上的网间连接设备是()
A.交换机
B.网关
C.路由器
D.集线器
正确答案:A
10. Apache服务器是实现( )网络协议的服务器。
A.FTP
B.DHCP
C.HTTPD
D.HTTP
正确答案:D
11. 关于Python语言的变量,以下选项中说法正确的是
A.随时声明、随时使用、随时释放
B.随时命名、随时赋值、随时使用
C.随时声明、随时赋值、随时变换类型
D.随时命名、随时赋值、随时变换类型
正确答案:B
12. 若k为整形, 下述while循环执行的次数为() k=1000 while k>1: print(k) k = k/2
A.9
B.10
C.11
D.1000
正确答案:B
13. type(1+2L*3.14)的结果是( )。
A.<type "int">
B.<type "long">
C.<type "float">
D.<type "str">
正确答案:C
14. 网络爬虫最常需要配置的请求头是()。
A.user-agent
B.accept-encoding
C.accept
D.referer
正确答案:A
15. JS埋点式数据采集的主要作用不包括()
A.数据监控
B.性能监控
C.异常监控
D.访问者IP收集
正确答案:D
16. 以长格式列目录时,若文件test的权限描述为:drwxrw-r--,则文件test的类型及文件主的权限是()
A.目录文件、读写执行
B.目录文件、读写
C.普通文件、读写
D.普通文件、读
正确答案:A
17. 在Linux环境下的Apache容器数据的采集中,启动apache服务代码是( )。
A.httpd
B.startup.bat
C.filebeat
D.logstash
正确答案:A
18. 在Linux环境下的Tomcat容器数据的采集中,启动Tomcat容器的代码是( )。
A.httpd
B.startup.sh
C.filebeat
D.logstash
正确答案:B
19. 在XPath中,XML文档是被作为节点树来对待的。树的根被称为()。
A.文档节点
B.总节点
C.树节点
D.元素
正确答案:A
20. 下列哪个正则表达式表示简单的身份证号验证?
A.\\d15|\\d18$
B.\\d15|\\d18
C.\\15|\\d18$
D.d15|\\d18$
正确答案:A
21. ELK在安装过程中,彼此之间存在一定的依赖关系,正确的安装顺序是()
A.Logstash-ElasticSearch-Kibana
B.ElasticSearch-Logstash-Kibana
C.ElasticSearch-Kibana-Logstash
D.Kibana-ElasticSearch-Logstash
正确答案:B
22. 以下不属于常用的日志框架的是()
A.Log4j
B.Slf4j
C.Logback
D.vue
正确答案:D
23. 响应状态码中,表示“未授权,不能访问”的是()。
A.500
B.501
C.302
D.401
正确答案:D
24. 选择html页面上所有class属性为“cls”的div标签,Xpath代码为()。
A.//div[class='cls']
B.//div[@class='cls']
C./div[@class='cls']
D.//div[@class=cls]
正确答案:B
25. 以下哪项()URL对SEO最友好
A.seostudy/index.html
B.seostudy/
C.seostudy.php?id=021
D.seostudy.aspx
正确答案:A
多选题(共15题 共30分)
1. 下列哪些概念不是为了提高数据库的访问速度而存在( )
A.外键
B.视图
C.关系
D.索引
正确答案:A B C
考生答案:B、A、C得分:2
试题解析:
2. 使用SQL命令将教师表teacher中工资salary字段的值增加500,下列哪些命令是不能实现的( )
A.Replace salary with salary+500
B.Update teacher salary with salary+500
C.Update set salary with salary+500
D.Update teacher set salary=salary+500
正确答案:A B C
3. 数据采集,从网页或各业务系统中来抽取数据,并进行本地存储,其具体步骤包括()
A.分析数据
B.采集数据
C.清洗数据
D.存储数据
正确答案:B C D
4. Windows操作系统在其运行的生命周期中会记录其大量的日志信息,这些日志信息包括()
A.Windows事件日志(Event Log)
B.Windows服务器系统的IIS日志
C.FTP日志
D.Exchange Server邮件服务
E.MS SQL Server数据库日志
正确答案:A B C D E
5. 在Windows系统中申请、查看、释放IP地址分别使用什么命令?
A.ipconfig /refree
B.ipconfig /renew
C.ipconfig /all
D.ipconfig /release
正确答案:B C D
6. 关于 Python 组合数据类型,以下选项中描述错误的是()
A.Python 的 str、tuple 和 list 类型不都属于序列类型
B.Python 组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序、更容易
C.组合数据类型可以分为 3 类:序列类型、集合类型和映射类型
D.序列类型是二维元素向量,元素之间存在先后关系,通过序号访问
正确答案:A D
7. HTTP请求报文包含()
A.请求行
B.请求头
C.空行
D.请求体
正确答案:A B C D
8. 埋点式采集数据的方式又可以根据埋点位置的不同,可以分为哪几种()
A.前端埋点
B.代理埋点
C.后端埋点
D.数据库埋点
正确答案:A C
9. 下面哪些建议可以增强系统的安全性?
A.尽可能关闭不必要的服务
B.废除所有默认的帐号
C.限制用户尝试登陆的次数
D.加密
正确答案:A C D
10. Apache容器数据采集中常用( )工具完成数据采集。
A.Apache服务器
B.Filebeat
C.logstash
D.Nginx
正确答案:B C
11. Xpath表达式的返回值可以返回什么类型?
A.节点值
B.字符串
C.布尔类型
D.数字
正确答案:A B C D
12. 下列哪些是正则表达式的正确表示?
A.Regular Expression
B.regex
C.regexp
D.RE
正确答案:A B C D
13. 完整的日志具有哪些作用()
A.信息查找
B.服务诊断
C.业务拓展
D.数据分析
正确答案:A B D
14. Scrapy架构中,中间件包括()。
A.Downloader Middlewares
B.Scheduler Middlewares
C.Spider Middlewares
D.Pipeline Middlewares
正确答案:A C
15. urllib的urlopen方法的参数,至少是()或()中的一个。
A.data
B.url
C.headers
D.Request对象
正确答案:B D
判断题(共20题 共20分)
1. 关系数据库中,实体之间的联系是通过表与表之间的公共元组实现的
正确
错误
正确答案:错误
2. 视图是由一个或若干基表产生的数据集合,但视图不占存储空间。建立视图可以保护数据安全(仅让用户查询修改可以看见的一些行列)、简化查询操作、保护数据的独立性
正确
错误
正确答案:正确
3. DELETE语句用来删除表中的数据,一次只能删除一行
正确
错误
正确答案:错误
4. 大数据采集一般数据量大、数据面广,因此信息采集执行效率相对低效且获取数据不追求及时性
正确
错误
正确答案:错误
5. 进程具备多种特性,如:动态性、顺序性、独立性和同步性
正确
错误
正确答案:错误
6. 在TCP/IP协议中,TCP提供可靠的面向连接服务,UDP提供简单的无连接服务
正确
错误
正确答案:正确
7. Apache虚拟目录的位置与主目录的位置可以不在同一磁盘上
正确
错误
正确答案:正确
8. Python 不需要显式声明变量类型,在第一次变量赋值时由值决定变量的类型
正确
错误
正确答案:正确
9. Python内存管理中,变量无须先创建和赋值而直接使用
正确
错误
正确答案:错误
10. 在TCP/IP协议中,TCP协议提供可靠的连接服务,通过使用四次握手建立一个连接。
正确
错误
正确答案:错误
11. 通过前端埋点数据采集,可以统计用户在每一个页面的停留时间。
正确
错误
正确答案:正确
12. 利用JS埋点技术进行数据采集时,必须通过用户在网页中触发网络请求才能完成采集。
正确
错误
正确答案:错误
13. chmod命令仅由root用户可以执行。
正确
错误
正确答案:错误
14. 经常使用filebeat和logstash完成日志数据的采集
正确
错误
正确答案:正确
15. Xpath通配符不可以用来选取未知的XML元素。
正确
错误
正确答案:错误
16. 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正确
错误
正确答案:正确
17. 若要了解一个业务系统的访问量、运行状态、异常情况、功能访问分布等情况,可通过爬取其日志信息进行数据分析和信息提取
正确
错误
正确答案:正确
18. 一个网站获取的反向链接越多越好,说明被认同的范围越广,所以反向链接追求高数量,对质量要求低
正确
错误
正确答案:错误
19. Get传送的数据量较小,这主要是因为受URL长度限制;Post传送的数据量较大,一般被默认为不受限制。
正确
错误
正确答案:正确
20. Scrapy中,pipline用于对Item进行清理、验证,并定义其输出
正确
错误
正确答案:正确
以上是关于[大数据Hadoop数据采集MySQL计算机基础Windows练习题库面试]的主要内容,如果未能解决你的问题,请参考以下文章