大数据实践总结－－两个故障的处理及思路总结

Posted 2020-10-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据实践总结－－两个故障的处理及思路总结相关的知识，希望对你有一定的参考价值。

已经有一段时间没有更新实践内容了，不是因为没有在学习。而是工作上出现一个新的挑战，又在忙论文查重，论文也是大数据方向的，主要是ICT方向的一个技术（若有人感兴趣，我会另开一个帖子来详细谈这个内容）。

而且最近，把之前所有的实践环境换了一台电脑来重新搭建。按理说会很顺利，但没想到，还是出了许多问题。一些简单的问题就直接解决了，但仍是有两个大的故障，一直到今天下午才全部都解决了。现总结如下，为以后也能更好的学习使用。

故障一：虚拟机上虚拟适配器不能链接到主机的网络

故障现像：

在将原来的虚拟机整体复制到新电脑上之后，发现从虚拟机上可以PING通外网，但从自己的主机上不能PING通虚拟机。这样就导致了无法从CRT软件上远程登录虚拟机。

解决思路：

这个现像在网络上叫单通，也即PING操作里只有一个方向能够通过，一般出现这种情况，首先的判断是防火墙的问题。而从虚机到外网可达，说明虚机上的防火墙是关闭着的。然后重点就是在主机侧，通过查看主机的网络链接，没有找到跟虚拟机的网络链接。故障原因可能是出在这个地方。

解决步骤：

关于这个问题，网络上能搜索到许多贴子，解决办法也有很多种。什么重启，重新配置之类都有很多。但都没有最终解决虚拟网络链接的问题。

1，http://tieba.baidu.com/p/3508962695主要是参考了这个贴子里16楼提到的方法，因为故障的关键是在虚拟网络没有建立上。所以主要思考如何能够重新建立这个链接。

2，在以上的解决办法中，没有按照上边的一步一步来照着操作，而是直接下载了cc cleaner这个软件，因为通过之前的相关贴子，发现之所以虚拟网络链接无法建立，可能跟操作系统有关，而这一块又肯定与注册表有关。而这个软件主要是修改系统的相应注册表项。

3，当修复完相关的注册表项，查看网上邻居的属性页面，发现出现了与虚拟机相连的VMnet8的网络链接。然后通过属性页面，修改其IP为虚拟机的网关IP地址，同时DNS也设置为虚拟机上的DNS。

最后，再进行相关验证，在这里有一点需要注意，要把你主机的对外网络设置为可共享（相当于虚拟机通过共享上外网）。至此，故障解决！

故障反思：

任何故障的出现都是有原因的，在网络上都能够搜索到相关的信息。如何找到关键词，找到适合自己的相关内容很关键。同时要对故障产生的大概原因有一个前提判断，这样就是可以在正确的跑道上去寻找答案。首先要相信一点，是故障总是会被解决的。不要总想着重装系统来解决问题，这只是逃避问题的一种方案。多去思考，多去看前人的技术总结，会让你的技术思路有很大提升的。

故障二：在搭建好Hadoop集群后，namenode与datanode两个过程不能起来，或者一个启动之后另一个自动关闭

故障现像：

此故障可以算是在换电脑搭集群后最多的故障了，首先是从节点上相关进程都没起来，后来又是进程起来后从节点上datanode节点没起来，最后是datanode进程起来之后，主节点上namenode进程又没起来。此故障看起来一波三折，实际上在理解好相关原理后，解决起来要比第一个故障轻松一些。

解决思路：

原理为先：首先要找到对应关系，主节点上namenode主要是跟从节点上datanode相对应。

主节点上jobtracker主要是跟从节点是tasktrack相对应。

故障细分：1，从节点上进程起不来。2，datanode无法开启 3，namenode无法开启

解决步骤：

此故障在网上也是有很多攻略，在看完其他人的解决方法后。从理论联系实操分三步走来解决这个故障：

1，从节点上进程无法启动，这个问题较为简单。大部分是由于各虚拟机之间的防火墙没有关闭，而在真实的生产系统中。也表现来Linux之间的防火墙问题导致的HDFS集群不通。又或者是暂时性关闭防火墙，没有永久性关闭。具体的命令从网上都可以找到。

2，datanode无法开启，这里就要寻找你当初设置此集群时的六个文件，里边就有设置的相关参数。主要是在core-site.xml内，在这个里边，我们设置了相关临时文件夹，也相当于这个进程在开启之后是否与主节点需要通信。当把这里边建立的tmp文件夹删除之后，从节点上的datanode就可以顺利开启了。

3，namenode无法开启，由于从上边的原理上来看，datanode与namenode是相互依存的关系，而它们之间要启动肯定是同时启运的。不会一个开启，一个关闭。若是这样，那肯定另一个进程一会儿也会自动关闭。而控制两个进程之间同步的有时间戳消息。而这个消息主要是在logs日志里。当把hadoop安装目录下的logs全删除后。

然后，将全部进程停止，再全部重新启动。所有进程就都起来了。至此，故障解决！！

故障反思：

此故障解决起来，主要是要把原理搞明白。不然在看网上相关攻略的时候总是会找不到方法。多去思考背后的原因，多去总结，反思！提升自己解决问题的能力！

经过这两个故障，更多的对Linux的基础命令熟悉了许多，同时对HDFS的相关设置也更加熟悉。在实践过程中，也遇到过：若是故障解决不了，要不要重新搭建的问题？后来想明白了。在网吧上网的年代，那些喊一声网管，电脑死机了。网管一般的解决办法就是重启。而重新搭建就跟网管的功能是一样的，遇到技术上的问题，不要逃避，多去思考，多去实践，才是提升你大数据技术实力的关键。

本文出自 “数据挖掘与可视化” 博客，转载请与作者联系！

以上是关于大数据实践总结－－两个故障的处理及思路总结的主要内容，如果未能解决你的问题，请参考以下文章

大数据实践总结－－－一点思考

大数据实践学习总结－－MapReduce

《大数据实时处理》学生学期总结

大数据实践--Hadoop单机搭建（Ubuntu）

个推技术实践 | 掌握这两个调优技巧，让TiDB性能提速千倍！

[转]携程大数据实践：高并发应用架构及推荐系统案例