1.系统的大部分节点崩了,使得主节点都无法顺利地转移到从节点了,因为从节点也崩了,使得整个集群无法使用
2.集群的管理节点崩了,集群的管理节点用作监控整个集群和进行故障转移(用好的从节点替换有问题的主节点),因为集群的管理节点崩了,所以集群也崩了
3.网络分区,意味着一个集群出现了好几个网络,意思集群内部之间没有办法进行通信了,从而集群的各个网络分区都认为自己是集群,也就是脑裂问题,从而使的整个集群的数据不一致和数据冲突
4.配置错误,一个或者多个节点配置错误,从而使得数据不一致,严重的可能导致集群崩了
5.内存不足:
内存不足,使得集群难以处理一些大的数据,从而影响集群的性能甚至严重地会崩溃
解决方案:
1.给每个主节点多配置几个从节点,从而使得主节点崩了,也可以有足够多的主节点替换成从节点,而且也要定期检查集群的状态
2.设置多个独立的集群管理节点,防止一个管理节点崩了,其他管理节点依然可以使用
3.对于集群配置,要有正确的故障转移配置以及集群监测等配置,保证集群的数据一致性和高可用
4.对于网络分区零容忍,采用合理的网络结果,如网络拓扑结构和分布式一致协议
5.增大每个节点的内存,防止内存过小
其实这些措施都是为了让集群保持高可用和数据一致性