可以利用好k8s本身的快速隔离恢复机制,在大数据管理组件,比如NM出现异常时及时通过liveness探测到并重启。另外,各管理组件的HA机制要做好,比如RM的HA。另外可以通过跨集群队列路由能力,让作业可以调度到不同的k8s集群,在某个集群要升级变更时,可以把作业调度到其它集群运行。
运行效率可以通过采用裸金属服务器作为节点,达到和传统大数据集群同样的性能要求。网络采用underlay网络模式,提供堪比物理网络的性能。shaffle盘采用SSD,提供更好的IO性能。
大数据作业只有通过和在线应用混合部署,错峰运行,才能根本上提升计算节点的资源使用效率。