Linux进程OOM-kill 监控和规避

 目录

一、proc目录简介

二、Linux OOM机制说明

1、OOM killer机制

2、寻找系统中最先被OOM kill的进程

3、修改 oom_score_adj


一、proc目录简介


      proc是linux系统中的一个虚拟文件系统,它实际上不含有任何真正的文件,/proc中的文件如同linux内核中的内部数据结构的接口,通过这些接口,我们可以在系统运行时获取系统信息或者改变内核参数。proc放置的数据都是在内存当中,例如系统内核、进程、外部设备的状态及网络状态等。因为这个目录下的数据都是在内存当中,所以本身不占任何硬盘空间。

/proc文件系统包含有每个进程的目录,每个进程由其PID号表示的文件夹表示,例如 进程6111相关信息存放在/proc/61111中


二、Linux OOM机制说明


在工作过程中,你可能会遇到过这种情况,程序在运行一段时间之后突然挂掉,在你保证程序在正常情况下不会挂掉的情况下,程序挂掉的原因可能是在你的程序运行过程中,有一段时间你的程序运行内存过大,而此时系统物理内存不足,导致系统触发OOM killer机制,将该进程kill。

1、OOM killer机制


OOM killer是out-of-memory killer的缩写,它是机Liux内核的一种内存管理机制。在Linux系统内存将要用完的情况下,OOM-killer进程会遍历当前机器上的所有进程,按照进程所占内存的大小和用户打分(oom_score_adj)对进程进行打分(占用内存越大,分数越高),然后挑选出分数最高的进程将其kill掉。

2、寻找系统中最先被OOM kill的进程


一个进程的OOM-killer打分分别由系统得分和用户打分综合评判,它的具体策略是系统打分+用户打分为当前进程的最后分数。对于Linux中运行的每一个进程,都会有两个文件分别为/proc/{pid}/oom_score和/proc/{pid}/oom_score_adj来保存系统打分和用户打分。

oom_score:系统打分是根据当前进程当前时间占用内存计算,占用内存越多,分数越高。

oom_score_adj: 用户打分为用户写入,范围是-1000~1000。若进制OOM kill掉当前进程,可以将该进程的oom_score_adj设置为-1000。

所以我们可以通过Linux中进程运行过程中保存的oom_score和oom_score_adj文件,来找到最先被系统oom-kill的进程。可使用下面脚本来搜索优先被OOM_kill的进程

dir=`ls -l /proc |awk '/^d/ {print $NF}'`
result_process=0
result_score=0

for i in $dir
do
	oom_score=0
	oom_score_adj=0

	if [ -f "/proc/$i/oom_score" ]
		then
			oom_score=`cat /proc/$i/oom_score`
	fi

	if [ -f "/proc/$i/oom_score_adj" ]
		then
			oom_score_adj=`cat /proc/$i/oom_score_adj`
	fi

	process_score=`expr $oom_score + $oom_score_adj`

	if [ $i != "1" ] && [ $process_score -gt $result_score ]
		then
			result_score=$process_score
			result_process=$i
	fi
done

echo $result_process,$result_score

3、修改 oom_score_adj


修改进程oom_score_adj的值为-1000避免该进程被kill。

非 root 用户要拥有sudo权限 
sudo sh -c "echo -1000 > /proc/12378/oom_score_adj"
非 root 用户要拥有sudo权限 
sudo sh -c "echo -1000 > /proc/12378/oom_score_adj"


sh -c "echo -200 > /proc/12656/oom_score_adj" 
sh -c "echo -200 > /proc/12675/oom_score_adj"

我们将Azkaban-web和Azkaban-exe两个进程的oom_score_adj 修改下

简单写个监控Azkaban进程启动脚本

#!/bin/bash

#监控azkaban
set -x

#azkaban的web监控
azwebCount=`ps -ef |grep azkaban-web |grep -v "grep" |wc -l`
if [ 0 == $azwebCount ];then
	echo "${azkbanServer}机器的azkaban-web down 掉了"
	cd /hadoop/software/azkaban.3.30.1/azkaban-web/
	nohup ./bin/azkaban-web-start.sh  &  #启动azwebCount

  sleep 3s
  azWeb=$(ps -ef | grep azkaban-web | grep "AzkabanWebServer" | awk '{print $2}')
	if [ ! -z $azWeb ]
	then
	     sh -c "echo -1000 > /proc/$azWeb/oom_score_adj"
	fi
else
    echo "${azkbanServer}机器的azkaban-web 正常"
fi

#监控azkaban的exe
azexeCount=`ps -ef |grep azkaban-exe |grep -v "grep" |wc -l`
if [ 0 == $azexeCount ];then
	echo "${azkbanServer}机器的azkaban-exe down 掉了"
	cd /hadoop/software/azkaban.3.30.1/azkaban-exec/
	nohup ./bin/azkaban-executor-start.sh &  #启动azkaban-exe
      
        sleep 3s
        azExe=$(ps -ef | grep azkaban-exec | grep "AzkabanExecutorServer" | awk '{print $2}')
        if [ ! -z $azExe ]
        then
             sh -c "echo -1000 > /proc/$azExe/oom_score_adj"
        fi
else
    echo "${azkbanServer}机器的azkaban-exe 正常"
fi

echo '##################################################################################'
echo `date`

————————————————

版权声明:本文为CSDN博主「langzi989」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:Linux OOM机制详解_oom kill oom_score_adj_langzi989的博客-CSDN博客

原文链接:Linux-/proc文件系统_linux /proc/$$_hhhnoone的博客-CSDN博客

Linux 服务器 OOM 分析_linux oom demsg_开着拖拉机回家的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/34754.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch Dump的详细安装和迁移es索引和数据的使用教程

前言 如果希望将数据导出到本地文件而不是通过编程方式处理,可以考虑使用Elasticsearch的导出工具,如Elasticsearch Dump(Elasticdump)或Elasticsearch Exporter。这些工具可以将Elasticsearch索引中的数据导出为可用于后续处理的…

通付盾发布UIAM白皮书,利用区块链、大模型AI,以及无证书分布式身份认证赋能工业互联网

简介 UIAM白皮书结合各行业与国内外IAM发展状况,对IAM发展历程、核心能力以及现代增强型IAM技术的演进路线进行探讨。探索身份和信息安全管理与区块链、大模型AI、无证书分布式身份认证等技术趋势,以及UIAM技术在工业互联网的应用。期望能够帮助企业组织…

Vue3使用element-plus实现弹窗效果-demo

使用 <ShareDialog v-model"isShow" onChangeDialog"onChangeDialog" /> import ShareDialog from ./ShareDialog.vue; const isShow ref(false); const onShowDialog (show) > {isShow.value show; }; const onChangeDialog (val) > {co…

mysql的两种安装方式(yum在线安装和通用二进制)

文章目录 msqly的安装一、yum在线安装二、通用二进制安装mysql msqly的安装 一、yum在线安装 yum是一种在线安装方式&#xff0c;通过官网网址在linux下载安装 首先是配置一个yum安装源 yum install http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm也…

使用Jetpack Compose中的LazyRow

在Jetpack Compose中&#xff0c;我们可以使用LazyRow来创建一个水平滚动的列表&#xff0c;类似于传统Android开发中的HorizontalScrollView。在这篇博客中&#xff0c;我们将探讨如何在Jetpack Compose中使用LazyRow。 创建LazyRow 要创建一个LazyRow&#xff0c;我们需要创…

旧手机不要轻易扔掉,将其设置为无线网卡,不消耗流量

如果你有一部旧手机正在闲置着&#xff0c;或者正考虑要将其丢弃&#xff0c;那么请暂停一下。因为这个旧手机可以成为你的无线网卡&#xff0c;帮助你在家中或出行时实现更快的网络下载速度&#xff0c;而且毫不费流量。接下来&#xff0c;我将告诉你如何将旧手机变成无线网卡…

idea中如何过滤某些文件不提交

文章目录 前言设置.gitignore文件解决方案 设置新的忽略文件具体步骤如下 常用过滤文件 前言 在开发过程中&#xff0c;经常会遇到一些文件是我们不想提交的内容。那么应该如何过滤掉&#xff1f;不去提交到我们的git仓库&#xff1f; 比如&#xff0c;我们常用的一些配置文件…

01_面向对象的设计原则

面向对象的设计原则 参考资料&#xff1a; 视频书籍 《设计模式&#xff1a;可复用面向对象软件的基础》 简介 面对复杂问题如何解决&#xff1f; 分解&#xff1a;分而治之&#xff0c;大问题分解成小问题。抽象&#xff1a;忽视非本质的细节&#xff0c;处理泛化和理想化…

卷积神经网络--猫狗系列之下载、导入数据集

(由于是学习&#xff0c;所以文章会有一些报错及解决办法) 在Kaggle()获取数据集&#xff1a;&#xff08;没有账号先去注册一个账号&#xff0c;在注册时可能会出现的问题见Kaggle注册出现一排“Captcha must be filled out.”&#xff01;&#xff09; https://www.kaggle.…

人工智能在航天领域中有哪些应用?

随着科技的不断进步&#xff0c;人工智能已经成为各个领域中的重要驱动力。在航天领域中&#xff0c;人工智能的应用正日益展现出巨大的潜力。航天领域对精确性、自动化和高效性的需求&#xff0c;使得人工智能成为实现这些目标的关键技术之一。人工智能正在以其独特的优势和算…

Linux中Docker详细安装说明

1.准备环境 说明&#xff1a;准备Linux系统centos7版本(以上) 2.切换管理模式 说明&#xff1a;输入一下命令&#xff0c;然后回车&#xff0c;输入密码。 su – 3.更新yum 说明&#xff1a;为了保证doker能够给顺利安装&#xff0c;那么更新一下&#xff1b;如果没有也可以…

【SpringMVC】| 报文信息转换器HttpMessageConverter

目录 框架搭建 报文信息转换器HttpMessageConverter 1. RequestBody注解 2. RequestEntity类型 3. RequestBody注解&#xff08;常用&#xff09; 重点&#xff1a;SpringMVC处理json 重点&#xff1a;SpringMVC处理ajax 重点&#xff1a;RestController注解 4. Respo…

day1-若依项目前后端分离的初步使用

响应式布局: 做好的产品能在pc端,手机,平板都能正常浏览 开发项目两种方式 1.自己从0开始写代码 2.在若依中下载拥有基础功能的源码 若依使用的mysql版本 mysql5.7 导入别人的项目如何操作 若依项目下载地址**:https://gitee.com/y_project/RuoYi-Vue.git** 可以使用揉…

AIPRM for ChatGPT 提示词模板扩展工具实践

&#xff08;1&#xff09;基本介绍 AIPRM for ChatGPT是一个Chrome浏览器扩展程序&#xff0c;基于Chromium内核开发的浏览器都可以使用该扩展&#xff0c;比如微软的Edge浏览器等。 在AIPRM的帮助下&#xff0c;我们可以在ChatGPT中一键使用各种专门为网站SEO、SaaS、营销、…

Transformer(四)--实现验证:transformer 机器翻译实践

转载请注明出处&#xff1a;https://blog.csdn.net/nocml/article/details/125711025 本系列传送门&#xff1a; Transformer(一)–论文翻译&#xff1a;Attention Is All You Need 中文版 Transformer(二)–论文理解&#xff1a;transformer 结构详解 Transformer(三)–论文实…

idea搭建springmvc

Spring MVC是一种基于MVC模式的框架&#xff0c;它是Spring框架的一部分。它提供了一种更简单和更有效的方式来构建Web应用程序。它提供了一系列的功能&#xff0c;可以帮助您更快地构建Web应用程序&#xff0c;如控制器&#xff0c;视图&#xff0c;模型&#xff0c;数据绑定&…

如何用Airtest脚本无线连接Android设备?

1. 前言 之前我们已经详细介绍过如何用AirtestIDE无线连接Android设备&#xff1a; 手把手教你用AirtestIDE无线连接手机&#xff01; &#xff0c;它的关键点在于&#xff0c;需要先 adb connect 一次&#xff0c;才能点击 connect 按钮无线连接上该设备&#xff1a; 但是有很…

20230705点亮STC32G实验箱9.6(STC32G12K128)开发板的跑马灯LED(深入了解)

08第六集&#xff1a;LED闪烁第六集&#xff1a;LED闪烁和花式点灯上和花式点灯上.mp4 09第六集&#xff1a;LED闪烁和花式点灯下.mp4 【大文哥学习32位8051】20230704【冲哥视频】第六集的晶振时钟的学习困惑 2023/7/5 17:36 delay_ms(3000); 刷机的时候如果使用11.0592M的Fos…

【LeetCode周赛】2022上半年题目精选集——思维题

文章目录 2211. 统计道路上的碰撞次数&#xff08;栈 || 脑筋急转弯&#xff09;解法1&#xff1a;自己想的——使用栈解法2——思维&#xff1a;去掉左右两边往左右开的车代码写法1——找左右端点代码写法2——正则表达式去除流处理api补充&#xff1a;replaceAll() 和 正则表…

python图像处理实战(三)—图像几何变换

&#x1f680;写在前面&#x1f680; &#x1f58a;个人主页&#xff1a;https://blog.csdn.net/m0_52051577?typeblog &#x1f381;欢迎各位大佬支持点赞收藏&#xff0c;三连必回&#xff01;&#xff01; &#x1f508;本人新开系列专栏—python图像处理 ❀愿每一个骤雨初…