从零开始搭建Prometheus+grafana服务器组件监控系统

服务器及相关组件监控

本文档主要记录了常用企业级服务器及各种组件的监控手段和监控部署方案,使企业可以实时感知服务器组件的健康状态,并在服务器或组件出现异常时及时做出反应。

本方案采用的Prometheus+grafana的方式实现对服务器及各种组件的监控,以下内容将会带你从零开始,一步步搭建整个监控方案。监控对象包括:服务器监控(cpu、内存、磁盘等指标)、mysql监控、redis监控、kafka监控、clickhouse监控、docker容器等常用组件的监控。

为便于维护,本方案几乎所有用到的组件均采用docker进行部署,需要服务器上安装部署好了docker环境,包括dockerdocker-compose

基础环境安装部署

基础环境总共包含Prometheusalertmanagergrafana三个组件,其中,Prometheus组件主要用于采集各监控对象的各项指标,并将其入库(Prometheus本身就是一个数据库),alertmanager作为Prometheus组件的一个补充模块,负责接收来自Prometheus组件的阈值告警信息,并将其状态推送到指定的告警组件,包括但不限于邮件webhook告警等,而grafana作为一个展示界面,可以非常灵活的展示各个指标的相关参数数据,包括但不限于各种趋势图、饼图等。

在这里插入图片描述

下面我将给大家展示这3个组件搭建部署方法,以及使用方法。

Prometheus安装部署

Prometheus官方有对应的docker镜像,通过docker镜像进行部署,不仅部署起来方便,还会使系统整体上更加整洁,便于后期的维护。直接拉去对应的镜像,并将其封装打包用docker-compose进行维护即可。具体操作如下:

  1. 官网获取最新Prometheus相关版本,访问Prometheus官网,点击跳转到docker界面获取下载链接
    在这里插入图片描述


    外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

    进入界面,得到当前最新版本镜像,如下图:

    在这里插入图片描述


    在这里插入图片描述

  2. 服务器直接拉去该镜像即可

docker pull prom/prometheus:v2.47.2

在这里插入图片描述
在这里插入图片描述


  1. 创建Prometheus应用目录和相关配置文件

在安装目录下创建prometheus目录,并且在目录中创建启动文件docker-compose.yml和配置文件prometheus.yml,另外创建prometheus_data目录用于外挂到启动容器,以便Prometheus数据本地落盘.

    mkdir prometheus
    cd prometheus
    touch docker-compose.yml prometheus.yml
    mkdir -m 777 prometheus_data

在这里插入图片描述


docker-compose.yml文件内容如下:

version: '2.4'
services:
  prometheus:
    image: prom/prometheus:v2.47.2
    container_name: prometheus
    hostname: prometheus
    restart: always
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml
      - ./prometheus_data:/prometheus
    ports:
      - "9090:9090"
    cpus: 4

prometheus.yml文件内容如下:

global:
  scrape_interval:     1m
  evaluation_interval: 1m
alerting:
  alertmanagers:
  - static_configs:
    - targets:
      #- 255.255.255.255:9093

rule_files:
  - "rules/*.yml"

scrape_configs:
#监控Prometheus自身
  - job_name: 'prometheus'
    static_configs:
    - targets: ['localhost:9090']
  1. 启动应用并验证
docker-compose up -d

浏览器访问服务器9090端口若页面可以正常加载,表明安装成功
在这里插入图片描述


  1. 停止应用并封装
docker-compose down
docker save prom/prometheus:v2.47.2 | gzip > prometheus.image.tgz

在这里插入图片描述
封装完成后,直接将整个Prometheus目录拷贝到生产环境启动即可。

启动命令如下:
shell docker load -i prometheus.image.tgz docker-compose up -d

alertmanager安装部署

同样的方法,从docker界面点击可以看到alertmanager最新的版本镜像
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
直接拉取最新镜像即可实现

docker pull prom/alertmanager:v0.26.0

在这里插入图片描述

创建alertmanager.yml文件,内容设置告警模式为webhook并指定告警url,内容如下:

global:
  resolve_timeout: 5m

route:
  group_by: ['alertname']
  group_wait: 10s
  group_interval: 10s
  repeat_interval: 1h
  receiver: 'webhook'
receivers:
  - name: 'webhook'
    webhook_configs:
      - url: 'http://<告警url>'

inhibit_rules:
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'dev', 'instance']

修改docker-compose.yml文件,添加alertmanager应用启动信息,具体如下:

version: '2.4'
services:
  prometheus:
    image: prom/prometheus:v2.47.2
    container_name: prometheus
    hostname: prometheus
    restart: always
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml
      - ./prometheus_data:/prometheus
    ports:
      - "9090:9090"
    cpus: 4

  alertmanager:
    image: prom/alertmanager:v0.26.0
    container_name: prom_alertmanager
    hostname: alertmanager
    restart: always
    depends_on:
      - prometheus
    ports:
      - "9093:9093"
    volumes:
      - ./alertmanager.yml:/etc/alertmanager/alertmanager.yml
      - ./alertmanager:/alertmanager

启动应用

docker-compose down && docker-compose up -d

在这里插入图片描述

浏览器访问alertmanager应用首页
在这里插入图片描述

grafana安装部署

grafana组件作为可视化工具,提供了丰富的可视化界面,同时还有丰富的开源社区,可以下载到很多优质的可视化panel,极大的方便了系统运维人员。

为方便后期运维,grafana的安装方法同样采用docker进行安装,具体步骤如下:

  1. 获取最新镜像并拉取,访问docker官方仓库,搜索grafana,复制最新镜像并从服务器上拉取
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

拉取镜像 ```shell docker pull grafana/grafana:10.2.0 ``` ![在这里插入图片描述](https://img-blog.csdnimg.cn/d26dbb3016f548948aa3f0bbb1fdcfeb.png#pic_center)
  1. 创建应用目录并配置应用启动文件
mkdir grafana
cd grafana
mkdir data
touch docker-compose.yml

在这里插入图片描述

docker-compose.yml文件内容如下:

version: '3'
services:
  app:
    image: "grafana/grafana:10.2.0"
    user: "root"
    network_mode: "host"
    restart: always
    volumes:
      - ./data:/var/lib/grafana
  1. 启动应用并访问首页
docker-compose up -d

在这里插入图片描述


在这里插入图片描述

grafana默认账号密码: admin/admin,登录后可以选择跳过不修改密码。

  1. 将Prometheus数据源导入grafana

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  1. 导入相关监控模板

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

至此,服务器组件监控的基础环境搭建完成。

服务器监控

服务器监控需要安装部署node-exporter组件,可以直接本地部署,也可以通过容器进行部署,推荐使用容器进行部署。

  1. 从官网上下载node-exporter应用的镜像包,直接通过docker-compose进行启动。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  2. 创建应用并配置docker-compose.yml启动文件
    在这里插入图片描述

  3. 拉取镜像并启动应用

拉取镜像

docker-compose pull

拉取镜像前,需要quay.io添加到docker服务器的配置文件的insecure-registries参数中,否则会拉取失败
在这里插入图片描述
在这里插入图片描述

启动应用

docker-compose up -d

在这里插入图片描述

  1. 配置Prometheus采集策略,修改prometheus.yml文件,将对应node的api端口添加到配置文件中并重启应用

通过docker inspect <容器id>可以查看容器监听端口
在这里插入图片描述
在这里插入图片描述

prometheus.yml配置文件中添加配置:

#监控虚拟机主机状态
  - job_name: 'node'
    static_configs:
    - targets: ['<服务器ip>:9100']

在这里插入图片描述

  1. 重启Prometheus
docker-compose down && docker-compose up -d

在这里插入图片描述

  1. Prometheus查看采集数据

在这里插入图片描述


至此,表明数据已经在正常采集

  1. 将对应告警策略rules添加到Prometheus,使得当服务器出现故障时,Prometheus自动触发相关告警

添加prometheus_rules目录用于存放所有rules文件

mkdir prometheus_rules

添加prometheus_rules/nodes.yml文件,文件内容如下:

groups:
  - name: 服务器自监控
    rules:
      - alert: 服务器状态
        expr: up{job='node'} == 0
        for: 60s
        labels:
          severity: error
        annotations:
          summary: '【服务器故障】导致无法正常访问时,服务器可能已经出现宕机,需要立即处理!!!'
          description: '当前节点:{{ $labels.instance }} ' 

      - alert: 服务器CPU使用率
        expr: round((1 - avg(rate(node_cpu_seconds_total{mode='idle'}[2m])) by (instance))*100, 0.01) > 85
        for: 300s
        labels:
          severity: error
        annotations:
          summary: '【服务器】CPU使用率大于85%,需要立即关注!!!' 
          description: '当前节点:{{ $labels.instance }},当前值{{ $value }}% '


      - alert: 服务器内存使用率
        expr: round(((node_memory_MemTotal_bytes{job="node"} - node_memory_MemAvailable_bytes{job="node"} )/node_memory_MemTotal_bytes{job="node"})*100, 0.01) > 85
        for: 300s
        labels:
          severity: error
        annotations:
          summary: '【服务器】内存使用率大于85%,需要立即关注!!!' 
          description: '当前节点:{{ $labels.instance }},当前值{{ $value }}% '

      - alert: 服务器磁盘使用率
        expr: round(((node_filesystem_size_bytes{mountpoint="/opt"} - node_filesystem_free_bytes{mountpoint="/opt"}) / node_filesystem_size_bytes{mountpoint="/opt"}) * 100, 0.01) > 85
        for: 60s 
        labels:
          severity: error
        annotations:
          summary: '【服务器】数据盘使用率大于85%,需要立即关注!!!' 
          description: '当前节点:{{ $labels.instance }},数据盘挂载: {{ $labels.mountpoint }};当前值{{ $value }}% '

      - alert: 服务器进程数
        expr: node_procs_running > 800
        for: 60s 
        labels:
          severity: error
        annotations:
          summary: '【服务器】当前进程数大于800,需要立即关注!!!' 
          description: '当前节点:{{ $labels.instance }};当前值{{ $value }} '

      - alert: 服务器文件句柄数
        expr: round(node_filefd_allocated / node_filefd_maximum * 100, 0.01) > 10
        for: 60s 
        labels:
          severity: error
        annotations:
          summary: '【服务器】句柄数使用率超过10%,请及时关注!!!' 
          description: '当前节点:{{ $labels.instance }};当前值{{ $value }}% '

修改docker-compose.yml启动文件,将prometheus_rules挂载到容器中
在这里插入图片描述

  1. 重启Prometheus
docker-compose down && docker-compose up -d

在这里插入图片描述

  1. Prometheus页面查看rules规则
    在这里插入图片描述


    可以看到部分异常指标已经被监控并且告警出来,通过webhook应用(一般定制实现,本应用有flask实现,非官方组件,由个人开发,仅供测试使用)后台的log发现告警信息已经推送至对应的webhook应用。
    在这里插入图片描述


    在这里插入图片描述

  2. 登录grafana官网,下载node对应监控dashboard文件并配置相关数据源

搜索dashboard
在这里插入图片描述

下载导入dashboard
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

至此,服务器组件监控到此结束,更多玩法可以自行到官方查阅文档

其他组件监控

其他组件的监控可以与服务器监控类型可以到prometheus官网下载并配置对应exporter组件,将其配置到Prometheus的采集列表中(修改prometheus.yml文件),配置Prometheus告警阈值rules(添加prometheus_rules文件)后方可实现对相关组件的监控。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/109863.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CentOS 搭建本地 yum 源方式 安装 httpd 服务

CentOS 搭建本地 yum 源方式 安装 httpd 服务 修改 yum 源 挂载光驱 mkdir -p /mnt/cdrom mount /dev/cdrom /mnt/cdromvi /etc/fstab追加以下内容&#xff1a; /dev/cdrom /mnt/cdrom iso9660 defaults 0 0手动修改CentOS-Base.repo 备份 yum 源配置文件 mv /etc/yum.re…

06 MIT线性代数-线性无关,基和维数Independence, basis, and dimension

1. 线性无关 Independence Suppose A is m by n with m<n (more unknowns than equations) Then there are nonzero solutions to Ax0 Reason: there will be free variables! A中具有至少一个自由变量&#xff0c;那么Ax0一定具有非零解。A的列向量可以线性组合得到零向…

ubuntu PX4 vscode stlink debug设置

硬件 stlink holybro debug板 pixhawk4 安装openocd 官方文档&#xff0c;但是第一步安装建议从源码安装&#xff0c;bug少很多 github链接 编译安装&#xff0c;参考 ./bootstrap (when building from the git repository)./configure [options]makesudo make install安装后…

CentOS 7 安装和配置java环境

1 安装包准备 安装包可以通过下面地址进行版本选择安装&#xff1a; https://www.oracle.com/java/technologies/downloads/#java8 2 正式开始安装 本次分享的安装方法直接通过编辑/etc/profile文件实现java的安装 2.1 新建安装包存放目录 mkdir /java cd /java/ 2.2 解压安…

【音视频|PCM】PCM格式详解

&#x1f601;博客主页&#x1f601;&#xff1a;&#x1f680;https://blog.csdn.net/wkd_007&#x1f680; &#x1f911;博客内容&#x1f911;&#xff1a;&#x1f36d;嵌入式开发、Linux、C语言、C、数据结构、音视频&#x1f36d; &#x1f923;本文内容&#x1f923;&a…

javascript数据类型

目录 原始数据类型 引用数据类型 类型检测 类型转换 总结 原始数据类型 JavaScript 中有六种原始数据类型&#xff0c;它们是&#xff1a; Undefined&#xff08;未定义&#xff09;: 表示一个未被赋值的变量。Null&#xff08;空值&#xff09;: 表示一个空对象指针。B…

SpringBoot 公司推广系统 公司广告系统

SpringBoot 公司推广系统 公司广告系统 系统功能 首页功能: 广告展示 方案列表 站内搜索 资讯 查看详细咨询 登录注册 收藏 咨询方案 在线客服实时聊天 后台管理功能: 系统管理分为: 用户管理 角色管理 客户管理 首页轮播管理 公告管理 方案管理: 方案管理 资讯管理: 类型管…

打包个人项目成python算法包

*免责声明&#xff1a; 1\此方法仅提供参考 2\搬了其他博主的操作方法,以贴上路径. 3* 场景一: 使用conda pack进行打包个人项目 场景二: … 场景一: 使用conda pack进行打包个人项目 1.1 导出包列表 activate jiancepip list --formatfreeze >requirements.txt 1.…

Transformers实战(二)快速入门文本相似度、检索式对话机器人

Transformers实战&#xff08;二&#xff09;快速入门文本相似度、检索式对话机器人 1、文本相似度 1.1 文本相似度简介 文本匹配是一个较为宽泛的概念&#xff0c;基本上只要涉及到两段文本之间关系的&#xff0c;都可以被看作是一种文本匹配的任务&#xff0c; 只是在具体…

【JavaEE】HTTP协议

HTTP协议 HTTP是什么?HTTP 协议格式HTTP 请求格式HTTP响应格式协议格式总结 HTTP 请求 (Request)认识 URLURL 基本格式 关于 URL encode认识 "方法" (method)1. GET 方法2. POST 方法 认识请求 "报头" (header) HTTP 响应详解认识 "状态码" (st…

Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (二)

这是继上一篇文章 “Elasticsearch&#xff1a;使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation &#xff08;一&#xff09;” 的续篇。在这篇文章中&#xff0c;我主要来讲述 ElasticVectorSearch 的使用。 我们的设置和之前的那篇文章是一样的&#xff…

idea中Run/Debug Python项目报错 Argument for @NotNull parameter ‘module‘ of ...

idea中Run/Debug Python项目报错 Argument for NotNull parameter module of ... idea中运行Python项目main.py时报错&#xff1a; Error running main: Argument for NotNull parameter module of com/intellij/openapi/roots/ModuleRootManager.getInstance must not be nu…

Flash Attention 的优点以及Softmax 归一化系数解释

文章&#xff1a;FLASHATTENTION: Fast and Memory-Efficient Exact Attention with IO-Awareness 原始Attention 计算使用gpu存储标准流程 涉及两个gpu存储器&#xff1a; 1&#xff09;SRAM&#xff08;static Random Access Memory&#xff09;:静态随机存取存储器 2&…

管理类联考——数学——汇总篇——知识点突破——代数——整式分式——记忆

文章目录 考点记忆/考点汇总——按大纲 整体目录大纲法记忆宫殿法绘图记忆法 局部数字编码法归类记忆法重点记忆法歌决记忆法谐音记忆法理解记忆法比较记忆法转图像记忆法可视化法 本篇思路&#xff1a;根据各方的资料&#xff0c;比如名师的资料&#xff0c;按大纲或者其他方式…

什么是全排列?(算法实现)

全排列是什么&#xff1f; 全排列是指将一组元素按照一定顺序进行排列的所有可能结果。以一组数字为例&#xff0c;比如[1, 2, 3]的全排列结果为&#xff1a;[1, 2, 3], [1, 3, 2], [2, 1, 3], [2, 3, 1], [3, 1, 2], [3, 2, 1]。 全排列有许多不同的计算方法&#xff0c;其中…

【电路笔记】-交流电感和感抗

交流电感和感抗 文章目录 交流电感和感抗1、概述1.1 电感1.2 电感器 2、频率特性2.1 电抗(Reactance)2.2 相移2.3 感应现象 3、RL滤波器4、总结 在之前有 交流电阻的文章中&#xff0c;我们已经看到电阻器在正常频率下的直流或交流状态下的行为是相同的。 然而&#xff0c;其他…

CN考研真题知识点二轮归纳(1)

本轮开始更新真题中涉及过的知识点&#xff0c;总共不到20年的真题&#xff0c;大致会出5-10期&#xff0c;尽可能详细的讲解并罗列不重复的知识点~ 目录 1.三类IP地址网络号的取值范围 2.Socket的内容 3.邮件系统中向服务器获取邮件所用到的协议 4.RIP 5.DNS 6.CSMA/CD…

Linux云服务器限制ip进行ssh远程连接

对Linux云服务器限制IP进行SSH远程连接的原因主要有以下几点&#xff1a; 增加安全性&#xff1a;SSH是一种加密的网络传输协议&#xff0c;可以保护数据的机密性和完整性。通过限制SSH连接的IP地址&#xff0c;可以防止未经授权的访问和数据泄露。只有拥有访问权限的IP地址才…

Vue 路由指南:畅游单页应用的地图(Vue Router 和 <router-view>)

&#x1f90d; 前端开发工程师&#xff08;主业&#xff09;、技术博主&#xff08;副业&#xff09;、已过CET6 &#x1f368; 阿珊和她的猫_CSDN个人主页 &#x1f560; 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 &#x1f35a; 蓝桥云课签约作者、已在蓝桥云…

【智能座舱系列】- 深度解密小米Hyper OS,华为HarmonyOS区别

上一篇文章《小米的澎湃OS到底牛不牛?与鸿蒙系统之间差距有多大》,从多个方面比较了小米Hyper OS 与 华为HarmonyOS的区别,本篇文章继续从架构层面深度解读两者本质的区别。 小米澎湃OS是“以人为中心,打造人车家全生态操作系统”,该系统基于深度进化的Android以及自研的V…
最新文章