K8S 调试运行中报错的 Pod

开始调试有问题的 Pod

准备环境

创建一个例子用于测试:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment
  namespace: apps
spec:
  selector:
    matchLabels:
      app: nginx
  replicas: 2
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx
        resources:
          limits:
            memory: "128Mi"
            cpu: "500m"
        ports:
        - containerPort: 80

创建好以后查看状态

kubectl get po -n apps
NAME                                READY   STATUS    RESTARTS     AGE
nginx-deployment-765cb4ff6b-72kmj   1/1     Running   0            5m40s
nginx-deployment-765cb4ff6b-986t6   1/1     Running   0            5m40s

查看 Pod 详细状态

kubectl describe po -n apps nginx-deployment-765cb4ff6b-72kmj

这里就不再展示了,太长了。

调试 Pending 状态的 Pod

为了测试咱们手动修改Pod 请求资源,修改cpu 请求为8核心 5个副本,根据我这个集群上现有的资源最少有一个Pod是无法调度的。

[root@master01 yaml]# kubectl get po -n apps -owide
NAME                                READY   STATUS    RESTARTS     AGE     IP               NODE       NOMINATED NODE   READINESS GATES
nginx-deployment-765cb4ff6b-47jbj   1/1     Running   0            4m54s   172.18.71.17     master03   <none>           <none>
nginx-deployment-765cb4ff6b-5lzcc   1/1     Running   0            4m54s   172.29.55.36     node01     <none>           <none>
nginx-deployment-765cb4ff6b-72kmj   1/1     Running   0            31m     172.21.231.131   node02     <none>           <none>
nginx-deployment-765cb4ff6b-986t6   1/1     Running   0            31m     172.31.112.159   master01   <none>           <none>
nginx-deployment-779898f6f5-fmmph   0/1     Pending   0            4m54s   <none>           <none>     <none>           <none>
nginx-deployment-779898f6f5-p7hfw   0/1     Pending   0            4m53s   <none>           <none>     <none>           <none>

查看 nginx-deployment-779898f6f5-fmmph 没有调度的原因

kubectl describe po -n apps nginx-deployment-779898f6f5-fmmph

输出如下:

## 只是粘贴了  部分代码
Events:
  Type     Reason            Age                   From               Message
  ----     ------            ----                  ----               -------
  Warning  FailedScheduling  7m15s                 default-scheduler  0/5 nodes are available: 5 Insufficient cpu. preemption: 0/5 nodes are available: 5 No preemption victims found for incoming pod..
  Warning  FailedScheduling  104s (x2 over 7m14s)  default-scheduler  0/5 nodes are available: 5 Insufficient cpu. preemption: 0/5 nodes are available: 5 No preemption victims found for incoming pod..

提示集群中没有可用的节点,因为所有5个节点都缺乏足够的 CPU 资源来运行这个 Pod。

查看集群中发生的事件

 kubectl get events -n apps

除了 kubectl describe pod 以外,另一种获取 Pod 额外信息(除了 kubectl get pod)的方法 是给 kubectl get pod 增加 -o yaml 输出格式参数。 该命令将以 YAML 格式为你提供比 kubectl describe pod 更多的信息 —— 实际上是系统拥有的关于 Pod 的所有信息。 在这里,你将看到注解(没有标签限制的键值元数据,由 Kubernetes 系统组件在内部使用)、 重启策略、端口和卷等。

kubectl get po -n apps nginx-deployment-765cb4ff6b-47jbj -oyaml
apiVersion: v1
kind: Pod
metadata:
  annotations:
    k8tz.io/injected: "true"
    k8tz.io/timezone: Asia/Shanghai
  creationTimestamp: "2024-04-25T07:43:58Z"
  generateName: nginx-deployment-765cb4ff6b-
  labels:
    app: nginx
    pod-template-hash: 765cb4ff6b
  name: nginx-deployment-765cb4ff6b-47jbj
  namespace: apps
  ownerReferences:
  - apiVersion: apps/v1
    blockOwnerDeletion: true
    controller: true
    kind: ReplicaSet
    name: nginx-deployment-765cb4ff6b
    uid: 8b5e6ae0-c6a1-4e99-8816-f8411b4f878a
  resourceVersion: "12533713"
  uid: 58703bd6-59de-4899-aeb1-3cd2605426f7
spec:
  containers:
  - env:
    - name: TZ
      value: Asia/Shanghai
    image: nginx
    imagePullPolicy: Always
    name: nginx
    ports:
    - containerPort: 80
      protocol: TCP
    resources:
      limits:
        cpu: 500m
        memory: 128Mi
      requests:
        cpu: 500m
        memory: 128Mi
    terminationMessagePath: /dev/termination-log
    terminationMessagePolicy: File
    volumeMounts:
    - mountPath: /var/run/secrets/kubernetes.io/serviceaccount
      name: kube-api-access-8p4c2
      readOnly: true
    - mountPath: /etc/localtime
      name: k8tz
      readOnly: true
      subPath: Asia/Shanghai
    - mountPath: /usr/share/zoneinfo
      name: k8tz
      readOnly: true
  dnsPolicy: ClusterFirst
  enableServiceLinks: true
  initContainers:
  - args:
    - bootstrap
    image: quay.io/k8tz/k8tz:0.16.0
    imagePullPolicy: IfNotPresent
    name: k8tz
    resources: {}
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop:
        - ALL
      seccompProfile:
        type: RuntimeDefault
    terminationMessagePath: /dev/termination-log
    terminationMessagePolicy: File
    volumeMounts:
    - mountPath: /mnt/zoneinfo
      name: k8tz
    - mountPath: /var/run/secrets/kubernetes.io/serviceaccount
      name: kube-api-access-8p4c2
      readOnly: true
  nodeName: master03
  preemptionPolicy: PreemptLowerPriority
  priority: 0
  restartPolicy: Always
  schedulerName: default-scheduler
  securityContext: {}
  serviceAccount: default
  serviceAccountName: default
  terminationGracePeriodSeconds: 30
  tolerations:
  - effect: NoExecute
    key: node.kubernetes.io/not-ready
    operator: Exists
    tolerationSeconds: 300
  - effect: NoExecute
    key: node.kubernetes.io/unreachable
    operator: Exists
    tolerationSeconds: 300
  volumes:
  - name: kube-api-access-8p4c2
    projected:
      defaultMode: 420
      sources:
      - serviceAccountToken:
          expirationSeconds: 3607
          path: token
      - configMap:
          items:
          - key: ca.crt
            path: ca.crt
          name: kube-root-ca.crt
      - downwardAPI:
          items:
          - fieldRef:
              apiVersion: v1
              fieldPath: metadata.namespace
            path: namespace
  - emptyDir: {}
    name: k8tz

检查 Pod 的日志

查看有问题的日志

kubectl logs -n apps nginx-deployment-779898f6f5-p7hfw

如果容器之前崩溃过,可以通过下面命令访问之前容器的崩溃日志:

kubectl logs --previous ${POD_NAME} ${CONTAINER_NAME}

使用容器 exec 进行调试

##  说明: -c ${CONTAINER_NAME} 是可选择的。如果 Pod 中仅包含一个容器,就可以忽略它。
kubectl exec ${POD_NAME} -c ${CONTAINER_NAME} -- ${CMD} ${ARG1} ${ARG2} ... ${ARGN}

## 进入容器
kubectl -n apps exec -it busybox-6c8989b4f7-pmwkd sh

在外面执行容器中的命令

kubectl exec cassandra -- cat /var/log/cassandra/system.log

使用临时容器调试

当由于容器崩溃或容器镜像不包含调试程序(例如无发行版镜像等) 而导致 kubectl exec 无法运行时,临时容器对于排除交互式故障很有用。

添加临时容器

使用上面创建的nginx Pod,这个默认是没有 ps,ping等命令的,咱们用 debug 命令给他添加一个临时容器。

## “nginx-deployment-78d88c66dd-svtpz”   这个是Pod 名字
## “--image=busybox:1.28”         给Pod 添加的临时容器,正常情况下推出以后临时容器会自动关闭。
## “--target nginx”               Pod 里运行的主容器名字或者是业务容器名字。
kubectl debug -it nginx-deployment-78d88c66dd-svtpz --image=busybox:1.28 --target nginx -n apps

进入以后是下面这样的,然后可以在容器里调,比如ps,ping 等命令就都可以使用。

Defaulting debug container name to debugger-8xzrl.
If you don't see a command prompt, try pressing enter.
/ #

也可以使用 kubectl describe po -n apps nginx-deployment-78d88c66dd-tn2cr 查看

Ephemeral Containers:
  debugger-wmmrd:
    Container ID:   containerd://70ef78f9e9f9422e8480bc86d5a7d030302dca82a07217d032de6237c948911b
    Image:          busybox:1.28
    Image ID:       docker.io/library/busybox@sha256:141c253bc4c3fd0a201d32dc1f493bcf3fff003b6df416dea4f41046e0f37d47
    Port:           <none>
    Host Port:      <none>
    State:          Terminated
      Reason:       Completed
      Exit Code:    0
      Started:      Fri, 26 Apr 2024 09:53:12 +0800
      Finished:     Fri, 26 Apr 2024 09:53:12 +0800
    Ready:          False
    Restart Count:  0
    Environment:    <none>
    Mounts:         <none>

复杂调试

还是基于nginx Pod 演示。

## “nginx-deployment-78d88c66dd-m7h7s”   需要调试等Pod名字
## “--image=busybox:1.28”    为 nginx Pod 提供调试的容器
## “--share-processes”       允许调试容器与原始 Pod 共享进程命名空间
## “--copy-to=myapp-debug”   这个标志指示 Kubernetes 在执行调试时创建一个新的 Pod,其名称为 myapp-debug,并将原始 Pod 的卷和配置复制到新的调试 Pod 中。
kubectl debug nginx-deployment-78d88c66dd-m7h7s -it --image=busybox:1.28 --share-processes --copy-to=myapp-debug -n apps

创建完成以后查看会多出来一个Pod 名字为myapp-debug

[root@master01 yaml]# kubectl get po -n apps 
NAME                                READY   STATUS    RESTARTS      AGE
busybox-6c8989b4f7-pmwkd            1/1     Running   2 (27h ago)   3d18h
myapp-debug                         2/2     Running   1 (3s ago)    76s
nginx-deployment-78d88c66dd-m7h7s   1/1     Running   0             2m31s

拷贝有问题的Pod 并修改启动命令

为了模拟应用崩溃的场景,使用 kubectl run 命令创建一个立即退出的容器:

kubectl run --image=busybox:1.28 myapp -- false

使用 kubectl describe pod myapp 命令,你可以看到容器崩溃了:

Containers:
  myapp:
    Image:         busybox
    ...
    Args:
      false
    State:          Waiting
      Reason:       CrashLoopBackOff
    Last State:     Terminated
      Reason:       Error
      Exit Code:    1

使用 kubectl debug 命令创建新的 Pod 的一个副本并改变默认启动命令为交互式 shell:

## “myapp”  需要拷贝的有问题Pod 名字
## “--copy-to=myapp-debug”    将拷贝的Pod 重新命名为 myapp-debug
## “--container=myapp”        指定需要拷贝Pod 主容器的名字(这里的Pod名和容器名字是一样的,所有都是myapp,如果不一样的话需要修改成自己的)
kubectl debug myapp -it --copy-to=myapp-debug --container=myapp -- sh
If you don't see a command prompt, try pressing enter.
/ #

拷贝有问题的Pod 并修改镜像。

在某些情况下,可能需要修改一个行为异常的 Pod,即从其正常的生产容器镜像更改为包含调试构建程序或其他实用程序的镜像。

例子:

kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d

使用 kubectl debug 创建一个拷贝并将其容器镜像更改为 ubuntu:

## 参数基本和上面的一样。 “--set-image=*=ubuntu” 表示将原来的镜像修改为ubuntu
kubectl debug myapp --copy-to=myapp-debug --set-image=*=ubuntu
  • “*=ubuntu”: 表示把所有容器的镜像改为 ubuntu。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/575532.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何最大程度使用AWS?

随着云计算技术的不断发展&#xff0c;AWS已经成为众多企业的首选&#xff0c;为其提供了强大的基础设施和服务。那么如何最大程度地、灵活地利用AWS&#xff0c;成为许多企业专注的焦点。九河云作为AWS的合作伙伴&#xff0c;为读者们提供一些技巧和策略&#xff0c;帮助读者充…

UL认证防逆流多功能监测装置AGF-AE-D

安科瑞薛瑶瑶18701709087/17343930412 在单逆变器系统中&#xff0c;仪表直接与逆变器相连。如果您的变频器有一个内置的收入等级表&#xff08;RGM&#xff1b;该变频器 被称为收入等级变频器&#xff09;&#xff0c;您可以在 RGM 的同一总线上连接一个外部仪表。

【React】Sigma.js框架网络图-入门篇(2)

通过《【React】Sigma.js框架网络图-入门篇》有了基本认识 由于上一篇直接给出了基本代码示例&#xff0c;可能看着比较复杂也不知道是啥意思&#xff1b; 今天从理论入手重新认识下&#xff01; 一、基本认识 首先&#xff0c;我们先了解下基础术语&#xff1a; 图(Graph)&…

波高仪:数字浪高仪解析

波高仪&#xff0c;也被称为数字浪高仪&#xff0c;是一种专门用于测量波浪高度的设备。它采用低功耗微处理器、24bit高精度AD转换器和长距离通信技术&#xff0c;配备电容式波高传感器&#xff0c;具有线性好、功耗低、量精度高、传输距离远、性能稳定、抗干扰能力强等特点。 …

vue中使用echarts实现X轴动态时间(天)的折线图表

项目要求x轴以一天为间隔&#xff0c;时间是动态返回的数据&#xff0c;折线图平滑展示 实现代码如下&#xff1a; <div class"echarts-main"><v-chart ref"echarts" :options"options" /> </div>// 局部引入vue-echarts im…

Python实现线性拟合及绘图

Python实现线性拟合及绘图 当时的数字地形实验&#xff0c;使用matplotlib库绘制了一张图表表示不同地形类别在不同分辨率下的RMSE值&#xff0c;并分别拟合了一条趋势线。现在来看不足就是地形较多时&#xff0c;需要使用循环更好一点&#xff0c;不然太冗余了。 代码逻辑 …

【讯为Linux驱动笔记1】申请一个字符设备

Linux下每个设备都需要有一个专属设备号&#xff1a;主设备号 次设备号 【申请字符设备】 主设备号&#xff1a;一类驱动&#xff1a;如&#xff1a;USB驱动 次设备号&#xff1a;这类驱动下的某个设备 如&#xff1a;键盘鼠标 设备号是32位的dev_t类型的&#xff0c;高12位主…

Python对Excel两列数据进行运算

&#x1f47d;发现宝藏 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 Python对Excel两列数据进行运算 在日常工作中&#xff0c;经常会遇到需要对Excel表格中的数…

Scala 04 —— Scala Puzzle 拓展

Scala 04 —— Scala Puzzle 拓展 文章目录 Scala 04 —— Scala Puzzle 拓展一、占位符二、模式匹配的变量和常量模式三、继承 成员声明的位置结果初始化顺序分析BMember 类BConstructor 类 四、缺省初始值与重载五、Scala的集合操作和集合类型保持一致性第一部分代码解释第二…

Python 数据可视化 boxplot

Python 数据可视化 boxplot import pandas as pd import matplotlib.pyplot as plt import numpy as np import seaborn as sns# 读取 TSV 文件 df pd.read_csv(result.tsv, sep\t)normal_df df[df["sample_name"].str.contains("normal")] tumor_df df…

【Git教程】(十五)二分法排错 — 概述及使用要求,执行过程及其实现(用二分法人工排错或自动排错),替代解决方案 ~

Git教程 二分法排错 1️⃣ 概述2️⃣ 使用要求3️⃣ 执行过程及其实现3.1 用二分法人工排错3.2 用二分法自动排错 4️⃣ 替代解决方案 在开发过程中&#xff0c;我们经常会突然遇到一个错误&#xff0c;是之前早期版本在成功通过测试时没有出现过的。这时候&#xff0c;时下较…

基于实现地图弹窗轮播功能及遇到的问题解决

基本使用 获取地图 geojson 数据 链接&#xff1a; 阿里云数据可视化平台 获取ECharts npm install echarts 或者是使用地址链接 <script src"https://registry.npmmirror.com/echarts/5.4.3/files/dist/echarts.min.js"></script> <script src…

关于螺栓的注意事项和正确操作方法——SunTorque智能扭矩系统

智能扭矩系统-智能拧紧系统-扭矩自动控制系统-SunTorque 螺栓&#xff0c;作为一种常见的紧固件&#xff0c;广泛应用于各种机械设备和结构中。在日常生活和工作中&#xff0c;我们经常需要接触到螺栓&#xff0c;因此了解螺栓的一些注意事项和正确操作方法对于确保设备的安全…

【C#】Stopwatch计时器

使用Stopwatch检查C#中代码块的执行时间&#xff0c;比如歌曲&#xff0c;图片的下载时间问题 首先&#xff0c;我们可看到Stopwatch 类内部的函数。 根据需求&#xff0c;我们具体可使用到 Start() 开始计时&#xff0c;Stop() 停止计时等 //创建 Stopwatch 实例 Stopwatch …

Intersection Observer API探索

我们经常遇到这样的需求——检测一个元素是否可见或者两个元素是否相交&#xff0c;如 ● 图片懒加载——当图片滚动到可见时才进行加载 ● 内容无限滚动——也就是用户滚动到接近内容底部时直接加载更多&#xff0c;而无需用户操作翻页&#xff0c;给用户一种网页可以无限滚动…

分布式密钥生成

可验证且无经销商 分布式密钥生成 (DKG) 是一种加密协议&#xff0c;使多方能够协作生成共享密钥&#xff0c;而无需任何一方完全了解密钥。 它通过在多个参与者之间分配信任来增强各种应用程序的安全性&#xff0c;从而降低密钥泄露的风险。 我们引入了一种可验证且无经销商的…

深度学习从入门到精通—Transformer

1.绪论介绍 1.1 传统的RNN网络 传统的RNN&#xff08;递归神经网络&#xff09;主要存在以下几个问题&#xff1a; 梯度消失和梯度爆炸&#xff1a;这是RNN最主要的问题。由于序列的长距离依赖&#xff0c;当错误通过层传播时&#xff0c;梯度可以变得非常小&#xff08;消失…

mybatisplus3.5.4基础生成代码完整步骤(超详细)

在网上看了很多自动生成的例子本地不是很好使&#xff0c;最后找到了一套好用的&#xff0c;适合版本&#xff1a; idea:2024.1 springboot2.6.12 java17 mybatisplus3.5.4 废话不多说&#xff0c;直接上步骤&#xff1a; 新建项目&#xff1a; 结构如下&#xff1a; 添加依…

Calibre Ebook Management 一款功能强大操作简单的电子书管理神器(V7.9.0)

Calibre Ebook Management Calibre 软件被广泛认可为一款功能全面并且用户友好的电子书管理工具。其卓越性能和必备性得到了用户的高度评价。该软件提供了一套综合性的功能&#xff0c;允许用户执行各种电子书相关的操作。此外&#xff0c;Calibre 软件遵循免费和开源的原则&a…