flink on yarn任务启停脚本(实现一键读取ck启动,保存ck停止)

img

1.问题描述

flink同步任务,长期任务过多,某个任务停止保存checkpoint或者savepoint后,修改代码,使用命令行读取检查点重新启动需要人工去hdfs上找寻检查点保存位置。任务过多管理起来很不方便。
鉴于此,使用脚本编写了一套启停代码,可以自动的停止flink任务并保存savepoint,读取检查点启动,也可以实现批量的启停
废话不多说,脚本如下

2.问题解决

vim flink_task_start_and_stop.sh
#!/bin/bash
# HDFS配置
HDFS_URI=hdfs://mycluster
# 读取最新的checkpoint文件夹名
function get_latest_checkpoint_dir {
  # 获取所有的checkpoint文件夹名
  dirs=($(hdfs dfs -ls $CHECKPOINT_DIR | sort -r -k6,7  | awk '{print $NF}'))

  # 遍历文件夹名
  for dir in "${dirs[@]}"; do
    # 获取最新的以chk开头的savepoint文件夹名
    chk_dir=$(hdfs dfs -ls $dir | awk '{print $NF}' | grep -w '.*/savepoint-.*' | sort -r | head -n 1)
    if [ ! -z "$chk_dir" ]; then
      echo "$chk_dir"
      return
    fi
   # 获取最新的以chk开头的checkpoint文件夹名
    chk_dir=$(hdfs dfs -ls $dir | awk '{print $NF}' | grep -w '.*/chk-.*' | sort -r | head -n 1)
    if [ ! -z "$chk_dir" ]; then
      echo "$chk_dir"
      return
    fi
  done
}

# 启动命令
function flink_start {
  # 获取最新的savepoint或者checkpoint文件夹名
  savepoint_dir=$(get_latest_checkpoint_dir)
  if [ ! -z "$savepoint_dir" ]; then
    # 使用最新的savepoint启动
    command=" $FLINK_HOME/bin/flink run -s $HDFS_URI$savepoint_dir $START_COMMAND "
  echo "Starting job with command: $command"
  $command 
  else
    # 没有可用的savepoint,则直接启动
    echo "启动失败..."
  fi
}


# 停止命令
function flink_stop {
  application_id=$(yarn application -list | grep $JOB_NAME | awk '{print $1}')
  SAVEPOINT_DIR1=$HDFS_URI$CHECKPOINT_DIR
  #查看yarn中的job
  raw=$(curl -k -i --negotiate -u : 'http://hadoop1:8088/proxy/'$application_id'/jobs')
  st_line=$(echo "$raw" | tail -1)
 flink_id=$(echo $st_line | jq -r '.jobs[].id')

#echo  /bin/flink1  cancel -s $SAVEPOINT_DIR $flink_id -yid $application_id 
echo flink1111 cancel -s $SAVEPOINT_DIR1 $flink_id -yid $application_id
 SAVEPOINT_PATH=$($FLINK_HOME/bin/flink cancel -s $SAVEPOINT_DIR1 $flink_id -yid $application_id)
        if [ -z "$SAVEPOINT_PATH" ]; then           
            echo "Failed to save savepoint"
            #exit 1
        else
            echo "Savepoint saved to $SAVEPOINT_PATH"
        fi
}



function flink_all {
case $1 in
  "task_name1")
          FLINK_HOME=flink_address
          JOB_NAME=job_name
          CHECKPOINT_DIR=HDFS_ck_address
         START_COMMAND="
          -t yarn-per-job \
          -Dyarn.application.queue=queue_name \
          -p 1 \
          -d \
          -Dyarn.application.name=job_name \
          -Dyarn.application-attempts=3 \
          -Djobmanager.memory.process.size=1024mb \
          -Dtaskmanager.memory.process.size=2048mb \
          -Dtaskmanager.numberOfTaskSlots=1 \
          -Dtaskmanager.memory.managed.size=256mb \
          -Dtaskmanager.memory.task.heap.size=917mb \
          -c class_name \
          jar_address \
         "

          case "$2" in
          start)
            flink_start
            ;;
          stop)
            flink_stop
            ;;
           *)
            echo "Usage: {start|stop}"
            exit 1
            ;;
        esac
    ;;
"task_name2")
          FLINK_HOME=flink_address
          JOB_NAME=job_name
          CHECKPOINT_DIR=HDFS_ck_address
         START_COMMAND="
          -t yarn-per-job \
          -Dyarn.application.queue=queue_name \
          -p 1 \
          -d \
          -Dyarn.application.name=job_name \
          -Dyarn.application-attempts=3 \
          -Djobmanager.memory.process.size=1024mb \
          -Dtaskmanager.memory.process.size=2048mb \
          -Dtaskmanager.numberOfTaskSlots=1 \
          -Dtaskmanager.memory.managed.size=256mb \
          -Dtaskmanager.memory.task.heap.size=917mb \
          -c class_name \
          jar_address \
         "

          case "$2" in
          start)
            flink_start
            ;;
          stop)
            flink_stop
            ;;
           *)
            echo "Usage: {start|stop}"
            exit 1
            ;;
        esac
    ;;

esac

}


case $1 in
#批量启停
    "all")
      for i in task_name1 task_name2
      do 
      echo ================== $i $2日期为 $do_date ==================
      flink_all $i $2
      done 
       ;;
    *)
      flink_all $1 $2
      ;;
esac

3.脚本使用

#启动某个flink任务
./flink_task_start_and_stop.sh task_name2 start
#停止某个flink任务并保存savepoint
./flink_task_start_and_stop.sh task_name2 stop
#启停所有flink任务
./flink_task_start_and_stop.sh all start
./flink_task_start_and_stop.sh all stop

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/290938.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

kotlin基础——重载

重载算术运算符 重载二元算术运算 使用operator定义plus()方法后,可以直接使用号求和 data class Point(val x: Int, val y: Int) {operator fun plus(other: Point): Point {return Point(x other.x, y other.y)} } val p1 Point(1, 2) val p2 Point(3, 4) …

Spark三:Spark SQL

Spark SQL 数据的分析方式、数据分类和SparkSQL适用场景、数据抽象(DataFrame, DataSet, RDD),SparkSQL读取数据和处理数据的两种风格:SQL风格和DSL风格 学习链接 https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ 一、数据分…

【GNN】经典GNN的数学原理之美

目录 引言 背景 图神经网络 节点 消息传递 聚合 更新 整合在一起 使用邻接矩阵 GNN层堆叠 以节点分类为例训练GNN。 训练和测试数据 1、Transductive 2、Inductive 反向传播和梯度下降 流行图神经网络总结 1、消息传递神经网络 2、图卷积 3、图注意力网络 …

旧硬盘插电脑上显示要初始化怎么办?了解原因和解决方案

在使用旧的硬盘插入电脑时,有时会遇到需要进行初始化的情况。这种情况可能是由于多种原因引起的,而初始化硬盘将会导致所有数据丢失,给用户造成不便和损失。因此,本文将介绍解决旧硬盘需要初始化的问题的方法,并提供一…

毕业设计:基于机器学习xgboost lgbm adaboost 的空气质量预测pm2.5‘, ‘so2‘, ‘no2‘ 完整代码数据-可直接运行

项目详细视频讲解介绍: 基于机器学习xgboost lgbm adaboost 的空气质量预测-完整代码数据可直接运行_哔哩哔哩_bilibili 数据展示: 运行结果展示: 项目代码: from sklearn import preprocessing import random from sklearn.model_selection import train_test_split fr…

软件测试第二部分:白盒测试

概念与定义 白盒测试:侧重于系统或部件内部机制的测试,类型分为分支测试(判定节点测试)、路径测试、语句测试。 控制流分析(基于程序结构):控制流分析是一类用于分析程序控制流结构的静态分析技术,目的在于…

ModuleNotFoundError: No module named ‘numpy.testing.decorators‘

文章目录 报错信息报错原因解决方案 关注公众号:『AI学习星球』 算法学习、4对1辅导、论文辅导或核心期刊可以通过公众号或➕v:codebiubiubiu滴滴我 报错信息 ModuleNotFoundError: No module named numpy.testing.decorators 报错原因 新版本已经去…

面试算法88:爬楼梯的最少成本

题目 一个数组cost的所有数字都是正数,它的第i个数字表示在一个楼梯的第i级台阶往上爬的成本,在支付了成本cost[i]之后可以从第i级台阶往上爬1级或2级。假设台阶至少有2级,既可以从第0级台阶出发,也可以从第1级台阶出发&#xff…

pip install 安装模块包位置及设置Anaconda为默认版本python

01问题 pycharm运行代码找不到模块包pip install不知道安装到哪里了jupyter使用不同版本python 02产生原因 安装了多个版本pythonanaconda本身也带有python 03解决办法 (1)查看当前默认python版本 打开运行窗口Winr; 输入cmd回车; 输入python回车…

初识Web服务器

一、web服务器 1、什么是web服务器? web服务器就是web项目的容器,我们将开发好的web项目部署到web容器中,才能使用网络中的用户通过浏览器进行访问。 一张图带你了解web服务器有啥作用: 在我的电脑上有一个已经做好的项目&#…

linux centos 添加临时ip

### 1.添加ip ip addr add IP/mask dev 网络设备 例:ip addr add 172.104.210.247/24 dev ens5f1 ### 2.启动网卡 ip link set up 网络设备 例:ip link set up ens3f0 ### 3.设置默认路由 ip route add default via GATEWAY 例:ip route add …

python3ide手机安卓版下载,python3下载手机安卓版

大家好,给大家分享一下python3ide手机安卓版下载,很多人还不知道这一点。下面详细解释一下。现在让我们来看看! 大家好,给大家分享一下python3ide安卓版官网下载,很多人还不知道这一点。下面详细解释一下python编程代码…

C#编程-描述内存分配

描述内存分配 分配给变量的内存通过两种方式引用:值类型和引用类型。内置数据类型,诸如int、char和float都是值雷兴国。当您声明int变量时,编译器会分配一个内存块以保持该整数值。请思考以下语句: int Num 50;上述语句为保存值…

手机怎么边看视频边记笔记或备忘录?

在这个信息爆炸的时代,我们经常需要通过看培训视频、听网课来不断充实自己。但是,手机屏幕那么小,如何才能在做笔记的同时,又不错过视频的每一个细节呢? 以前,我总是为此头疼。一手拿着手机看视频&#xf…

电脑视频需要分屏怎么做

在当今数字时代,人们对于视频的需求越来越高。有时候,我们可能想在同一屏幕上同时播放多个视频,进行对比、观看、剪辑或者其他目的。那么,视频分屏应该怎么做呢? 在本篇文章中,我们将会详细的为你介绍视频分…

可狱可囚的爬虫系列课程 09:通过 API 接口抓取数据

前面已经讲解过 Requests 结合 BeautifulSoup4 库抓取数据,这种方式在抓取数据时还是比较方便快捷的,但是这并不意味着所有的网站都适合这种方式,并且这也不是抓取数据的最快方式,今天我们来讲一种更快速的获取数据的方式&#xf…

Python selenium模块的安装和配置教程

一、selenium的安装以及简单应用 我们以谷歌浏览器的chromedriver为例 1、在Python虚拟环境中安装selenium模块 pip/pip3 install selenium 2、下载版本符合的webdriver 以chrome谷歌浏览器为例 查看谷歌浏览器的版本 鼠标点击右上角的竖排的三个点,然后选择“…

P1192 台阶问题————C++

目录 台阶问题题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示 解题思路Code运行结果 台阶问题 题目描述 有 N N N 级台阶,你一开始在底部,每次可以向上迈 1 ∼ K 1\sim K 1∼K 级台阶,问到达第 N N N 级台阶有多少种不同方…

华为设备命令最全大合集(2024新版),赶紧收藏!

01、华为交换机基础配置命令 01 常用命令视图 02 创建VLAN //用户视图,一般display命令查看信息比较多。 system-view //准备进入系统视图。 [Huawei]vlan 100 //创建vlan 100。 [Huawei-vlan100]quit //退回系统视图。 03 将端口加入到vlan中 [Huawei] inter…

【C语言】字符串 和 ctype.h 中的函数 练习

前面总结了有关字符串和ctype.h的文章,接下来就以几个例子来练习一下,以巩固之前的基础概念。注意:以下示例都有更简单更高效的解决方法,但本次仅以巩固基础为目的,所以方法可能稍作繁琐 Leetcode 344.反转字符串 编…
最新文章