医学图像目标跟踪论文阅读笔记 2024.03.14~2024.04.01

Moving vehicle tracking based on improved tracking–learning–detection algorithm

2019年 期刊 IET Computer Vision 计算机科学4区

基于改进后的TLD算法(ITLD,improved TLD)对车辆进行long-term单目标跟踪。

改进内容:

  1. 将平方根容积卡尔曼滤波器(SRCKF,square root cubature Kalman filter)集成到中值流跟踪器中,其实就是代替了median-flow法来执行跟踪。

  2. 跟踪器引入快速视网膜关键点(FREAK,fast retina keypoint)特征,缓解目标尺度变化和旋转带来的不稳定性,提高跟踪器的鲁棒性。

    • 首先,对于第 t t t t − 1 t-1 t1帧,获取FREAK特征 s i = ( p i , d i ) s_i=(p_i,d_i) si=(pi,di),其中, p i p_i pi是特征点的位置, d i d_i di是特征点的描述算子。
    • 使用FLANN算法基于FREAK描述符从帧 t − 1 t-1 t1向帧 t t t之间寻找最近邻匹配点。为了提高匹配的准确性,算法采用双向匹配策略(反过来,即从 t t t帧向 t − 1 t-1 t1帧),只有当一个匹配对在这两个方向上都被确认时,才被认为是有效的匹配。
    • 通过RANSAC算法移除掉错误的匹配点。
  3. 在整合模块中采用重叠比较和归一化互相关系数(NCC)来提高精度(这个感觉可以参考):

    image-20240318170617924

实验环节

  • 基于OTB-50和TLD数据集(这是哪里来的?)中具有挑战性的视频来评估所提出的算法。
  • 评价指标:精确度(CLE=20),成功率(IOU=0.5)

感想:一篇普通的改进文章,作者同样也发现了整合模块存在的问题。尽管其提出了改进方式,但是并没有足够的消融实验来证明这种改进的有效性(只给了一张曲线图,和在十一个视频序列上的测试性能)。除此之外,算法的实时性进一步降低。使用FREAK特征点来替代原始跟踪点这个思路很不错。

Deep visual tracking: Review and experimental comparison

2018年 期刊 PATTERN RECOGNITION 计算机科学1区

Online视觉跟踪跟踪器的组成

运动模型(描述对象随时间的状态并预测其可能的状态)+观测模型(描述跟踪目标的外观信息并验证每帧的预测),有研究表明观测模型是更重要的。

对于观测模型,可以进一步分为生成式(基于模板来搜索目标)和判别式(训练一个分类器来区分目标和背景)。

视觉跟踪器分类:回顾了现有的基于DL的目标跟踪算法。并根据网络结构网络功能网络训练来分类现有的深度视觉跟踪器:

image-20240318211020937
  1. 网络结构:即视觉跟踪器所使用的深度神经网络的种类,可以分为基于CNN(适合特征提取)、基于RNN(能记住时序信息,适合序列建模)和基于其它网络的跟踪器。

    • 基于CNN:可以被进一步分为CNN-C(判别式)和CNN-M(生成式)
    • 基于RNN:
    • 基于其它网络:
  2. 网络功能:所使用DNN在所提出的跟踪系统中的作用,主要分为特征提取(FEN,仅利用深度网络提取深层特征,然后采用传统方法定位目标)和端到端(EEN,不仅使用深度网络进行特征提取,还用于候选评估。EEN方法的输出可以是概率图、热力图、候选得分、对象位置甚至直接bounding box)。

  3. 网络训练:训练DNN所使用的方法。分为NP-OL、IP-NOL、IP-OL、VP-NOL、VP-OL。

    image-20240318210327379

跟踪实验:在OTB100、TC-128和VOT2015数据集上进行了实验评估。

  • OTB100:20像素距离为阈值的精确度和0.5交并比为阈值的成功率。
  • TC-128:评估指标和OTB100相同。
  • VOT2015:提供了重新初始化协议,即,如果观察到跟踪失败,则在评估过程中使用ground truth重置跟踪器。使用准确性-鲁棒性(AR)图和预期平均overlap(EAO)来衡量算法的性能。

结论

  1. CNN模型的使用可以显着提高跟踪性能,而使用CNN模型进行模板匹配通常速度更快(CNN-C比CNN-M的精度更高,但是CNN-M更快)。
  2. 具有深层特征的跟踪器比具有低级手工特征的跟踪器表现更好。
  3. 来自不同卷积层的深层特征具有不同的特征,它们的有效组合通常会产生更鲁棒的跟踪器。
  4. 使用端到端网络的深度视觉跟踪器通常比仅使用特征提取网络的跟踪器表现更好。
  5. 对于视觉跟踪,最合适的网络训练方法是用视频信息对网络进行预训练,并通过后续观察对其进行在线微调。

感想:偏概念性的基础文章。

Automated MV markerless tumor tracking for VMAT

2020年 期刊 PHYSICS IN MEDICINE AND BIOLOGY 医学3区核医学3区生物医学3区

基于MV射线成像,应用适应性模板匹配方法,实现了在VMAT治疗期间对肺部肿瘤的无标记跟踪,该算法不需要训练

MV(兆伏级)和KV(千伏级)射线的主要区别在于它们的能量水平,这影响了它们在医疗成像和治疗中的应用。MV射线因其深穿透力而主要用于放射治疗,特别是深部肿瘤的治疗,而KV射线则主要用于诊断成像。

跟踪算法步骤

  1. 首先应用盒式滤波器对图像进行滤波平滑,以减少噪点,然后通过自适应阈值算法来区分前景和背景(Aperture Masking)
  2. 通过局部方差过滤器计算局部区域的局部方差(局部方差高的区域意味着该区域内像素值变化大)以作为纹理特征。之后,计算每个区域的自相关性(没提到是怎么计算的),然后根据纹理值和自相关值对纹理特征(局部区域)进行排序。
  3. 在每个确定要跟踪的特征(局部区域)周围生成一组模板(21×21像素),构成一个模板集群,每个集群的模板数量为7。
  4. 跟踪
    • 首先,计算每个模板与当前图像的NCC(归一化交叉互相关),从而确定新的模板位置(其实就是滑动模板,然后计算NCC值,NCC值最大的地方就作为新的模板位置,NCC的计算可以参考:NCC归一化互相关(详解))。
    • 将最大NCC值小于0.5的模板和模板集群抛弃,同时抛弃静态模板(在5幅图像中每幅图像移动不超过一个像素的模板)。
    • 相对位置分析:在预测模板的新位置前,每个模板集群的相对位置被记录下来从而生成一个矩阵。在完成位置预测后,对每个模板集群,检查各个模板的相对位置,并抛弃那些相对位置变化超过阈值(0.35像素)的模板,只保留仍然符合初始相对位置的模板。对于那些抛弃的模板,基于设置的score(结合了NCC、相对位置变化和模板的平均稳定性)进行重组,以检查被移除的模板是否可以再生成一个通过相对位置分析的子群。
  5. 模板更新
    • 只对具有高置信度值的特征(局部区域)的模板进行更新。
    • 将当前图像中特征的相应子部分用于模板更新,即,将帮助确定匹配位置的模板替换为当前图像中的相同区域。

实验结果:对于体模数据,跟踪误差为1.34mm,对于patient data,跟踪误差为0.68mm。0.2秒处理一帧。

感想:感觉没啥好参考的,文中有一段提到了跟踪成功率比较低,不知道为什么后面又提高了,仔细看了一下也还没明白。模板匹配这个方法还是太老太简单了,很难做出花来,如果真基于扫描的思想,为什么不用SiameseFC网络之类的架构来跟踪呢?

Real-time tumor tracking using fluoroscopic imaging with deep neural network analysis

2019年 期刊 Physica Medica-European Journal of Medical Physics 医学3区核医学3区

本文提出了一种基于深度神经网络的markerless肿瘤实时跟踪方法。该方法基于4DCT(主要用于标记肿瘤的真实位置)和DRR数据(DRR是一种通过计算机从3D-CT数据集中生成的2D X射线图像,用于作为训练的全局图像),但其最终目标是应用于荧光成像数据上的实时肿瘤跟踪。

跟踪算法步骤

训练

  1. 在DRR图像上设置ROI和目标概率图(TPM):从4D-DRR图像上,设置4个ROI(宽64像素,高128像素),ROI的中心坐标被设置为在图像中位移最大的位置(整个图像序列中每一帧位移之和最大的位置)。

    之后,在DRR图像上的每个呼吸相位(每个呼吸相位对应于4DCT扫描中的某个特定时刻的图像帧)的肿瘤中心处定义目标概率图。目标概率图的大小和ROI一样,只是其中心为肿瘤中心。

  2. 准备训练数据:

    • 应用数据增强技术,基于10个放疗CT数据集,生成了10000张训练图像

    • DRR图像的像素值被归一化到[0,1]。

    • 根据设定的ROI,从每张DRR中裁剪出对应的子图像,作为网络的训练输入。

    • 根据肿瘤的中心位置和文中的公式2,计算出对应的TPM(矩阵),公式2如下所示:

      image-20240404152423468

      其中, z z z代表特征向量。为什么感觉公式2有问题,应该是越靠近中心的概率值越大啊?

  3. 模型训练:

    • loss function

      image-20240404153015574

      其中, θ \theta θ是需要训练的网络参数。 x ( i ) ∈ R W r × H r × N r x^{(i)}\in R^{W_r\times H_r\times N_r} x(i)RWr×Hr×Nr代表从第 i i i帧全局图像中裁剪得到的 N r N_r Nr张子图所组成的输入。 t ( i ) ∈ R W r × H r t^{(i)}\in R^{W_r\times H_r} t(i)RWr×Hr代表这帧图像中对应的TPM。

    • 应用adam训练,使用xavier初始化,同时应用了dropout。

跟踪

  1. 子图像生成:
    • 将DFPD生成的荧光图像的像素尺寸调整到和训练用的DRR图像相同,并对其像素值进行归一化处理。
    • 基于ROI来裁剪生成作为输入的子图像,ROI和训练步骤中采用的ROI完全相同
  2. 网络预测生成TPM
  3. 基于TPM计算出肿瘤的位置:
    • 生成TPM:对每一张二维荧光图像,网络进行预测并生成一个TPM。这个TPM反映了肿瘤中心在各个位置的概率。
    • 计算二维肿瘤中心:利用TPM的概率值和对应的像素位置,通过加权平均的方式计算出肿瘤在该二维荧光图像上的中心位置。
    • 生成三维肿瘤中心:在实际的跟踪过程中,使用一对荧光图像(这两张图像通常是从不同角度拍摄的)按照上述步骤生成肿瘤在这两张荧光图像上的二维位置,结合荧光图像的相对角度和位置关系,推算出肿瘤在三维空间中的位置。
    • 侧向纠正:考虑到呼吸引起的器官运动主要在上下(SI)方向,即ROI包含的图像变化主要与SI方向相关(也就是说预测出的TPM主要是SI方向的运动,而横向运动的预测不明显)。因此,通过线性回归模型(自变量为SI的位移,拟合目标为横向的位移)进行侧向纠正。

读完了整个算法的训练和实际运行过程,发现这个算法的主要思想就是确定好的ROI来生成一个TPM,TPM中的各个坐标对应的概率值代表了肿瘤中心在该位置的可能性。比较关键的一点在于,ROI是基于最大位移得到的,和ROI相同大小且基于肿瘤初始帧中心定义得到的TPM就一定能确保覆盖到整个跟踪期间肿瘤的所有可能位置。这也是为什么网络只需要预测一个大小小于全局图像的TPM就能够进行后续的跟踪步骤了。相当于这个方法应用了一定的先验信息

除此之外,个人还是感觉文中给的公式2少了一个负号,不然按照公式2就是越靠近肿瘤中心的t值越低,应该是不对的,所以这里存疑。

网络结构

基于卷积自编码器实现,结构如下图所示:

在这里插入图片描述

这也能解释为什么生成的不是直接的位置预测,而是一个TPM。

产生一个想法:假如我想实现端到端的肿瘤中心位置预测,是否可以像SiamFC网络一样,加入一个检测帧的分支,然后利用检测帧分支和CAE生成的TPM来预测出实际的肿瘤位置。

其它

  • groundtruth确定:图像刚性配准+人工修改。
  • 误差定义:预测中心和实际中心的欧氏距离。

实验结果

所有患者平均无校正的跟踪位置精度为2.18±0.89mm(95%CI:2.30mm)。通过应用侧向校正,这些值提高到1.64±0.73mm(95%CI:1.74mm)。侧向矫正(1.37±0.81mm)的肝脏病例的准确性优于肺部病例(1.90±0.65mm)。

所有患者平均使用一对DFPD进行肿瘤跟踪的计算时间为每帧39.8±3.7ms。

感想:首先,作者自己也在discussions部分提到了这个方法的缺陷,就是分次间变化会导致算法的跟踪精度降低(很直观,因为训练数据和实际测试数据的差异会变大)。文章的思路还是直观的,但是我个人觉得可以进一步改进以形成一个end-to-end的跟踪方法。一篇19年的文章,其应用了较多的后处理步骤,感觉不是很elegant。除此之外,相较于之前阅读的其它放疗场景下的目标跟踪方案,其对跟踪场景的设置已经相对接近通用的目标跟踪场景了。总体来说,有值得借鉴的地方。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/526354.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Authing 正在寻找云原生应用 / Infra 开发者

我们是 Authing,成立于 2019 年,我们是一家平均年龄 95 后的年轻创业公司,现在是中国最大、最领先的身份云基础设施(Identity as a Service, IDaaS)提供商,我们的产品服务了全国各地数百家客户和数十家世界…

思迈特:“人工智能+”浪潮里,国产BI到了关键时刻

作为首个“AI程序员”,Devin最近参与了一系列工作,包括在人力资源外包平台Upwork完成编程工作;潜入一家明星创业公司内部群交流,为公司CTO调整代码方案等。这让整个软件工程行业大受震撼,程序员留言“刷屏”。 “AI…

做海外问卷调查有什么技巧和方法?纯干货讲解

做海外问卷调查无外乎几个步骤:选国家、做人设、测题目、刷题目。每个步骤都有一定的技巧,但是它的技巧成分不是很明显。 国家的选择一般以发达国家为主,国家越发达问卷的数量越多,正常白天做题主流国家选择:新加坡、…

蓝桥杯每日一题:有序分数(递归)

给定一个整数 N,请你求出所有分母小于或等于 N,大小在 [0,1] 范围内的最简分数,并按从小到大顺序依次输出。 例如,当 N5 时,所有满足条件的分数按顺序依次为: 0/1,1/5,1/4,1/3,2/5,12/,35,2/3,3/4,4/5,1/…

HarmonyOS实战开发-存储空间统计(仅对系统应用开放)

介绍 本示例通过应用程序包管理、应用空间统计与卷管理模块,实现了查看当前设备存储空间信息、所有安装的应用的存储信息、所有可用卷的存储信息的功能。 效果预览 使用说明: 1.主页面会展示当前设备存储使用的详细信息。 2.点击“应用”,…

继续教育山东第一医科大学临床医学试题及答案,分享几个实用搜题和学习工具 #职场发展#职场发展#笔记

大学生必备的搜题工具,专业课本习题、电子版教材、考研资料、英语四六级等考试题目也能一并搜索,每道题目都有详细的讲解,每个都堪称大学神器。 1.灵兔搜题 这是一个公众号 医学、财经、建筑、计算机、高数、土木.........都可以搜索。 下…

淘宝商品描述API接口:轻松获取商品信息的新途径

淘宝商品描述API接口是淘宝开放平台提供的一种高效、便捷的新途径,旨在帮助开发者轻松获取淘宝商品的详细描述信息。通过这一接口,商家、开发者和用户都能获得商品标题、描述、属性、价格、图片等关键信息,从而满足各种业务需求。 在使用淘宝…

centos7.2系统部署ZooKeeper集群和Kafka集群(集群应用系统商城前置环境)

本次实验将使用centos7.2系统部署部署ZooKeeper集群因为Kafka依赖于ZooKeeper,所以我们一并进行部署。 实验所示的资源软件已上传至百度网盘,需要自取。 链接:https://pan.baidu.com/s/1a-7_iAIX0DBAMkF9bhiTcA?pwd2333 提取码&#xff1…

BLIP 算法阅读记录---一个许多多模态大语言模型的基本组件

论文地址:😈 一、环境配置以及数据集准备 数据集准备 官网提供了下载数据集json文件的接口。但是很可能打不开,因为其放在了谷歌云上 https://storage.googleapis.com/ 不过不要担心,网页打不开,咱们可以利用python去…

助力大健康产业发展,深兰科技AI数字伙伴“益小青”亮相世界健博会

4月7日至4月10日,以“健康共同体,科技创未来”为主题的2024年(第六届)世界大健康博览会在武汉隆重举行。大会吸引了千余家知名企业、单位参展,200余位大健康领域重要嘉宾参会。深兰科技携国内首款AI心理陪伴数字人——益小青在展会上公开亮相…

RSA公钥格式公钥结构解析

一次发现RSA der格式公钥2048位(256bytes)有的长度292有的长度294于是分析了下: [root8f64ba75cbd1 tmp]# ll anewpub.der 1_pub.der -rw------- 1 root root 294 Apr 8 02:48 1_pub.der -rw------- 1 root root 292 Apr 8 02:25 anewpub…

为什么网站速度很重要?

网站速度,也被称为页面加载速度或网站性能,是指用户访问网站时,从发出请求到浏览器完全加载并显示网页内容所需的时间。这个速度的快慢直接影响用户的体验和对网站的整体评价。 为什么网站速度很重要? 网站速度之所以非常重要&a…

数仓调优实战:GUC参数调优

1. 前言 适用版本:【8.1.1及以上】 GaussDB(DWS)性能调优系列专题文章,介绍了数据库性能调优的思路和总体策略。在系统级调优中数据库全局的GUC参数对整体性能的提升至关重要,而在语句级调优中GUC参数可以调整估算模型,选择查询…

移动医保支付

传统就医流程中,涉及“三长一短”的难题,因此根据国家政策及互联网的能力支持,用户在微信或者支付宝上激活医保电子凭证之后,无需在医院窗口排队,即可通过微信小程序或者公众号、支付宝小程序缴纳医保挂号或医保门诊费…

Java常用API_System——常用方法及代码演示

1.System.exit(int status) 方法的形参int status为状态码,如果是0,说明虚拟机正常停止,如果非0,说明虚拟机非正常停止。需要将程序结束时可以调用这个方法 代码演示: public class Test {public static void main(S…

如何远程监控员工的电脑

如何远程监控员工的电脑 为什么要对员工使用电脑的行为进行监控呢?对企业来说是有其必要性的。其必要性主要体现以下4个方面。 1.数据安全与知识产权保护 防止数据泄露:企业内部往往存储着大量的敏感信息,如客户数据、财务资料、商业秘密、…

使用Code开发Django_模版和CSS

转到定义 和 查看定义 在使用Django或任何其他库的过程中,我们可能需要检查这些库中的代码。VS Code提供了两个方便的命令,可以直接导航到任何代码中的类和其他对象的定义: 转到定义 在Python开发环境中,我们可以轻松地对函数、类…

【QT学习】Graphics View框架(高阶篇)- 使用Graphics View框架创建开机动画

【QT学习】Graphics View框架(高阶篇)- 使用Graphics View框架创建开机动画_qgraphicsview 一步-CSDN博客 前言 在上一篇《Graphics View框架(进阶篇)- 派生QGraphicsItem类创建自定义图元item》中,我们介绍了创建自定…

助力AIGC暴雨推出4卡液冷图站TR770

2022年,ChatGPT横空出世,正式拉开了生成式人工智能(AIGC)的序幕;2024年,Sora惊艳亮相,再度将AIGC技术推向高潮,引发了全球范围内的新一轮科技竞赛与创新热潮。从文字创作的灵感迸发&…

图像处理环境配置opencv-python

下载python,配置pip使用清华源下载镜像: pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple 切换到python目录下,右击cmd,执行pip升级指令: python -m pip install --upgrade pip 下载opencv&#x…