综述 2022-Genome Biology:“AI+癌症multi-omics”融合方法benchmark

Leng, Dongjin, et al. "A benchmark study of deep learning-based multi-omics data fusion methods for cancer." Genome biology 23.1 (2022): 1-32.

  • 被引次数:34
  • 作者单位

        

  • 红色高亮表示写论文中可以借鉴的地方

一、方法和数据集

1. 3个数据集:

        模拟多组学数据集、单细胞多组学数据集、癌症多组学数据集

备注:

  • The benchmark cancer multi-omics datasets were downloaded from Multi-Omic Cancer Benchmark.
  • All dataset and codes are available at the https://github.com/zhenglinyi/DL-mo [70] (DOI: A benchmark study of deep learning-based multi-omics data fusion methods for cancer(code) [71]).
  • 模拟数据集生成软件:InterSIM CRAN package [45] 。
    • [45] Chalise P, Raghavan R, Fridley BL. InterSIM: Simulation tool for multiple integrative ‘omic datasets’. Comput Methods Prog Biomed. 2016;128:69–74.
    • 该软件包可以生成复杂且相互关联的多组学数据,包括 DNA 甲基化、mRNA 基因表达和蛋白质表达数据。生成了一百个具有 1000 维特征的模拟样本。在生成过程中,100个模拟样本的簇数参数设置为5、10和15。此外,我们在两种情况下生成每个样本簇:所有簇具有相同的大小,或者簇具有可变的随机大小。这模拟了一个真实的应用场景,其中属于每个簇(子类型)的样本比例可以相同或不同。

2. 16种方法:

        有监督模型(6 个)和无监督模型(10 个)

3. 2个任务:分类和聚类

  •         分类性能评估:accuracy, F1 macro, and F1 weighted
  •         聚类性能评估:Jaccard index (JI), C-index, silhouette score, and Davies Bouldin score

4. 实验细节

  • 对于模拟数据集和单细胞数据集,分别使用六个监督模型和十个无监督模型通过分类和聚类检索真实样本。
  • 对于癌症数据集,在具有真实癌症亚型的五种癌症数据集的分类任务中评估了监督式深度学习方法。同时,在聚类任务中评估了无监督深度学习方法。此外,还评估了嵌入与生存和临床注释的关联。

Fig. 1

二、实验结果

1. 模拟数据集上结果

Fig. 2

  • 图:模拟多组学数据集的评估工作流程。 
    • a InterSIM CRAN 软件包生成了三种用作输入的组学数据。 
    • b 有监督的深度学习方法在分类任务中进行评估。这些方法的性能基于 4 倍交叉验证,并通过三个指标进行评估:accuracy, F1 macro, and F1 weighted。 
    • c 采用无监督深度学习方法融合模拟的多组学数据,首先获得 5 维、10 维和 15 维嵌入。然后使用k-means算法对多组学降维结果进行聚类。采用Jaccard index (JI), C-index, silhouette score, and Davies Bouldin score作为聚类的评价指标

(1)分类(6种监督ML方法)

(2)聚类(10种无监督ML方法)

  • 指标 JI, C-index, silhouette score, and Davies Bouldin score of the ten unsupervised methods 评估
  • ML embedding + k-means聚类 --> 聚类评估

Fig. 3

2. 单细胞数据集上结果

将多组学数据融合方法应用于单细胞多组学数据有助于系统地探索细胞的异质性

单细胞数据集由两种组学数据类型组成,即单细胞染色质可及性数据和单细胞基因表达数据。这两类组学数据的特征数量分别为 49,073 和 207,203。这两个组学数据是从三种不同的癌细胞系(HTC、Hela 和 K562)中获得的,总共 206 个细胞 [48]。

Fig. 4

  • 单细胞多组学数据集评估的工作流程。 
    • 使用两种组学数据作为输入。 
    • b 有监督的深度学习方法在分类任务中进行评估。这些方法的性能基于 4 倍交叉验证,并通过三个指标进行评估:accuracy, F1 macro, and F1 weighted
    • 首先应用无监督深度学习方法融合单细胞多组学数据,获得融合的二维嵌入。然后使用k-means算法将多组学降维结果聚类为三类。采用Jaccard index (JI), C-index, silhouette score, and Davies Bouldin score作为聚类的评价指标

(1)分类(6种监督ML方法)

(2)聚类(10种无监督ML方法)

Fig. 5

3. 癌症数据集上结果

了解癌症的分子和临床特征

癌症基因组图谱 (TCGA) 癌症多组学数据集,该数据集由三种组学数据类型组成:基因表达、DNA 甲基化和 miRNA 表达。

对于分类任务,我们从 TCGA 中收集了具有真实癌症亚型的五种不同的癌症数据集,包括乳腺癌 (BRCA)、胶质母细胞瘤 (GBM)、肉瘤 (SARC)、肺腺癌 (LUAD) 和胃癌 (STAD)。对于聚类任​​务,为了保证评估的真实性,本研究使用的数据来自基准癌症数据集(http://acgt.cs.tau.ac.il/multi_omic_benchmark /download.html) [10]。

Fig. 6

  •  癌症多组学数据集评估的工作流程。 
    • a 使用三种组学数据作为输入。 
    • b 有监督的深度学习方法在分类任务中进行评估。这些方法的性能基于 4 倍交叉验证,并通过三个指标进行评估:accuracy, F1 macro, and F1 weighted
    • c首先应用无监督深度学习方法融合癌症多组学数据,获得融合的10维嵌入。然后使用k-means算法将多组学降维结果聚类为几类。我们采用accard index (JI), C-index, silhouette score, and Davies Bouldin score作为聚类的评价指标。此外,还评估了嵌入与生存和临床注释的关联

(1)分类(6种监督ML方法)

(2)聚类(10种无监督ML方法)

Fig. 7

  • 癌症多组学数据集上十种无监督方法的 Jaccard index (JI), C-index, silhouette score, and Davies Bouldin score以及嵌入与生存和临床注释的关联。 
  •         (a) C-index
  •         (b) silhouette score
  •         (c) Davies Bouldin score
  •         根据癌症数据的聚类计算得出簇的数量设置为二到六。 k-means 聚类运行了 1000 多次。
  •         (d) 与生存有很强关联的嵌入(Bonferroni 校正的 p 值小于 0.05)。 X 轴表示与生存相关的嵌入的数量。 Y 轴代表癌症,每种癌症都分配有一种颜色。
  •         (e) 十种无监督方法针对十种不同癌症类型的选择性得分。高于平均分(0.49)则显示分数,选择性分数越高,橙色块越亮

(3)embedding 与生存和临床注释的关联

Fig. 8

癌症子基准的图形摘要。 a 测试嵌入与生存之间的关联的详细信息。 b测试嵌入与临床注释关联的详细信息

三、讨论

Fig. 9

本研究中以平均统一分数为基准的基于深度学习的多组学数据融合方法。 a 监督模型在三个不同数据集中的统一性能。 b 无监督模型在三个不同数据集中的统一性能。我们以各个场景的统一最高分作为参考(标记为100%)来计算百分比

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/244987.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【✅如何针对大Excel做文件读取?】

✅如何针对大Excel做文件读取? 🟩如何针对大Excel做文件读取🟩XSSFWorkbook文件读取🟩EasyExcel文件读取 ✅扩展知识🟩 EasyExcel简介🟩EasyExcel 为什么内存占用小? 🟩如何针对大Ex…

MySQL使用Not in查询效率慢的优化

引言 问题复盘,在查询某个数据不在另一个表中,查询时间非常慢,10几秒。究其原因not in不走索引。那么怎么解决优化呢,下面是简单记录。 原SQL select * from test where a not in ( select a from test2 where status in (1, 2…

由@EnableWebMvc注解引发的Jackson解析异常

同事合了代码到开发分支,并没有涉及到改动的类却报错。错误信息如下: Servlet.service() for servlet [dispatcherServlet] in context with path [] threw exception [Request processing failed; nested exception is org.springframework.http.conv…

重新认识Word——给图、表、公式等自动编号

重新认识Word——给图、表、公式等自动编号 给图增加题注题注失败的情况给图添加“如图xx-xx所示” 给公式插入题注第一步——先加题注第二步——设置两个制表符 解决题注“图一-1”的问题 前面我们已经学习了如何引用多级列表自动编号了,现在我们有第二个问题&…

数字病理图像分析的开源软件qupath学习 ①

介绍:QuPath是一种新的生物图像分析软件,旨在满足对用户友好、可扩展、开源解决方案日益增长的需求,用于数字病理学和全玻片图像分析。除了提供全面的肿瘤识别和高通量生物标志物评估工具外,QuPath 还为研究人员提供了强大的批处理…

怎么抠图换背景?这三个方法让你轻松抠图

怎么抠图换背景?抠图是每个独立站商家每天必不可少的工作,简单一张图用PS进行抠图还好,但如何多张图,用PS就效率非常低,且需要专业的PS技能才能上手实现精准抠图的目的,那么怎么快速抠图换背景呢&#xff0…

【MySQL学习】概述

文章目录 1. mysql的启动和停止命令2. 客户端连接3. 数据模型 1. mysql的启动和停止命令 通过指令启动或停止,以管理员身份运行cmd,进入命令行执行如下指令: (1)启动myaql net start mysql(2)…

TikTok科技趋势:平台如何引领数字社交革命?

TikTok作为一款颠覆性的短视频应用,不仅改变了用户的娱乐方式,更在数字社交领域引领了一场革命。本文将深入探讨TikTok在科技趋势方面的引领作用,分析其在数字社交革命中的关键角色,以及通过技术创新如何不断满足用户需求&#xf…

虚拟化嵌套

在理论上,可以在虚拟机(VM)内运行一个hypervisor,这个概念被称为嵌套虚拟化: 我们将第一个hypervisor称为Host Hypervisor,将VM内的hypervisor称为Guest Hypervisor。 在Armv8.3-A发布之前,可以通过在EL0中运行Guest Hypervisor来在VM中运行Guest Hypervisor。然而,这…

智能冶钢厂环境监控与设备控制系统(边缘物联网网关)

目录 1、项目背景 2、项目功能介绍 3、模块框架 3.1 架构框图 3.2 架构介绍 4、系统组成与工作原理 4.1 数据采集 4.2 指令控制 4.3 其他模块 4.3.1 网页、qt视频流 4.3.2 qt搜索进程 5、成果呈现 6、问题解决 7、项目总结 1、项目背景 这个项目的背景是钢铁行业的…

从入门到精通:掌握Spring IOC/DI配置管理第三方bean的技巧

IOC/DI配置管理第三方bean 1.1 案例:数据源对象管理1.1.1 环境准备1.1.2 思路分析1.1.3 实现Druid管理步骤1:导入druid的依赖步骤2:配置第三方bean步骤3:从IOC容器中获取对应的bean对象步骤4:运行程序 1.1.4 实现C3P0管理步骤1:导入C3P0的依赖步骤2:配置第三方bean步骤3:运行程…

100:ReconFusion: 3D Reconstruction with Diffusion Priors

简介 官网 少样本重建必然导致nerf失败,论文提出使用diffusion模型来解决这一问题。从上图不难看出,论文一步步提升视角数量,逐步与Zip-NeRF对比。 实现流程 Diffusion Model for Novel View Synthesis 给定一组输入图像 x o b s { x i…

12.HTML5新特性

HTML5新特性 1.介绍 它是万维网的核心语言、标准通用标记语言下的一个应用超文本标记语言(HTML)的第五次重大修改。用于取代 HTML4 与 XHTML 的新一代标准版本,所以叫HTML5 HTML5 在狭义上是指新一代的 HTML 标准,在广义上是指…

浮动的魅力与挑战:如何在前端设计中巧妙运用浮动(下)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

FFmpeg的AVcodecParser

文章目录 结构体操作函数支持的AVCodecParser 这个模块是AVCodec中的子模块,专门用来提前解析码流的元数据,为后面的解码做准备,这一点对cuda-NVdec非常明显,英伟达解码器的元数据解析是放在CPU上的,所以就非常依赖这个…

对于初学者来说,从哪些方面开始学习 Java 编程比较好?

对于初学者来说,从哪些方面开始学习 Java 编程比较好? 在开始前我有一些资料,是我根据自己从业十年经验,熬夜搞了几个通宵,精心整理了一份「Java的资料从专业入门到高级教程工具包」,点个关注,全…

react Hooks(useRef、useMemo、useCallback)实现原理

Fiber 上篇文章fiber简单理解记录了react fiber架构,Hooks是基于fiber链表来实现的。阅读以下内容时建议先了解react fiber。 jsx -> render function -> vdom -> fiber树 -> dom vdom 转 fiber 的过程称为 recocile。diff算法就是在recocile这个过程…

70套大数据可视化大屏模板,总有一款适合你(含演示示例)

分享70款还不错的前端数据可视化大屏源码 其中包含行业:智慧社区、智慧物业、政务系统、智慧交通、智慧工程、智慧医疗、智慧金融银行等,全网最新、最多,最全、最酷、最炫大数据可视化模板。 你可以点击预览获取查看该源码资源的最终展示效果…

思福迪运维安全管理系统 test_qrcode_b RCE漏洞复现

0x01 产品简介 思福迪运维安全管理系统是思福迪开发的一款运维安全管理堡垒机。 0x02 漏洞概述 由于思福迪运维安全管理系统 test_qrcode_b路由存在命令执行漏洞,攻击者可通过该漏洞在服务器端任意执行代码,写入后门,获取服务器权限&#…

05进程间通信-学习笔记

进程间通信(IPC) 概念 进程信技术简称IPC,可以利用此技木让多个进程相传建消数据,有大量的进程间通信方案 pipe 匿名管道fifo 命名管简单理解,管道文件是一个指向内核管道缓冲区的指针,所有向管道文件读写的操作&am…
最新文章