JCVI-筛选blast最佳结果(生物信息学工具-015)

通常,大家会问我们经过了NR注释,SwissProt注释,那么如何进行,如何挑选最佳比对结果?

同理,存在一个问题,如何挑选最佳的blast比对结果?什么事最优的同源序列?

唐海宝老师开发的工具jcvi(jcvi.formats.blast)解决了这一问题,基本上jcvi等价于MCscan。

01 安装

普通安装需要安装许多依赖,由于服务器等配置不能轻易修改,所以我们采用最便捷的方式安装jcvi-conda。

conda activate jcvipy  #创建环境
conda create -n jcvipy python==3.9 -c conda-forge    # -y   #==和=一样
python -m pip install --upgrade pip     #升级python包管理器
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple   #设置python包镜像源,国内源下载速度起飞
pip install -i https://xh//https://pypi.tuna.tsinghua.edu.cn/simple  jcvi    #安装jcvi
02 使用
用法:
    python -m jcvi.formats.blast ACTION

可用的操作:
         anchors | 仅保留锚定文件中存在的BLAST配对
        annotate | 在BLAST制表文件中注释重叠类型
      annotation | 创建带有注释的制表文件
             bed | 从BLAST制表文件获取bed文件
            best | 获取每个查询的最佳BLAST匹配
           chain | 将相邻的HSPs链在一起
    completeness | 打印每个查询的完整性统计信息
        condense | 将相同查询-主体对的HSPs分组在一起
       covfilter | 过滤BLAST文件(基于id%和cov%)
          cscore | 为BLAST配对计算C分数
          filter | 过滤BLAST文件(基于分数、id%、alignlen)
            gaps | 查找相邻HSPs之间间隙大小的分布
      mismatches | 打印HSPs的不匹配直方图
           pairs | 打印BLAST制表文件的配对末端读取
            rbbh | 查找相互最佳的BLAST匹配
           score | 为每个查询序列累加分数
            sort | 将行按查询分组并按分数降序排序
          subset | 从一些查询和主体chr中提取匹配项
         summary | 提供id%和cov%的摘要信息
            swap | 在BLAST制表文件中交换查询和主体
           top10 | 计算最常见的10个匹配项

JCVI 实用程序库 1.3.9 [版权所有(C)2010-2024,唐海宝]

比对参考数据库下载,或者自建库均可。

NCBI-nr数据库下载
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz

SwissProt,高质量的蛋白数据库下载,蛋白序列得到实验的验证
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/swissprot.gz

通用蛋白质库资源
wget -c ftp://ftp.expasy.org/databases/uniprot/current_release/uniref/uniref90/uniref90.fasta.gz

参考

 Blast安装及使用-Blast+2.14.0(bioinfomatics tools-001)

diamond安装与使用-diamond-2.1.8(bioinfomatics tools-010)

建立DIAMOND或NCBI BLAST+索引
diamond makedb --in uniprot_plants.pep -d XXX.pep.db


使用DIAMOND或NCBI BLAST+进行比对,线程加速 -p -t
diamond blastp -d ./XXX.pep.db -q XXXX.pep  --evalue 1e-5 > XXXX.blastp.outfmt6 -p 4


从DIMAMOND或NCBI BLAST+的比对结果中筛选每个query的最佳subject
conda activate jcvipy
python -m jcvi.formats.blast -h
python -m jcvi.formats.blast best -n 1 XXXX.blastp.outfmt6 

jcvi即可帮助我们挑选最佳Hit!我们获取id和序列fasta文件后即可进行下游操作,如PCR等等。

03 参考文献

Tang H, Bowers JE, Wang X, Ming R, Alam M, Paterson AH. Synteny and collinearity in plant genomes. Science. 2008 Apr 25;320(5875):486-8. doi: 10.1126/science.1153917. PMID: 18436778.

Wang Y, Tang H, Debarry JD, Tan X, Li J, Wang X, Lee TH, Jin H, Marler B, Guo H, Kissinger JC, Paterson AH. MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity. Nucleic Acids Res. 2012 Apr;40(7):e49. doi: 10.1093/nar/gkr1293. Epub 2012 Jan 4. PMID: 22217600; PMCID: PMC3326336.

Tang H, Zhang X, Miao C, Zhang J, Ming R, Schnable JC, Schnable PS, Lyons E, Lu J. ALLMAPS: robust scaffold ordering based on multiple maps. Genome Biol. 2015 Jan 13;16(1):3. doi: 10.1186/s13059-014-0573-1. PMID: 25583564; PMCID: PMC4305236.

王英豪,余嘉鑫,唐海宝,等.  植物复杂基因组与泛基因组研究现状与展望    [J].  中国科学:生命科学,  2024,  54  (02):  233-246.  
雷文龙,雷思茹,陈帅,等.  纳米孔测序技术在基因组学中的应用研究进展    [J].  基因组学与应用生物学,  2023,  42  (03):  233-241.  DOI:10.13417/j.gab.042.000233.
钟伟民,张兴坦,赵茜,等.  三代测序PacBio在转录组研究中的应用    [J].  福建农林大学学报(自然科学版),  2018,  47  (05):  524-529.  DOI:10.13323/j.cnki.j.fafu(nat.sci.).2018.05.002.
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/549781.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

DBUtils工具类的使用

1、DBUtils是什么 为了更加简单地使用JDBC,Apache组织提供了一个DBUtils工具,它是操作数据库的一个组件,实现了对JDBC的简单封装,可以在不影响数据库访问性能的情况下简化JDBC的编码工作量。DBUtils工具要有2个作用。 写数据&am…

力扣周赛392复盘

3105. 最长的严格递增或递减子数组 题目 给你一个整数数组 nums 。 返回数组 nums 中 严格递增 或 严格递减 的最长非空子数组的长度。 思考: 返回什么:返回最长非空子数组的长度。return max(decs_len,incs_len); 但实际上我们只需要用一个变量ans就…

记录PS学习查漏补缺

PS学习 PS学习理论快捷键抠图PS专属多软件通用快捷键 PS学习 理论 JPEG (不带透明通道) PNG (带透明通道) 快捷键 抠图 抠图方式 魔棒工具 反选选中区域 CtrlShiftI(反选) 钢笔抠图注意事项 按着Ctrl单击节点 会出现当前节…

漫步密度森林:借助HDBSCAN实现高效数据聚类

文章来源:navigating-the-density-forest-harnessing-hdbscan-for-advanced-data-clustering 2024 年 4 月 9 日 介绍 在数据科学中,聚类算法是揭示数据集内在结构的重要工具。在这些工具中,基于分层密度的噪声应用空间聚类 (HDBSCAN) 作为…

arm中模/数转换器工作原理以及I2C工作原理

ADC介绍 什么是ADC ADC就是模拟到数字转换器(Analog-to-Digital Converter)的缩写。 它是一种电子设备或模块,S3C2440内部拥有一个ADC外设。用于将连续变化的模拟信号转换为离散的数字信号,以便数字系统(如微处理器、微控制器等)能够对其进行处理和分析。 模拟信号:一…

Spring学习(二)

图解: 2.核心容器总结 2.2.1 容器相关 BeanFactory是IoC容器的顶层接口,初始化BeanFactory对象时,加载的bean延迟加载 ApplicationContext接口是Spring容器的核心接口,初始化时bean立即加载 ApplicationContext接口提供基础的be…

【GDAL-Python】10-在Python中可视化多波段卫星影像

文章目录 1-介绍1.1 主要内容1.2 线性拉伸介绍 2-代码实现2.1 数据介绍2.2 代码实现2.3 效果显示 4-参考资料 1-介绍 1.1 主要内容 (1)在本教程中,主要介绍如何使用 Python 和 matplotlib 可视化多波段 Landsat 8 卫星影像组成的真彩色影像…

新能源锂电池起火自燃怎么办?全氟己酮自动灭火装置可以提前预防!

3月28日晚,广州市天河区某小区一居民楼突发火灾。据消防部门通报,此次火灾因室外电动自行车(未充电状态)发生自燃引起,烧毁一辆电动自行车,无人员伤亡。无独有偶,新能源汽车和自行车起火自燃的事…

1.2MHz,固定频率白光LED驱动器

一、产品概述 TX6216是一款升压转换器,设计用于通过单节锂离子电池驱动多达7个串联的白光LED。 TX6216采用电流模式,固定频率架构来调节LED电流,LED电流通过外部电流检测电阻测量。其低104mV反馈电压可降低功率损耗并提高效率。 TX6216具有…

5种方法,教你如何清理接口测试后的测试数据

在接口测试之后,清理测试数据是一个很重要的步骤,以确保下一次测试的准确性和一致性。以下是一些常见的测试数据清理方法: 1. 手动清理: 这是最基本的方法,即手动删除或重置测试数据。您可以通过访问数据库、控制台或…

数据结构学习之路--实现带头双向循环链表的详解(附C源码)

嗨嗨大家~本期带来的内容是:带头双向循环链表的实现。在上期文章中我们提到过带头双向循环链表,那么它的实现又是怎样的呢?今天我们来一探究竟! 目录 前言 一、认识带头双向循环链表 1 认识双向链表 2 带头双向循环链表的定…

【精读文献】Scientific data|2017-2021年中国10米玉米农田变化制图

论文名称:Mapping annual 10-m maize cropland changes in China during 2017–2021 第一作者及通讯作者:Xingang Li, Ying Qu 第一作者单位及通讯作者单位:北京师范大学地理学部 文章发表期刊:《Scientific data》&#xff08…

如何在 VM 虚拟机中安装 OpenEuler 操作系统保姆级教程(附链接)

一、VMware Workstation 虚拟机 若没有安装虚拟机的可以参考下篇文章进行安装: 博客链接https://eclecticism.blog.csdn.net/article/details/135713915 二、OpenEuler 镜像 点击链接前往官网 官网 选择第一个即可 三、安装 OpenEuler 打开虚拟机安装 Ctrl …

【C++】哈希一

这篇博客要说的是哈希算法,哈希又称为散列,它是将存储的值和存储的位置建立起关联关系的一种算法,或者说是一种将任意长度的数据映射为固定长度的输出的算法。 什么意思呢?我们来看一个例子:比如说我们要存储1&#xf…

控制某个对象缩放

效果如下: 您只需要控制此对象进行激活,将对象设置为:gameObject.SetActive(true);即可实现此次效果 代码如下: public class StartShowRun : MonoBehaviour {Transform _localTransfrom;Vector3 _localScale;public AnimationC…

高效可扩展,使用Dask进行大数据分析

大家好,Dask技术作为并行计算领域的创新力量,正在重塑大数据的处理模式。这项开源项目为Python语言带来了强大的并行计算能力,突破了传统数据处理在扩展性和性能上的瓶颈。 本文将介绍Dask的发展历程、架构设计,并分析其在大数据…

Qt中连接mysql

1、安装mysql,workbench,为mysql添加环境变量 2、安装Qt带src,然后到如下目录,找到mysql.pro(建议做个副本先) http://D:\Qt\Qt5.13.2\5.13.2\Src\qtbase\src\plugins\sqldrivers\mysql mysql.pro 注意路径的 \ / 和双引号的使…

算法练习第15天|226.翻转二叉树

226.翻转二叉树 力扣链接https://leetcode.cn/problems/invert-binary-tree/description/ 题目描述: 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 示例 1: 输入:root [4,2,7,1,3,6,9] 输出&am…

高分二号卫星(GF-2):中国遥感科技的新高度

​高分二号卫星(GF-2)是中国在高分辨率地球观测领域的重要成就,其引入了先进的成像技术和灵活的数据获取模式,为地球资源监测、环境保护、城市规划等领域提供了强大的数据支持。本文将深入介绍高分二号卫星的技术特点、成像能力以…

软件测试---性能测试

1.常见的性能问题有哪些 如图所示 系统内部以及软件的代码实现 1,资源泄漏,包括内存泄漏。 2,CPU使用率达到100%,系统被锁定等。 3,线程死锁,阻塞等造成系统越来越慢。 4,查询速度慢&#xff0c…