1、简介

CD-HIT是用于蛋白质序列或核酸序列聚类的工具,根据序列的相似度对序列进行聚类以去除冗余的序列,一般用于构建非冗余的数据集用于后续的实验分析。
基本思路是首先对所有序列按照其长度进行排序,然后从最长的序列开始,形成第一个序列类,然后依次对序列进行处理,如果新的序列与已有的序列类的代表序列的相似性在cutoff以上则把该序列加到该序列类中,否则形成新的序列类。

2. 下载与安装

cd-hit下载网址为https://github.com/weizhongli/cdhit/archive/V4.6.2.tar.gz,需要在linux系统(如果你的电脑是Windows的,可以装一个虚拟机,并安装Linux系统 http://c.biancheng.net/view/714.html)下操作。解压压缩包

进入软件所在路径直接输入命令:make,进行编译即可。
3.文件准备

从NCBI官网上下载了三个蛋白质序列作为测试序列。
然后执行cat a.fasta b.fasta c.fasta > all.fasta将序列合并为一个序列。

其中a.fasta,b.fasta,c.fasta为fasta格式的三个样品基因或蛋白序列,all.fasta为汇总后的序列,在分析中作为cd-hit的输入序列。

4.Cd-hit运行、分析

想要执行此命令cd-hit -i all.fasta -o new.fa -c 0.8 -aS 0.8 -d 0
需要先要安装cd-hit,不然会报错。
安装cd-hit的命令:sudo apt install sd-hit
cd-hit运行时用很多参数可以进行调整设置,其运行命令为(参数仅为示例):
cd-hit -i all.fasta -o new.fa -c 0.8 -aS 0.8 -d 0
面简单介绍一下重要的几个参数:
-i:输入文件,fasta格式。
-o:输出文件前缀,输出文件有两个,分别为fasta格式序列文件和以.clstr结尾的聚类信息文件。
-c:较短序列比对到长序列的bp与自身bp数的比值超过该数值则聚类为一组,默认为0.9。
-d:聚类信息文件中各个聚类组中序列名的长度,设为0则将取完整序列名。
-M 16000,16GB RAM。
-T 使用的线程数。
-aL:控制代表序列比对严格程度的参数,默认为0,若设为0.8则表示比对区间要占到代表(长)序列的80%。
-aS:控制短序列比对严格程度的参数,默认为0,若设为0.8则表示比对区间要占到短序列的80%。


cd-hit有两个输出文件:一个是只含有所有代表序列(即去冗余后的序列)的fasta文件,其格式如图:
格式首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息。换行后是序列信息,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。文件中和每一行都不要超过80个字符(通常60个字符)。序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
另一个是以.clstr结尾的聚类信息文件,其格式如图

以“>”开头的是一个聚类组。每组下面按序号排列,如上图中Cluster 1组有2个聚类序列。每个聚类序列有一个百分比或 * ,百分比代表该序列与代表序列的相似度,* 代表该序列即为代表序列。
图中出现的100.00%是因为我使用的a.fasta文件和c.fasta文件的序列是相同的。

CD-HIT去除冗余序列相关推荐

  1. linux cd-hit下载安装,教程 | 如何用cd-hit去除冗余序列?

    原标题:教程 | 如何用cd-hit去除冗余序列? 生信分析中经常要根据指定条件查找相似序列,比如构建多个样品间的非冗余基因集.分析样品间的相似程度等等,cd-hit这款软件就可以用较短的时间解决此类 ...

  2. 教程 | 如何用cd-hit去除冗余序列?

    0.简介 生信分析中经常要根据指定条件查找相似序列,比如构建多个样品间的非冗余基因集.分析样品间的相似程度等等,cd-hit这款软件就可以用较短的时间解决此类问题,可以对单个数据集进行去冗余,包括DN ...

  3. CD-Hit 生信 碱基序列去除冗余的方法

    1.CD-Hit介绍 官方介绍: CD-HIT是一个非常广泛使用的程序,用于蛋白质或核苷酸序列的聚类和比较.最初由李伟忠博士在伯纳姆研究所(现为桑福德伯纳姆医学研究所)亚当·戈兹克博士的实验室开发,C ...

  4. 去除冗余token的DETR效果怎么样?NUS颜水成团队提出端到端的PnP-DETR结构

    ​作者丨happy 编辑丨极市平台 本文原创首发于极市平台,转载请获得授权并标明出处. 原文链接:https://arXiv.org/abs/2109.10852 语言模型与目标检测这种八竿子打不着的 ...

  5. NAR:测序数据鉴别和去除rRNA序列利器RiboDetector

    [编者荐语]: rRNA序列污染是广泛存在于各类高通量测序数据中的.除了在实验建库过程中对文库进行去核糖体的处理,数据分析层面也可通过一些序列比对的策略去除.RiboDetector是邓志罗博士基于深 ...

  6. Log4j2的additivity属性(是否去除冗余日志)

    log4j的additivity属性值默认是设置为true的.可参考其api,地址:http://logging.apache.org/log4j/1.2/apidocs/org/apache/log ...

  7. C语言中PURGE用法,使用Purge_dups去冗余序列

    purge_dups能够根据read深度分析组装中haplotigs和overlaps.相对于另一款purge_haplotigs,它的运行速度更快,而且能够自动确定阈值. purge_dups分为三 ...

  8. ACM基础题 - 去除字符序列中的几个字符

    题目, 除去一串字符串中的"WUB"即可,若该WUB在字符串开头则直接去除,若在字符串中间则更改为一个空格. 程序说明:利用了gets获取了一整行输入的字符串便于处理.利用flag ...

  9. html 清理 多余 样式,webpack去除冗余css样式删除多余css

    webpack打包css时,一般时压缩css,但css有很多用不到类和属性,有什么办法可以除冗余css样式删除多余css,特别是在使用一些bootstrap的前端框架时,可使用purifycss和Pu ...

最新文章

  1. 3.11课·········异常语句与for循环重复
  2. Http://selboo.com.cn
  3. js title 单选框 获取_js简单获取表单中单选按钮值的方法
  4. JAVA的静态代理与动态代理比较--转载
  5. Android ViewRoot、DecorViewWindow浅析
  6. pycharm professional2019.1破解过程
  7. java开发区块链_使用Java语言从零开始创建区块链
  8. python移动文件
  9. 学习 灰色2017.12.08
  10. 【一天一个C++小知识】016:c++11中的lambda表达式
  11. mysql 加速_DBA大牛MySQL优化心得,语句执行加速就是这么简单!
  12. TDD---测试驱动开发(1)
  13. Markdown详细教程+技巧总结
  14. 中南大学2021计算机专硕复试分数线,中南大学2021年考研复试分数线
  15. Unity中的UI相关组件
  16. 红楼梦人物出场顺序统计
  17. android原生打印PDF,HTML;HTML转换为PDF
  18. 告诉我常用的L波段雷达有哪些
  19. c语言文件不兼容,c)出错和链接问题:i386:x86-64输入文件架构,与i386输出不兼容...
  20. CMD恢复LSP及查询

热门文章

  1. 手机天线的现状与未来
  2. 机房动力环境监控管理系统!
  3. 【宁波SEO】网站关键词排名优化到首页的方法
  4. 五、DMSP/OLS、NPP/VIIRS等夜间灯光数据之GDP空间化的渔网建立
  5. 【计算机网络】第二部分 物理层和介质(9) 使用电话网络和有线电视网进行数据传输
  6. asp.net高校勤工俭学助学网
  7. 剪切复制文件不见了能恢复吗?
  8. uva 10862 Connect the Cable Wires
  9. mysql服务器无法停止_MySQL服务在Windows下无法停止和删除的解决办法详解
  10. 什么是营业利润(亿)?