cd-hit 去冗余
下载:http://www.bioinformatics.org/cd-hit/
背景:生信分析中经常要根据指定条件查找相似序列,比如构建多个样品间的非冗余基因集、分析样品间的相似程度。
cd-hit 去冗余,也可以叫做相似序列的聚类
工作原理可概述为:将所有序列按照参数设定进行聚类,并将每一组聚类中的最长序列作为代表序列进行输出,同时给出每组聚类下的每个序列名可供相似度分析使用。其中设定阈值需要注意(默认相似性在0.9)
简要的使用:
eg:蛋白序列的去冗余
cd-hit -i all.prot.fa -o all.nr.prot.fa -M 0 -T 24
说明:
软件:cd-hit
参数:基本默认
-i :预测的蛋白序列
-o :输出文件
-M :分配的内存
-T :线程数
-c :相似性阈值,默认值为0.9
输出结果:
去除冗余后的蛋白序列
对于核酸的去冗余,建议使用cd-hit-est (速度快,去冗余效果更明显),使用方法同上;
参考:http://blog.sina.com.cn/s/blog_670445240101nidy.html
https://www.sohu.com/a/190353140_785442
cd-hit 去冗余相关推荐
- 扩增子分析解读3格式转换,去冗余,聚类
本网对Markdown排版支持较差,请跳转"宏基因组"公众号阅读: 写在前面 之前发布的<扩增子图表解读>系列,相信关注过我的朋友大部分都看过了(链接直达7月文章目录) ...
- drep:微生物基因组快速去冗余-文章解读+帮助文档+实战教程
在微生物分离培养.分箱中获得的大量的基因组.宏基因组拼接的基因组(MAG),如何确定到底有多少种非冗余的细菌基因组呢? 来自加州大学伯克利分校Jillian F Banfield组开发的dRep可以帮 ...
- drep:微生物基因组快速去冗余-文章解读+帮助文档+实战
在微生物分离培养.分箱中获得的大量的基因组.宏基因组拼接的基因组(MAG),如何确定到底有多少种非冗余的细菌基因组呢? 来自加州大学伯克利分校Jillian F Banfield组开发的dRep可以帮 ...
- 安装生物序列去冗余软件cd-hit
cd-hit是一款生信常用于序列去冗余的工具,在https://github.com/weizhongli/cdhit下载后,需要自己编译,对于windows系统,工作步骤如下(以下以windows ...
- 对表型数据框进行去冗余 phe 表型信息提取 临床信息提取 自建函数提取 种方法数据框里面进行取子集操作,坐标、列名和逻辑判断每列满足某个要求每行满足某个要求按条件筛选数据库dataframe
NA 去掉删除多余的na 向量是否存在两个以及两个以上等于0的值 na NA 如何计算R中向量中大于某个值的元素数量 R如何按条件查找数据并删除符合条件的数据所在的行 判定一个向量是否包含0这个元素_ ...
- 7、purge_haplogs 基因组去冗余
1.下载安装 https://bitbucket.org/mroachawri/purge_haplotigs/wiki/Install 1.Dependencies (in no particula ...
- C语言中PURGE用法,使用Purge_dups去冗余序列
purge_dups能够根据read深度分析组装中haplotigs和overlaps.相对于另一款purge_haplotigs,它的运行速度更快,而且能够自动确定阈值. purge_dups分为三 ...
- csvtk:表格处理神器-美化、统计、头表、合并、转置、筛选、取样、去冗余 、分列、分类汇总和简单绘图...
写在前面 CSV/TSV作为数据科学和组学分析的基本格式,其实本质上均为txt格式的表格,CSV是按逗号分隔,TSV是以制表符分隔的表格.这两种格式数据格式应用非常广泛.比较常用的处理软件包括: Ex ...
- 一站解决:如何用cd-hit去低于30%的冗余(资源见百度云链接)
一站解决:如何用cd-hit去低于30%的冗余(资源见百度云链接) 环境 简介 遇到的问题 使用流程 百度云链接 运行代码举例 环境 cd-hit-v4.8.1 Linux 简介 一般情况下我们使用c ...
最新文章
- python爬虫实例电商_价值上千元的Python爬虫外包案例,学会你就赚了
- 设置span的宽度,让span象button那样显示
- ios 开发框架原始雏形 01
- 盘点66个Pandas函数,轻松搞定“数据清洗”!
- jQuery ajax模板及各参数介绍
- React的组件模式 1
- 电商年底年终促销页面,这种创意你收好
- Linux学习笔记---使用MfgTool工具烧写自己的系统(二)
- MDC功能软件-感知融合算法介绍
- linux环境下启动git,linux系统安装git及git常用命令
- POJ 2528 线段树 成段更新+【离散化】 贴海报.cpp
- linux 修改文件夹权限_Linux新手非常实用的20个命令
- 北京集训TEST12——PA( Mortal Kombat)
- Doris开启Stream Load记录
- 软件测试需要学什么?全网最全软件测试必备7大技能详解,摇身一变资深测试
- oracle数据库 日期函数用法
- C/C++ 项目必读:代码格式化和静态分析检查的一站式工作流 Cpp Linter
- 项目实战:基于 TCP 的局域网内高性能文件传输系统设计与实现
- 错失恐惧:铸造「区块链巴别塔」的原始动力
- python 文件上传 web_pythonweb自动化三种文件上传方法