高通量测序中的reads、contig、scaffold
1.什么是read?
高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是读序;就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。PE reads 就是 paired-end reads。在测序过程中,一条DNA分子的两端都可以测序。先测其中的一端,获得一个reads,然后再转到另一端测序,获得另外一个reads。得到的这两个reads就是PE reads。PE reads 的获得有助于后期序列组装。
2.什么是contig?
有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig,它们是(片段)重叠群;就是不同reads之间的overlap(交叠区),拼接成的序列就是contig。
Contig N50:Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准。
3.什么是scaffold?
多个contigs通过片段重叠,组成一个更长的scaffold,中文中有脚手架的含义;是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
Scaffold N50:Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.将所有的Scaffold长度相加,能获得一个Scaffold总长度.然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25.将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50.举例:Scaffold 1+Scaffold 2+ Scaffold3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50.Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准.
一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;
多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene。
高通量测序中的reads、contig、scaffold相关推荐
- 高通量测序中常见名词解释
测序数据量: 常见的测序量概念有 M 和 G ,for example 10M 和 10G 解释: M 常用于描述reads 的数量. 例如 10M 就是 10 *10^6 条reads G 常用 ...
- 高通量测序技术和序列拼接算法探析
高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘 要: 高通量测序 (High-throughput Sequen ...
- mysql like反义_[转载]关于小RNA高通量测序数据分析方法的研究
1 引言 小RNA(small RNAs)主要指长度在18-30nt的一类非编码RNA(ncRNAs),在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNAs,miRNAs) ...
- 高通量测序的数据处理与分析指北(一)_network
原理介绍篇 前言 最近正在学习如何处理高通量测序的数据,我认为要处理高通量测序数,那么对测序原理要有一个清晰的认识,本篇文章介绍了sanger测序,二代测序的测序原理 1. sanger测序 要了解二 ...
- 从NCBI当中SRA数据库中下载高通量测序数据
从NCBI当中SRA数据库中下载高通量测序数据 NCBI sra 数据下载 用迅雷替代官方的prefetch批量下载SRA测序数据,更快更稳定! 用别人的数据,发自己的文章 由于大多数杂志在文章发表前 ...
- 高通量测序在物种鉴定中的应用
什么是高通量测序技术? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测 ...
- NGS项目四:高通量测序在植物生物胁迫研究中的应用
在植物生物胁迫研究方面,本文通过作者所精密相关课题组的研究,比较传统研究方法和高通量测序方法的优劣. Sun X, Tan Q, Nie Z,et al. Differential Expressio ...
- 生物信息学(高通量测序)名词
什么是高通量测序 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, ...
- 测序总结,高通量测序名词
主要来自 :http://mp.weixin.qq.com/s/iTnsYajtHsbieGILGpUYgQ 测序的黄金标准:一代测序了,故称之为黄金测序. 高通量测序最近这几年很火越来越火,但是世界 ...
最新文章
- GitLab 8.7发布
- Java矩阵计算之EJML
- Google、Facebook、亚马逊、Uber等硅谷顶尖AI专家团北京聚首 ,这场AI开发者盛会不可错过
- 单片机8位抢答器实训机电报告_CD4511八路抢答器实验报告-
- IDEA运行Tomcat8.5.73源码
- 【Leetcode | easy】反转整数
- gen already exists but is not a source folder
- 在微型计算机中8m,第一部分 计算机基础知识部分习题(答案)
- Honey Tree(超好用的样板代码管理工具)
- try catch中getRequestDispatcher跳转
- QCC3005芯片 Line IN 听歌的时候声音比较小
- 基于ATMEGA128单片机的播种机控制系统
- 微信公众号唤起微信支付
- DOGCOM路由器K2(7620A)for哆点(DRCOM)校园网-西安石油大学
- 计算机重命名怎样操作,如何对计算机/电脑进行重命名操作?
- Room 使用解析(2.4.2 版本)
- CSA标准|《物联网安全规范》(征求意见稿)意见征集
- 统计学习方法 学习笔记(1)统计学习方法及监督学习理论
- 线性代数 --- 三种计算矩阵的行列式的方法之二 莱布尼兹展开法(个人笔记扫描版)
- SELCO T2900.0010有一种保护器叫幸福
热门文章
- css背景颜色占全部屏幕,css怎样让背景充满整个屏幕
- wepy 小程序 echarts 搭配使用
- Tda4-IPC驱动
- 计算机应用基础总体目标,《计算机应用基础》整体设计
- 射频功率放大器在超声导波技术管道损伤检测研究中的应用
- 苹果手机输入屏保后锁屏_苹果手机如何设置锁屏密码?
- java毕业设计城市公交查询系统Mybatis+系统+数据库+调试部署
- 江苏计算机二级vc,江苏计算机二级(VC++)上机考试分析与策略
- RFID、NFC、ETC技术浅析
- 欢迎使飞飞飞用CSDN-markdown编辑器