1.什么是read?

高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是读序;就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。PE reads 就是 paired-end reads。在测序过程中,一条DNA分子的两端都可以测序。先测其中的一端,获得一个reads,然后再转到另一端测序,获得另外一个reads。得到的这两个reads就是PE reads。PE reads 的获得有助于后期序列组装。

2.什么是contig?

有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig,它们是(片段)重叠群;就是不同reads之间的overlap(交叠区),拼接成的序列就是contig。

Contig N50:Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准。

3.什么是scaffold?

多个contigs通过片段重叠,组成一个更长的scaffold,中文中有脚手架的含义;是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

Scaffold N50:Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.将所有的Scaffold长度相加,能获得一个Scaffold总长度.然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25.将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50.举例:Scaffold 1+Scaffold 2+ Scaffold3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50.Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准.

一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton

多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene。

高通量测序中的reads、contig、scaffold相关推荐

  1. 高通量测序中常见名词解释

    测序数据量: 常见的测序量概念有 M 和 G ,for example  10M  和 10G 解释: M 常用于描述reads 的数量. 例如 10M 就是 10 *10^6 条reads G 常用 ...

  2. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

  3. mysql like反义_[转载]关于小RNA高通量测序数据分析方法的研究

    1 引言 小RNA(small RNAs)主要指长度在18-30nt的一类非编码RNA(ncRNAs),在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNAs,miRNAs) ...

  4. 高通量测序的数据处理与分析指北(一)_network

    原理介绍篇 前言 最近正在学习如何处理高通量测序的数据,我认为要处理高通量测序数,那么对测序原理要有一个清晰的认识,本篇文章介绍了sanger测序,二代测序的测序原理 1. sanger测序 要了解二 ...

  5. 从NCBI当中SRA数据库中下载高通量测序数据

    从NCBI当中SRA数据库中下载高通量测序数据 NCBI sra 数据下载 用迅雷替代官方的prefetch批量下载SRA测序数据,更快更稳定! 用别人的数据,发自己的文章 由于大多数杂志在文章发表前 ...

  6. 高通量测序在物种鉴定中的应用

    什么是高通量测序技术? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测 ...

  7. NGS项目四:高通量测序在植物生物胁迫研究中的应用

    在植物生物胁迫研究方面,本文通过作者所精密相关课题组的研究,比较传统研究方法和高通量测序方法的优劣. Sun X, Tan Q, Nie Z,et al. Differential Expressio ...

  8. 生物信息学(高通量测序)名词

    什么是高通量测序 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, ...

  9. 测序总结,高通量测序名词

    主要来自 :http://mp.weixin.qq.com/s/iTnsYajtHsbieGILGpUYgQ 测序的黄金标准:一代测序了,故称之为黄金测序. 高通量测序最近这几年很火越来越火,但是世界 ...

最新文章

  1. GitLab 8.7发布
  2. Java矩阵计算之EJML
  3. Google、Facebook、亚马逊、Uber等硅谷顶尖AI专家团北京聚首 ,这场AI开发者盛会不可错过
  4. 单片机8位抢答器实训机电报告_CD4511八路抢答器实验报告-
  5. IDEA运行Tomcat8.5.73源码
  6. 【Leetcode | easy】反转整数
  7. gen already exists but is not a source folder
  8. 在微型计算机中8m,第一部分 计算机基础知识部分习题(答案)
  9. Honey Tree(超好用的样板代码管理工具)
  10. try catch中getRequestDispatcher跳转
  11. QCC3005芯片 Line IN 听歌的时候声音比较小
  12. 基于ATMEGA128单片机的播种机控制系统
  13. 微信公众号唤起微信支付
  14. DOGCOM路由器K2(7620A)for哆点(DRCOM)校园网-西安石油大学
  15. 计算机重命名怎样操作,如何对计算机/电脑进行重命名操作?
  16. Room 使用解析(2.4.2 版本)
  17. CSA标准|《物联网安全规范》(征求意见稿)意见征集
  18. 统计学习方法 学习笔记(1)统计学习方法及监督学习理论
  19. 线性代数 --- 三种计算矩阵的行列式的方法之二 莱布尼兹展开法(个人笔记扫描版)
  20. SELCO T2900.0010有一种保护器叫幸福

热门文章

  1. css背景颜色占全部屏幕,css怎样让背景充满整个屏幕
  2. wepy 小程序 echarts 搭配使用
  3. Tda4-IPC驱动
  4. 计算机应用基础总体目标,《计算机应用基础》整体设计
  5. 射频功率放大器在超声导波技术管道损伤检测研究中的应用
  6. 苹果手机输入屏保后锁屏_苹果手机如何设置锁屏密码?
  7. java毕业设计城市公交查询系统Mybatis+系统+数据库+调试部署
  8. 江苏计算机二级vc,江苏计算机二级(VC++)上机考试分析与策略
  9. RFID、NFC、ETC技术浅析
  10. 欢迎使飞飞飞用CSDN-markdown编辑器