2020.12.10【读书笔记】丨基因组De novo 产品介绍
- 基因组De novo 简介
- 基因组
- 定义:基因组就是物种所含有的一套遗传物质 单倍体 细胞核、 细胞器所 含的全部 DNA 分子),包括全套基因和间隔序列。
- 基因组观察维度
- 基因组测序
- 基因组测序( Genome Sequencing)
- 利用测序技术对物种的体内的所有 DNA 分子进行测序,获取碱基组成明确出基因的结构信息,外显子及内含子区域、启动子位置,以及基因的排列顺序及功能。
- 基因组测序技术
- 二代测序:基于 BGI 平台的边合成边测序;
- 三代测序:基于 PacBio 平台的单分子实时测序。
- 基因组测序原理
- 通过对基因组 DNA 序列进行打断处理,制作成可以识别或读取的 DNA 形式及大小,利用荧光标记对每个碱基信号进行读取,进而获得 DNA 序列信息。
- 基因组测序( Genome Sequencing)
- 基因组De novo概述
- 基因组 de novo ,又称为基因组从头测序,是指对基因组序列未知 (或仅有基因组草图)的物种进行全基因组测序,然后进行拼装,从而得到该物种的全基因组序列,为后续功能基因挖掘、调控代谢网络构建、物种进化分析等奠定基础。
- 基因组 de novo分析流程
- 基因组
- Survey分析
- 简介
- 基因组 Survey 基于小片段文库的低深度测序数据( 50X 100X
- 通过 K mer 分析,有效的评估基因组大小、 GC 含量、杂合度以及重复序列的含量等信息;
- 全面了解某一物种基因组特征的有效方法;
- 为后续的全基因组 de novo 测序的组装策略的制定提供理论依据。
- 分析内容
- 名词定义
- 1.普通基因组的定义?
- 单倍体,纯合二倍体或者杂合度< 0.5%,且重复序列含量 < GC 含量为 35% 到 65% 之间的二倍体。
- 2.复杂基因组的定义?
- 杂合率>0.5%,重复序列含量 50%,多倍体 GC 含量处于异常的范围( GC 含量< 35% 或者 GC 含量> 65% 的二倍体)。
- 3.二倍体复杂基因组进一步细分为
- 微杂合基因组(0.5%<杂合率 <=0.8%)
- 高杂合基因组(杂合率>0.8%)
- 高重复基因组(重复序列比例> 50%)。
- 4.基因组大小: 基因组越大,测序花的钱越多
- 1.普通基因组的定义?
- 案例展示
- 二倍体
- 三倍体
- 三倍体是 1:2:3 。
- 2 和 3 如果深度低可能重叠在一起
- 异源四倍体
- 异源四倍体主要只有 2 个峰,呈现 1:2 的关系
- 和常见的高重复二倍体峰形一致。
- 同源四倍体
- 同源四倍体的峰就是 1 2 3 4 ,其中 3 和 4 经常重叠在一起
- 常见问题
- 为什么一定要做Survey
- Survey是评估基因组的有效手段,对于没有参考基因组的物种,在启动 Denovo 项目之前,对基因组特征评估是十分必要的,基因组的大小及复杂状况直接影响到价格、周期以及后续的组装方案等。
- Survey评估和流式细胞仪评估有什么区别?
- 两者都可以对基因组的大小进行评估,Survey 评估中的 Kmer 分析是从数学角度上进行分析的,得到的信息更为全面和准确。而流式则是通过实验的手段,主要通过已知内参物种基因组大小来评估被测物种的基因组大小。由于内参选择不同,实验预估基因组大小与实际会有一些偏差。
- 做了基因组Survey 是否就一定不用做流式了呢?
- 不是。我们一般建议老师在做Survey 之前先做一下流式对基因组大小有个初步的预估。原因如下: Kmer 分析中,我们把 Kmer 分布最多的峰为主峰,主峰前的 1/2 的峰称为杂合峰,把主峰后 2 倍的位置的峰称为重复峰。这时我们需要流式的结果来对我们的判断进行验证。根据不同峰计算的基因组大小不同,哪个和流式结果更加吻合哪个即是主峰。
- 为什么一定要做Survey
- 简介
- 基因组组装、注释
- 基本概念和原理
- 分析流程
- 常用软件
- CANU
- MECAT
- FALCON
- 不同软件结果比对
- 从项目周期、组装结果、资源消耗等方面综合来看,我们首选Mecat 2 进行基因组组装。
- Hi-C辅助组装
- Hi-C数据的一般规律:
- 优势:
- 组装结果评估
- 组装完整性(三代数据回比)、BUSCO评估
- 为了评估组装的完整性和测序覆盖的均匀性, 选择 CLR (Continuous Long Reads) subreads ,使用比对工具 Minimap2 v2.5 默认参数)比对回组装好的基因组,统计 reads 的比对率、覆盖基因组的程度以及深度的分布情况,由此评估组装的完整性和测序覆盖的均匀性,结果如下表所示。
- 比对结果
- 比对结果
- 基于OrthoDB 中的单拷贝同源基因集,使用 BUSCO V3.0.2 )预测这些基因并统计其完整度,碎片化程度及可能的丢失率。由此评估整个组装结果中基因区的完整性。本次评估采用的 BUSCO 基因集为。BUSCO评估结果如下表所示。
- 为了评估组装的完整性和测序覆盖的均匀性, 选择 CLR (Continuous Long Reads) subreads ,使用比对工具 Minimap2 v2.5 默认参数)比对回组装好的基因组,统计 reads 的比对率、覆盖基因组的程度以及深度的分布情况,由此评估组装的完整性和测序覆盖的均匀性,结果如下表所示。
- 组装准确性(二代数据回比)
- 基因组注释
- 分析流程及相关工具
- 注释方法
- 重复序列注释
- 基因结构注释
- 基因功能注释
- 非编码RNA注释结果统计
- 分析流程及相关工具
- 圈图展示结果
- 圈图
注:从外到内依次为基因密度、
重复序列占比、非编码 RNA 注释、
GC 含量,颜色越深代表值越大。
- 圈图
- 组装完整性(三代数据回比)、BUSCO评估
- 基本概念和原理
- 比较基因组学分析
- 分析流程(绿色为比较基因组学)
- 基因家族聚类
- 系统进化树
- 物种分歧时间估算
- 基因家族扩张收缩分析
- 正选择分析
- 共线性分析
- 共线性片段是指同一个物种内部或者两个物种之间由于复制或者物种分化而产生的大片段的同源现象。两个物种中,同源基因在基因座位上的连锁及顺序保守性成为基因组共线性,共线性分析为近缘物种之间重要基因的研究提供了便利。
- 1
- 2
- 从宏观上显示基因组水平的插入、缺失、易位和 倒位,可用于确定祖先物种、近缘物种的变异特征等。
- 全基因组复制分析
- 共线性区段所包含的基因对的4DTV 值 ( The rate of transversions on 4 fold degenerate synonymous sites) 4dTV 可反映物种在进化史中的物种相对分化事件以及全基因组复制 事件 。
- WGD
- WGD之后,小部分有利于物种进化的基因被保留,而大多数冗余的基因会消失或变成 假基因。因此,根据 WGD ,可用于研究基因组的特征及进化分歧事件等。
- 个性化分析-泛基因组
- 发展历程
- 分析内容
- 与de novo、比较基因组的关系
- 发展历程
- 分析流程(绿色为比较基因组学)
2020.12.10【读书笔记】丨基因组De novo 产品介绍相关推荐
- 2020.12.10【读书笔记】丨Survey二代数据质控
为什么进行Survey 分析? Survey方案 通过质控 . NT 比 对,获得高质量的 clean data ,为后续分析奠定良好基础. 基因组 Survey 基于小片段文库的低深度测序数据( 5 ...
- 一文搞定细菌基因组De Novo测序分析
本文转自基因的生物信息学分析,链接 https://mp.weixin.qq.com/s/xWOlv5WVJ7LwTuRQDXmGzg 以一个细菌的测序数据为例子,介绍细菌基因组测序分析流程.本次实验 ...
- Nanopore测序在基因组 de novo中的应用
Nanopore测序在基因组 de novo中的应用 自1977年第一代sanger测序问世来,经过几十年的发展,测序技术得到了极大的发展. 从第一代测序到第二代测序再到第三代测序,测序技术的每一次变 ...
- 三代测序之微生物基因组 de novo 测序
三代测序之微生物基因组 de novo 测序 2016-05-20 编辑:诺禾致源 微生物基因组 de novo 测序 产品优势 • 单分子,长序列,完美跨越细菌全部重复单元 • 真菌 20Kb ...
- 12篇读书笔记系列-1、置身事内
导语:当今社会短视频横行,导致全民专注力下降:年关将近,我回顾近几年看过的书籍,竟没有一本能简要复述,不能回想起获取了作者的哪些观点,更别提对作者观点的升华:所以,接下来的12本书,我强迫自己静下心来 ...
- 2020.12.10丨cufflinks 简介及使用说明
一. 简介 Cufflinks下主要包含cufflinks,cuffmerge,cuffcompare和cuffdiff等几支主要的程序.主要用于基因表达量的计算和差异表达基因的寻找. Cufflin ...
- 12篇读书笔记系列-4、启功给你讲书法-已读完
导语:当今社会短视频横行,导致全民专注力下降:年关将近,我回顾近几年看过的书籍,竟没有一本能简要复述,不能回想起获取了作者的哪些观点,更别提对作者观点的升华:所以,接下来的12本书,我强迫自己静下心来 ...
- 12篇读书笔记系列-3、旋元佑文法
导语:当今社会短视频横行,导致全民专注力下降:年关将近,我回顾近几年看过的书籍,竟没有一本能简要复述,不能回想起获取了作者的哪些观点,更别提对作者观点的升华:所以,接下来的12本书,我强迫自己静下心来 ...
- 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY4
日期:2022年7月24日 内容:第四章数据仓库理论与应用(p77-p104) 4.1 了解大数据基础Hadoop 一.Hadoop及三驾马车 01.什么是hadoop? Hadoop是一个分布式系统 ...
最新文章
- c语言游戏call调用,C语言-植物大战僵尸-刷僵尸call;fps游戏CS-方框透视(矩阵+传统)...
- linux/windows下安装scala
- torch same padding
- Android 应用交互框架浅析
- Spring Boot核心配置
- Feign api调用方式
- CoreImage使用介绍
- matplotlib.pyplot.hist(柱状图)
- mysql 存储过程死循环的关闭
- python多线程爬虫界面_Python实现贴吧多线程网盘爬虫
- SQL执行insert into后返回主键ID
- 计算机在线拥有,电路在线计算器
- 鸿蒙系统和全屋智能,不断升级“常用常新” 搭载鸿蒙系统的全屋智能有多酷?...
- C#实现对即插U盘文件的自动拷贝
- 51定时器PWM调节
- 01-locale-fix.sh的/usr/bin/locale-check: No such file or directory解决 Ubuntu 18.04 20.04
- ios开发的p12和provision
- 斑马电商云品牌发布会就是一群有梦想的人在搞事情
- Luogu 3807(Lucas定理)
- 【邀请函】2018年医院绩效改革方案构建与落地实践成果分享会