基因组浏览器使用 (EPGG)
基因组浏览器是高通量测序分析的一个重要的可视化工具。相比于最终提供的表格,基因组浏览器可以提供更多的信息,如直观展示突变位点、查看有无新转录本或新的可变剪接形式、查看peak的可信度、上下游基因、区域保守性、重复元件、蛋白结合motif等。
我们前面有测序数据可视化列举了4个常用的高通量数据可视化工具,详细介绍了IGV基因组浏览器可视化高通量测序数据和UCSC 基因组浏览器的安装使用。
最近几次将以华盛顿大学(DC)开发的EPGG基因组浏览器为主要工具 (目前主流浏览器之一,不同的功能更新分别发表于NBT, Nature method等杂志),介绍下基因组浏览器的基本展示内容、各部分含义、使用方式等。
基因组浏览器都可以按照位置或基因名字搜索,可进行局部放大和缩小。虽然每个软件略有不同,但基本操作是通用的。点一点,拽一拽,就都能用了。初次接触一个软件,多一点耐心,多一点操作,其实没那么难。
基因信息展示包含基因的转录方向信息 (箭头),基因结构信息 (CDS, UTR, intron),基因功能描述信息等。方向信息对我们识别转录起始位点及启动子区域和启动子上的ChIP peak至关重要。
另外还有个功能,基因只在基因组占1%,浏览起来不方便,Juxtapose模式可以只显示基因区,其它区域隐藏,这样截图或浏览起来都更方便。
重复元件是我们做分析时需要关注的一个点,最近Cell文章发现 LINE元件 (A LINE-1-Nucleolin Patnership Regulates Early Development and ESC Identity)是胚胎发育的关键。如果我们的数据能在某个重复元件上有特殊分布,也可能催生重要发现呢。
“峰图”是最常见的展示形式,reads的分布有高有低,在基因组上形成层恋叠嶂的山峰状。峰顶表示对应区域的表达、修饰或结合比较高。
除了峰形图,也可以展示热图、线图等。
数值Track支持的数据一般是bigWig格式,在不同浏览器之间通用。不同Track之间比较时需要先对数据做标准化,也需要设置同等大小的Y轴。数据可以进行一定程度的拟合,使得结果更清晰 (图中的Smooth window)。
这个线图常用于比较富集样品和对照样品,或比较不同样品之间的表达量高低等。把2个Track放到一起展示,高低立见。UCSC genome browser也有类似功能,而且展示效果更好,我们前面也已提过。
EPGG特有的甲基化数据展示,给定每个位点测序深度,CG甲基化比例,CHH,CHG甲基化比例等。还可以在线过滤,筛选不同支持reads数的甲基化位点,更有动态性。是甲基化分析的必备神器。
染色体的三维结构研究越来越多,用途也越来越大。关联SNP位点的功能,寻找enhancer的靶基因,基因组区域互作,都可以通过Hi-C数据提供更多支持信息。EPGG可以用互作热图或loop连线两种方式展示区域之间的互作。
互作热图的识别方式是:如果要看位点A和位点B之间是否有互作,只需在正负45度方向画一条线,查看线是否有交点和交点处颜色强弱即可判断。
还有圈图形式,从宏观展示某个位点与基因组其它区域的互作。
SNP位点展示及连锁不平衡展示,这也是EPGG的特有功能。可视化与Hi-C染色体互作类似。
下一步将讲一下EPGG支持的物种,自带数据和分析功能,以更方便使用。
EPGG支持的物种有人、小鼠、大鼠、猴子、猪、狗、猩猩、鸡、斑马鱼、果蝇、线虫、拟南芥、玉米、大豆、白菜、酵母等,也可以把自己的基因组整理成所需要的格式,导入EPGG使用。
模式生物有比较多的高通量测序研究的大项目,如TCGA,Roadmap,ENCODE等和染色体三维结构或互作 Hi-C、ChIA-PET研究等公共数据,可以直接点击Load加载,然后再选择关注的样品或数据类型,导入浏览器查看。
加载好,Track选择界面如下,可以点击+进一步展开,选择对应数据。
更多Track操作见下图,也可以导入自己的Track (小文件直接上传,大文件提供可访问的链接)。
文件上传界面如下:
Track多了,分组就是问题。EPGG提供右侧的Metadata colormap,用不同的颜色块区分样品和测序类型等,鼠标悬浮会有文字提示,是很方便的功能。
看到需要的结果,可以存储下来,放到文章的图中。
也可以分享给老师、同学、合作者们。
EPGG还提供了很多实用的分析功能,如下图:
同时展示多个基因在多个样品的表达或修饰状态
基因组浏览器分成2个panel,对比展示区域。类似于基因集展示,但更灵活。
只展示基因区,移除基因间区,更方便浏览。
染色体范围的Track分布。
同源基因、同源区域展示,两物种共线性基因组联动。
两个数值Track在给定区域的比较,比如看启动子区H3K4me1和K3K27me3的结合,识别Bivalent promoter。
TSS上下游区域H3K4me1, H3K27me3等修饰或TF结合图谱绘制
Roadmap数据专用展示。
访问链接:http://epigenomegateway.wustl.edu/browser/
生物信息博客 http://www.blog.genesino.com
基因组浏览器使用 (EPGG)相关推荐
- 高通量数据分析必备|基因组浏览器使用介绍 - 1
基因组浏览器是高通量测序分析的一个重要的可视化工具.相比于最终提供的表格,基因组浏览器可以提供更多的信息,如直观展示突变位点.查看有无新转录本或新的可变剪接形式.查看peak的可信度.上下游基因.区域 ...
- 基因组浏览器IGV的安装和图形解读
IGV (Itegrative Genomics Viewer)是一款功能强大的综合性基因组学可视化工具,能够将基因组的变异情况进行可视化,因此广泛应用于基因组学的研究中.IGV的开发得到了美国国立癌 ...
- 本地安装UCSC基因组浏览器
UCSC基因组浏览器在大规模高通量数据的可视化和比较分析研究中发挥着重要的作用.拥有了本地浏览器,就可以对自己的测序数据进行更深入的分析和共享使用.本文详细介绍了如何一步步在本地安装.配置.高级使用U ...
- 生信格式 | bigwig,bw (基因组浏览器绘制)
文章目录 一.特点及适用场景: 二.wig 转 bigwig 三.bedGraph 转 bigwig 四.其他工具 一.特点及适用场景: 存放区间的坐标轴信息(如染色质可及性,转录因子结合区域)和相关 ...
- 生信格式 | wig(基因组浏览器绘制)
文章目录 介绍 一.variableStep 格式 1.特点及适用场景: 2.格式: 3.例子: 二.fixedStep 格式 1.特点及适用场景: 2.格式: 3.例子: 三.数据值 例子 Wig, ...
- 生信格式 | BedGraph(基因组浏览器绘制)
一.特点及适用场景: 存放区间的坐标轴信息和相关评分(score)的文件,主要用于存储稀疏,不连续的数据 后缀名.bedGraph 一般UCSC不建议采用该格式作为基因组浏览器输入文件,因为考虑到数据 ...
- 保姆级 IGV 基因组浏览器使用指南(图文详解)
一.软件下载 http://software.broadinstitute.org/software/igv/download 这里以下载 Windows 版本为例,下载带有 Java 的版本,方便安 ...
- 基因组浏览器 JBrowser 安装
1.安装必要的开发包 Ubuntu 执行 sudo apt install build-essential zlib1g-dev CentOS/RedHat 执行 sudo yum groupinst ...
- MPB:华大孙海汐等-从细菌基因组中预测活性前噬菌体工具Prophage Hunter的使用流程和常见问题...
为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...
最新文章
- 以30字符宽居中输出python字符串_python3字符串
- 视觉SLAM笔记(46) 基本的 VO
- Linux 环境变量配置总结
- android 蓝牙读取数据格式,解析Android蓝牙数据包
- 图片验证码的测试用例梳理
- 电话面试的技巧和注意事项
- 互联网公司招聘--奇虎360--软件测试--笔试题
- warning: control reaches end of non-void function(C语言编译报错)
- 小火狐进化_神奇宝贝御三家还是原来的最可爱?新的三只也不差
- 2020福州大学计算机录取名单,福州大学数学与计算机科学/软件学院2020年硕士研究生招生复试结果(第二批非全日制公示)...
- 自恋的人脑袋有啥不一样?| 自恋型人格特质和前额脑结构
- Luogu P1197
- 莫安迪2019平面设计作品展示
- 7天物联网智能家居实战训练营(百问网)-day1
- [听风]TBC单体插件头像显示ShadowedUnitFrames
- arcgis for js4二维地图比例尺
- 有关session生命周期
- Booth编码乘法器以及测试代码
- Oracle Clob类型和Blob类型之间的转换
- Word 同时设置中文字体和英文字体