一、摘要

实验旨在了解Chip-seq的基本原理。通过模仿文献《Targeting super enhancer associated oncogenes in oesophageal squamous cell carcinoma》的流程,学会利用NCBI和EBI数据库下载数据,熟悉Linux下的基本操作,并使用R语言画图,用Python或者shell写脚本进行基本的数据处理,通过FastQC、Bowtie、Macs、samtools、ROSE等软件进行数据处理,并对预测结果进行分析讨论。

二、材料

1、硬件平台

处理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz 2.50GHz

安装内存(RAM):16.0GB

2、系统平台

Windows 8.1,Ubuntu

3、软件平台

① Aspera connect ② FastQC ③ Bowtie

④ Macs 1.4.2 ⑤ IGV ⑥ ROSE

4、数据库资源

NCBI数据库:https://www.ncbi.nlm.nih.gov/;

EBI数据库:http://www.ebi.ac.uk/;

5、研究对象

加入H3K27Ac 抗体处理过的TE7细胞系测序数据和其空白对照组

加入H3K27Ac 抗体处理过的KYSE510细胞系和其空白对照组

背景简介:食管鳞状细胞癌(OSCC)是一种侵袭性的恶性肿瘤,本文章通过高通量小分子抑制剂进行筛选,发现了一个高度有效的抗癌物,特异性的CDK7抑制剂THZ1。RNA-Seq显示,低剂量THZ1会对一些致癌基因的产生选择性抑制作用,而且,对这些THZ1敏感的基因组功能的进一步表征表明他们经常与超级增强子结合(SE)。ChIP-seq解读在OSCC细胞中,CDK7的抑制作用的机制。

本文亮点:确定了在OSCC细胞中SE的位置,以及识别出许多SE有关的调节元件;并且发现小分子THZ1特异性抑制SE有关的转录,显示强大的抗癌性。

文章PMID: 27196599

三、方法

实验数据获取流程如下:

数据分析流程图如下:

1、Aspera软件下载及安装

进入Aspera官网的Downloads界面,选中aspera connect server,点击Wwindows图标,选择v3.6.2版本,点击Download进行下载。

图表 1 aspera的下载

Linux下的安装配置参考博文:

http://blog.csdn.net/likelet/article/details/8226368

2、Chip-Seq数据下载

1)选择NCBI的GEO DataSets数据库,输入GSE76861,打开GSM2039110、GSM2039111、2039112、GSM2039113获取它们对应的SRX序列号。

图表 2 Chip-seq数据

图表 3 获取SRA编号

2)进入EBI,获取ascp下载地址

图表 4 ascp下载地址

3)使用aspera下载并解压

aspera下载命令及gunzip解压命令(nohup+命令+&可以后台运行)

3、FastQC质量检查

3.1 FastQC的安装

Ubuntu软件包内自带Fastqc

故安装命令apt-get install fastqc

3.2 使用FastQC进行质量检查

fastqc命令:

fastqc -o . -t 5 -f fastq SRR3101251.fastq &

-o . 将结果输出到当前目录

-t 5 表示开5个线程运行

-f fastq SRR3101251.fastq 表示输入的文件

(要分别对四个fastq文件执行四次)

4、使用Bowtie对Reads进行Mapping

4.1 Bowtie的安装

Ubuntu软件包内自带bowtie

故安装命令apt-get install bowtie

4.2 下载人类参考基因组

文献说序列比对到了人类参考基因组GRCh37/hg19上

bowtie官网上面有人类参考基因组hg19已经建好索引的文件

图表 5 bowtie hg19建好的索引

再执行解压缩命令:unzip hg19.ebwt.zip

4.3 使用bowtie进行比对

bowtie命令:

5、MACS寻找Peak富集区

5.1 Macs14的安装

至刘小乐实验室网站下载http://liulab.dfci.harvard.edu/MACS/Download.html

解压后,切换到文件夹目录,执行

python setup.py install

5.2 使用Macs建模,寻找Peaks富集区

MACS命令:

6、IGV可视化

6.1数据正规化normalised

编写python程序对wig文件进行normalised

对TE7_H3K27Ac和KYSE510_H3K27Ac的wig文件(即MACS后生成的treat文件夹里的wig文件)计算RPM

RPM公式:(某位置的reads数目÷所有染色体上总reads数目)×1000000

6.2 使用wigToBigWig转化格式

6.3安装IGV(Integrative Genomics Viewer)对结果可视化

从IGV官网下载windows版本http://software.broadinstitute.org/software/igv/download根据提示安装

直接点击打开igv.jar或者对bat文件以管理员身份运行

首先,载入hg19基因组;接着载入两个normalised后的bw文件即可

7、ROSE鉴定Enhancer

7.1 ROSE程序安装

ROSE程序可以到http://younglab.wi.mit.edu/super_enhancer_code.html下载,并且有2.7G的示例数据

7.2 数据预处理

7.3运行ROSE程序

7.4 进行基因注释

7.5 编写R程序,绘制Enhancer及邻近基因

图表 6 TE7.r程序

图表 7 KYSE510.r程序

四、结果

1、Chip-Seq数据下载

Chip-Seq数据下载并解压结果

图表 8 Chip-Seq数据

2、FastQC质量检查

数据质量检查

图表 9 质量检查文件

图表 10 质量检查结果

3、使用Bowtie对Reads进行Mapping

3.1基因组文件

图表 11人类参考基因组HG19索引

3.2 Mapping结果

图表 12 Mapping整体结果

图表 13 生成的sam文件

4、MACS寻找Peak富集区

4.1MACS结果文件

图表 14 TE7实验对照组结果

图表 15 KYSE510实验对照组结果

4.2 MACS结果解读

Peaks.xls从左至右依次是:峰所在的染色体名称,峰的起始位置,峰的结束为止,峰的长度,峰的高度,贴上的reads标签个数,pvalue(表示置信度),峰的富集程度,FDR假阳性率(越小则峰越好)

图表 16 Peaks.xls文件

negative_peaks.xls当有对照组实验存在时,MACS会进行两次peak calling。第一次以实验组(Treatment)为实验组,对照组为对照组,第二次颠倒,以实验组为对照组,对照组为实验组。这个相当于颠倒过后计算出来的文件

图表 17 negative_peaks.xls

Peaks.bed文件相当于Peaks.xls的简化版,从左至右依次是:峰所在的染色体名称,峰的起始位置,峰的结束为止,峰的MACS名称,pvalue(表示置信度)

图表 18  Peaks.bed文件

summits.bed是峰顶文件,从左至右依次是:峰所在的染色体名称,峰顶的位置,峰的MACS名称,峰的高度

图表 19 summits.bed文件

MACS_wiggle文件夹下面分为control文件夹和treat文件夹,里面分别存了control组和treat组每隔50bp,贴上的reads数目。第一列为染色体上的位置;第二列为从第一列对应的位置开始,延伸50bp,总共贴上的标签(reads)个数。

图表 20 wiggle文件夹下afterfiting_all.wig文件

model.r文件可以使用R运行,绘制双峰模型的图片PDF

图表 21 model.r文件

图表 22 TE7双峰模型   图表 23 KYSE510双峰模型

5、IGV对peaks可视化

5.1Normalised后,wig文件与文献数据比较

图表 24 peaks整体统计比较

5.2 IGV peaks整体可视化

图表 25 IGV可视化

6、ROSE分析结果

6.1 数据预处理结果

Samtools将sam文件转化为bam文件,并且排序,再建立索引

图表 26 bam文件和bai索引

6.2 ROSE程序Enhancer分类结果

图表 27 TE7 Enhancer分类结果

图表 28 KYSE510 Enhancer分类结果

peaks_AllEnhancers.table.txt文件从左到右分别是,Enhancer区域名称ID,染色体位置,Enhancer起始位置,结束位置,由多少个Enhancer缝合连接而成,Enhancer大小,Treat组峰高度,Control组峰高度,Enhancer大小排名,是否为Super Enhancer

图表 29 peaks_AllEnhancers.table.txt文件

peaks_Plot_points.png图片,纵坐标为peaks_AllEnhancers.table.txt中G,H列相减结果,及减掉对照组峰后的高度,横坐标为全部Enhancer的排名,越可能是SuperEnhancer则越靠图的右边。

图表 30 TE7_peaks_Plot_points.png图表 31 KYSE510_peaks_Plot_points.png

6.3 基因注释结果

AllEnhancers_ENHANCER_TO_GENE.txt第J列开始为离Enhancer最近的基因名称

AllEnhancers_GENE_TO_ENHANCER.txt第1列为基因名,后面为邻近峰的名称

图表 32 AllEnhancers_ENHANCER_TO_GENE.txt文件

图表 33 AllEnhancers_GENE_TO_ENHANCER.txt

五、讨论和结论

1、结论

1.1 FastQC质量检查

FastQC 版本和机房小型机不同,为v0.10.1,因此检测结果略有区别。图表 8 质量检查结果显示,测序质量挺好,Per base sequence content、Per sequence GC content、Kmer Content出现警告更可能是由于测序方法本身存在的固有误差。

1.2 bowtie整体覆盖度

由图表 10 Mapping整体结果可以看出,四个fastq文件Mapping整体覆盖率都在90%以上,从另一方面说明数据质量很好

1.3 ROSE辨别出的Super Enhancer

由图表 29 TE7_peaks_Plot_points.png图表 28 KYSE510_peaks_Plot_points.png可以看出,在TE7细胞系中,找出了439个Super Enhancer,在KYSE510细胞系中,找出了823个Super Enhancer。

2、讨论

由IGV可视化图可以看出,峰的高度和位置基本和文献相同。

图表 34 IGV可视化图

再用R程序根据ROSE程序结果,绘制和文献相同的图片,与文献的图片进行比较,可以看出来,基因的分布是相似的,就是具体位置和文献不是很一样。

图表 35 本流程结果

图表 36 文献结果

在MACS结果中,有些很窄的峰高度明显比文献要低,这可能是因为bowtie时候,设置的参数使得多条reads比对上仅输出一次,使得峰高度减小。

在ROSE结果中,MIR205HG没有标注出来,而文献中有此基因,经过检查,在相似位置ROSE程序有找到MIR205基因,这可能是基因注释文件和文献不同导致的。

参考文献

[1] Targeting super-enhancer-associated oncogenes in oesophageal squamous cell carcinoma PMID: 27196599

Chip-seq流程报告相关推荐

  1. JDG人脸识别课堂管理系统全栈开发流程报告-软件工程实践报告

    JDG人脸识别课堂管理系统全栈开发流程报告-软件工程 ⭐️ 本报告的代码部分和程序设计参考了 计算机18-1班张宇哲(学号181002406)同学 在Gitee仓库发布的AI-Attendance,本 ...

  2. Ubuntu 16.04.6 安装流程报告

    Ubuntu 16.04.6 安装流程报告 标题虽叫"安装流程报告",实际上上手装之前我还很捣鼓了一会儿卸系统的事儿:这"安装流程"本身其实并没给我带来什么麻烦 ...

  3. SAP 需求分析与作业流程报告

    第一部分 绪论  一. M2专案综述 国际集团为了利用现代先进资计技术辅助,提高企业的管理水平,以完善自身的机制和增强企业的市场竞争力,在集团最高层领导的倡导和推动下设立了M2专案.作为一个管理水平的 ...

  4. RNA-seq流程报告

    一.摘要 实验旨在了解RNA-seq的基本原理.通过模仿文献<Targeting super enhancer associated oncogenes in oesophageal squam ...

  5. 软件测试项目流程报告,周口软件测试报告流程,科技项目申报

    周口软件测试报告流程 随着知识经济的全面到来,企业的竞争环境也已经发生了翻天覆地的变化,知识产权的作用日益凸显,可以预见,没有知识产权的企业是没有未来的.知识产权在企业需要经历创造.获取.管理.运用. ...

  6. jboss启动初始页面_JBoss BRMS最佳实践– BPM流程初始化层的提示

    jboss启动初始页面 我过去发布过一些有关迁移策略的文章,仔细研究了流程层,并提供了一些有关jBPM的最佳实践 ,它们都涉及到BPM策略的非常具体的部分. 我想重新讨论最佳实践的主题,然后在智能集成 ...

  7. 速修复!NSA 报告四个严重和高危 Exchange Server RCE 漏洞

     聚焦源代码安全,网罗国内外最新资讯! 编译:奇安信代码安全卫士 微软在今天的补丁星期二中共修复了108个漏洞,其中5个是0day.微软在此更新中修复了由美国国家安全局 (NSA) 报告的四个&quo ...

  8. Forrester《2021年应用安全现状报告》提要

     聚焦源代码安全,网罗国内外最新资讯! Forrester 公司的年度<应用安全现状报告>已成为检验组织机构AppSec 成熟度的试金石.软件开发行业和威胁局势不断演变,2021年的报告传 ...

  9. NR CSI报告简介

    NR:New Radio 新无线空口  CSI:Channel State Information 信道状态信息 所以标题的意思就是说无线空口的信道状态信息报告简介. NR中UE(user equip ...

最新文章

  1. docker 集群中文件挂载的问题
  2. ORACLE ORA-02030: can only select from fixed tables/views
  3. NOI OpenJudge 8469 特殊密码锁 Label贪心
  4. groovy 使用java类_深入学习java中的Groovy 和 Scala 类
  5. 【重点】LeetCode 25. Reverse Nodes in k-Group
  6. 用文本方式将数据装入一个数据库表 mysql_文本应该放哪_MySQL用文本方式将数据装入数据库表中...
  7. delphi dbgrideh 遍历每一个单元格_BFS 的使用场景:层序遍历、最短路径问题
  8. 深信服scsa知识点二
  9. 解决DedeCMS搜索结果每页显示10条无法修改方法
  10. 单线程-多线程-高并发
  11. Android Studio开发工具的设置
  12. 回溯法解决01背包-非递归算法-效率低
  13. 梦幻西游手游什么服务器稳定,《梦幻西游手游》ios玩哪个区好 ios区服选择推荐...
  14. 本地电脑架设传奇怎么开外网叫朋友一起玩?
  15. Spring 3.0 学习-环境搭建和三种形式访问
  16. 永磁同步电机(PMSM)参数辨识(二)
  17. 谷粒商城学习笔记(2)-- 环境搭建项目结构创建
  18. HTML+CSS期末大作业:美妆网站设计——化妆品企业(20页) 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码
  19. 基于vue手写一个分屏器,通过鼠标控制屏幕宽度。
  20. 【每日英语】2021-03-01

热门文章

  1. 渲染农场优势是什么_云渲染农场怎么用?
  2. html中let函数,JavaScript中var、let、const的区别是什么?
  3. 多人即时战斗游戏服务端系列[2]--90坦克Online游戏对象介绍以及渲染机制
  4. android顶部工具栏和底部工具栏的简单实现代码,顶部和底部菜单栏TabLayout+ViewPager...
  5. 桃李教育 高中计算机教师,倾情桃李,做教育的有心人——雅礼书院中学教师风采(七)...
  6. SQL Server 数据库之注册 SQL Server 服务器
  7. html 引入在线jquery,HTML怎样引入jQuery?
  8. HTTP缓存优先级问题;主要有两种缓存:强缓存和对比缓存(也叫协商缓存)
  9. oracle创建表同时给值,在高并发、高负载的情况下,如何给表添加字段并设置DEFAULT值?...
  10. 一键重启tomcat并自动清除work目录