如何根据染色体坐标快速得到基因组的 DNA 序列
第一种方法
这种方法的优点是速度较快,但略复杂,适合需要快速获取大批量坐标位置的情形,具体做法如下:
http://pythonhosted.org/twobitreader/ 提供了一个方便的小工具
python -m twobitreader hg19.2bit < example.bed
染色体的位置信息在 bed 文件中给出,.2bit 文件格式是 UCSC Genome Browser 的基因组序列文件索引格式,可以在 http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/
下载到。UCSC Genome Browser 也提供了命令行工具可以从基因组序列文件生成 .2bit 文件。
twobitreader 可以用 pip 直接安装,也可以在 https://pypi.org/project/twobitreader/#files
下载源码安装。
第二种方法
这种方法的优点是简单,缺点是速度较慢,而且输出数据的格式是 XML。
通过 ucsc genome browser 提供的在线工具,例如想获取 chr13:32890466-32890664 区域上的 DNA 序列,访问如下 url
http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=chr13:32890466,32890664
可以得到 chr13 上,start = 32890466, end = 32890664 之间的染色体序列。需要注意的是输出的是 xml 格式的数据。
第三种方法
利用 samtools 的 faidx 工具,方法如下:
首先用 faidx 生成 fasta 序列文件索引
samtools faidx hg19.fa
然后利用命令行获取染色体区域序列
samtools faidx hg19.fa chr13:32890466-32890664
这种方法所得输出是 fasta 格式序列。
如何根据染色体坐标快速得到基因组的 DNA 序列相关推荐
- Prokka:快速原核基因组、宏基因组基因注释
文章目录 Prokka:快速原核基因组注释 热心肠日报 摘要 1 简介 2 描述 2.1 输入 2.2 注释 表1 Prokka使用的功能预测工具 2.3 输出 表2. 输出结果介绍 3 结果 表3. ...
- 根据gtf格式的基因注释文件得到人所有基因的染色体坐标
用bedtools对基因组片段区域进行基因注释 根据gtf格式的基因注释文件得到人所有基因的染色体坐标 选择的genecode内最早的Grch38版本(201408) v20是最早的hg38版本对应的 ...
- 制作人所有基因的染色体坐标文件
IGV是本地浏览测序数据最为强大的基因组浏览器,是高通量测序分析的一个重要的可视化工具,它能直观地展示突变位点,查看有无新转录本或新的可变剪接形式,查看peak的可信度,上下游基因,区域保守性,重复原 ...
- Kraken:使用精确比对的超快速宏基因组序列分类软件
文章目录 Kraken:使用精确比对的超快速宏基因组序列分类 热心肠日报 摘要 主要结果 图1. Kraken序列分类算法 图2. 基于三个模拟宏基因组的分类程序准确性和速度比较 图3. 基于三个模拟 ...
- 2021.11.22【读书笔记】丨生物信息学与功能基因组学(第五章第五节 用类似于BLAST的比对工具快速搜索基因组DNA)
5.5 用类似于BLAST的比对工具快速搜索基因组DNA 需求:随着基因组DNA数据库数量增长,对比对工具要求越来越高 能在基因组DNA中找到外显子 比对时考虑基因组DNA包含的测序错误 有相应的算法 ...
- databasemetadata获取表注释_宏基因组测序中短序列的注释
宏基因组中短序列的注释是理解测序微生物群落潜在功能的重要步骤之一.单纯利用局部匹配的注释容易混淆那些蛋白同源性且局部序列非常相似的序列,进而不能真实准确反映复杂蛋白质家族中多变的结构和功能域. 今天我 ...
- 全基因组多位点序列分型
简介 多位点序列分型(multilocus sequence typing, MLST)是一种基于核酸序列测定的细菌分型方法.这种方法通过PCR扩增多个管家基因内部片段并测定其序列,分析菌株的变异.M ...
- 在高中生物里我们提到和遗传有关的物质有染色体,染色质,基因,dna
在高中生物里我们提到和遗传有关的物质有染色体,染色质,基因,dna.学习的顺序是我们先学染色质和染色体的成分和功能,然后再学习染色体在减数分裂过程中的行为而引出孟德尔的两大遗传规律,再讨论了基因在染色 ...
- 易基因|RRBS单碱基绘制580种动物的基因组规模DNA甲基化谱:Nature子刊
大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 2023年01月16日,奥地利科学院分子医学研究中心(CeMM)研究团队在<Nat Commun>杂志发表了题为" ...
最新文章
- nginx怎么部署php项目,nginx怎么正确部署前端项目
- java中ATM与数据库Mysql的连接
- IoU,ROI 和 ROC,AUC区分
- VueSummary_note
- 【转】wireshark过滤规则
- linux安装命令自动运行y,centos7linux 安装jdk ,Tomcat加配置加自动启动。等命令
- 关于testNG和JUnit的对比
- java多线程的常见例子
- Atitit.hibernate体系结构大总结
- eclipse 设置和快捷键
- sketchup 计算机配置,SketchUp Pro2019对电脑硬件要求
- 阿里云DataV功能及案例
- SAP-物料 X 未对销售组织 XXXX 分销渠道 X 语言 XX 定义
- 一个故事贯穿设计模式小例子练习源码
- iOS 每日一记之———————————————仿QQ语音通话隐藏显示效果
- mapboxgl地图分屏
- Arduino 8x8点阵怦然心动
- 解决Windows 10 无法访问指定设备、路径或文件
- C++学习笔记(十)——String类
- Java实现 LeetCode 292 Nim游戏
热门文章
- 【ONION勒索软件】Win10系统防护ONION勒索病毒的详细步骤
- linux 文件系统简析
- 厨房定时器c语言程序,基于51单片机的厨房定时器仿真+源代码
- Flink 算子Operators总结
- 2022 个人目标日历定作工具 微信小程序源码
- pandorabox虚拟服务器,[尝鲜]体验在PandoraBox上的容器虚拟化
- EPON与GPON的主要区别
- 基于JAVA多态的宠物领养捐献系统
- 电子电气架构——ECU升级(Bootloader)A/B分区策略汇总
- 如何禁止iPad的safari的pull-to-refresh的刷新功能?