1. Ensembl 下载绵羊参考基因组和注释文件,虽然这里用不到注释文件,但最好备份一下

2. .fa 格式参考基因组转为 .2bit 格式

# cd software directory
wget -b -c http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/faToTwoBit
# cd reference directory
faToTwoBit Ovis_aries_rambouillet.Oar_rambouillet_v1.0.dna.toplevel.fa Ovis_aries_rambouillet.Oar_rambouillet_v1.0.dna.toplevel.2bit

3. 安装 BSgenome 包

if (!require("BiocManager", quietly = TRUE)) install.packages("BiocManager")
BiocManager::install("BSgenome")

4. 进入工作目录,准备 seed 文件。

seed 文件可以理解为一种配置文件或者说明文件,包含许多必要的和非必要的词条,详细内容参考Bioconductor - BSgenome。在 BSgenome 包安装目录有示例文件,可以直接复制到工作目录进行修改。

cd ~/anaconda3/envs/R4.1.2/lib/R/library/BSgenome/extdata/GentlemanLab

5. 下面是我的seed 文件,以及遇到的一些bug。

首先是 Package,必须由四部分组成,每个部分必须由逗号(.)分开。part 1:BSgenome;part 2:物种缩写,如 ovis aries 写成Oaries;part 3:参考基因组来源,一般是NCBI,Ensembl 或者 UCSC;part 4:参考基因组版本。必须要注意的是!!!在package词条不能出现多余的逗号(.)和其他的分隔符(-或_)。比如 part 4中,最容易理解的方式是写成 rambouillet.v1,rambouillet_v1 或 rambouillet-v1,然而写成这样会报错,报错内容是“malformed package name”!!!

第二个 bug 是在 seed 文件中必须提供 genome 词条,在这里我用的是 genome: bosTau9,是的,这是一个牛的参考基因组名称。第一,BSgenome 只支持 UCSC 和 NCBI 数据库下载的参考基因组,而这个绵羊的参考基因组是在 Ensembl 下载的;第二,在 UCSC 和 NCBI 找不到可用的、同版本的参考基因组,因此,没有办法,只能随便找一个代替。

Package: BSgenome.Oaries.Ensembl.rambouilletv1
Title: Full genome sequences for Ovis aries (Ensembl version rambouillet_v1)
Description: Full genome sequences for Ovis aries (Sheep) as provided by Ensembl (Oar_rambouillet_v1) and stored in Biostrings objects.
Version: 1.0.0
organism: Ovis aries
common_name: Sheep
genome: bosTau9
provider: Ensembl
release_date: Feb 2022
source_url: http://ftp.ensembl.org/pub/release-106/fasta/ovis_aries_rambouillet/dna/Ovis_aries_rambouillet.Oar_rambouillet_v1.0.dna.toplevel.fa.gz
organism_biocview: Ovis_aries
BSgenomeObjname: Oaries
SrcDataFiles: Oar_rambouillet_v1.0.2bit, transferred by faToTwoBit
PkgExamples: genome$1  # same as genome[["1"]]
# directory of seed file
seqs_srcdir: /home/hanjiangang/single_cell/ref_genome/Oas_rambouillet_1_ArchR
# name of seed file
seqfile_name: Oar_rambouillet_v1.0.2bit

6. 构建 BSgenome 包。

# R 中运行
library(BSgenome)
forgeBSgenomeDataPkg("/home/ref_genome/Oas_rambouillet_1_ArchR/BSgenome.Oaries.Ensembl.rambouillet_v1.0-seed", verbose=TRUE)
# 很快,会生成新的文件夹BSgenome.Oaries.Ensembl.rambouilletv1,退出R# Linux 系统下运行如下命令
tree BSgenome.Oaries.Ensembl.rambouilletv1
BSgenome.Oaries.Ensembl.rambouilletv1
├── DESCRIPTION
├── inst
│   └── extdata
│       └── single_sequences.2bit
├── man
│   └── package.Rd
├── NAMESPACE
└── R└── zzz.R
# 因为之前genome词条使用的是genome: bosTau9,因此将BSgenome.Oaries.Ensembl.rambouilletv1文件夹下所有的bosTau9全部替换为Oar_rambouillet_v1(只需要修改两个文件)。# BSgenome.Oaries.Ensembl.rambouilletv1 同级目录运行
R CMD build ./BSgenome.Oaries.Ensembl.rambouilletv1/  #生成BSgenome.Oaries.Ensembl.rambouilletv1.tar.gz 文件
#如果发现Bug查找问题及时修复,只要 check for installation 不报错,基本就没有太大问题
R CMD check BSgenome.Oaries.Ensembl.rambouilletv1.tar.gz
R CMD INSTALL BSgenome.Oaries.Ensembl.rambouilletv1.tar.gz

7. 参考文章

BSgenome 构建自己的参考基因组 - 简书

BSgenome构建新的参考基因组 - 简书

构建绵羊(非常见物种)BSgenome参考基因组相关推荐

  1. 基于 bioMart 构建绵羊(非常见物种) OrgDb 包/数据库

    OrgDb (organism database)文件主要用于基因注释.ID转换.GO富集分析等,Bioconductor - BiocViews 仅提供部分物种正式发布的 OrgDb 包.此外还可通 ...

  2. 参考基因组及注释文件下载

    参考基因组及注释下载 现有比对工具在做mapping之前,都需要下载对应物种的参考基因组做index,而如何选择合适的参考基因组是一件非常重要的事情. 现有的参考基因组存储网站三个: ENSEMBL ...

  3. [爬虫实战]利用python快速爬取NCBI中参考基因组assembly的相关信息

    1.问题导向 最近在做某个课题的时候,按老师的要求需要从NCBI中批量下载不同物种的参考基因组,同时收集相应参考基因组的一些组装信息,基因组非常多,导致工作量巨大,一个一个手动收集的话,既费时又费力, ...

  4. cellranger 操作笔记-2:构建绵羊单细胞转录组参考基因组

    参考10X官方教程:Find the input files -Software -Single Cell Gene Expression -Official 10x Genomics Support ...

  5. cellranger-atac 操作笔记-1:安装并构建绵羊单细胞ATAC参考基因组

    1. 10X 官网下载cellranger-atac软件包,解压,添加路径 wget -O cellranger-atac-2.1.0.tar.gz "https://cf.10xgenom ...

  6. Ensemble-BioMart:得到基因注释信息(有参考基因组的物种)

    可能的疑问 "我知道一系列基因的NCBI编号,如果我要查询ensemble编号该如何查询?" "我知道一系列基因的ensemble编号,如果要查询这些的英文简写(symb ...

  7. 构建index所需的参考基因组以及各种版本的注释文件

    文章目录 一.参考基因组 1. UCSC 2. ensemble 3. NCBI 4. gencode 二.基因组注释文件(GFF,GTF) 1. UCSC 2. ensemble 3. NCBI 4 ...

  8. 菜鸟自学02:下载参考基因组及构建bowtie2索引

    菜鸟自学02:下载参考基因组及构建bowtie2索引 1.下载参考基因组 根据文章里的"Data deposition: The sequence reported in this pape ...

  9. NBT:牛瘤胃微生物组的参考基因组集

    文章目录 牛瘤胃微生物组的参考基因组集 热心肠日报 摘要 主要结果 图1. 来自牛瘤胃4,941个末培养和Hungate系列基因组的进化树 图2. 末培养基因组与Hungate和发表数据比较 图3. ...

最新文章

  1. vim自动跳转到引用的函数
  2. Mybatis执行select语句无匹配对象时返回集为Empty还是null
  3. 五邑大学专插本c语言试题_2019广东专插本各专业报考、录取人数、录取分数及平均分(二)...
  4. CH - 6901 骑士放置(二分图最大独立集-二分图最大匹配+奇偶拆点)
  5. 详细设计说明书示例_专利说明书常用句型汇总
  6. 可爱的python测试开发库及项目(python测试开发工具库汇总)
  7. 转载——三种编程命名规范(匈牙利命名法、驼峰式命名法、帕斯卡命名法)...
  8. wits数据格式_WITS标准
  9. python测控_基于RN8302和Python的电能测控系统设计
  10. 【服务器】创建docker、运行jupyter相关命令
  11. 硬核!国外开发者用 25 美元做了个区块链警佩相机!
  12. 如何正确看待LeCun工作调整?听听FAIR研究员们现身说法
  13. 使用labelme进行图片语义分割数据的标注(如何转换为训练的灰度图,即像素值为类别值)
  14. ubuntu 版mysql客户端工具_几款桌面MYSQL管理工具
  15. 5月18日第壹简报,星期三,农历四月十八
  16. C# 中的 delegate, Lambda 表达式 和 event
  17. 【福利】邀请博主,赢取大奖
  18. 计算机控制字如何使用,字由怎么用?一款软件管理1594种字体 很多设计大神都在用...
  19. opencv-之轮廓外接圆
  20. Audio Codec介绍-6(音频设备的3种硬件接口--PCM,IIS和AC97)

热门文章

  1. 几本软件项目管理方面的书
  2. 计算机网络之局域网(3)无线局域网
  3. 买基金,是一次性好,还是定投好?
  4. matlab圆的检测,Hough圆检测的matlab实现 | 学步园
  5. M201: MongoDB Performance chapter 3 Index Operations学习记录
  6. 医院门诊管理系统php文献,医院门诊信息管理系统Api文档
  7. Vue学习第一天(部分标签应用)
  8. 二叉搜索树的后序遍历序列
  9. Android-App的设计架构经验谈,面试建议
  10. 德勤区块链服务部门更换负责人