一 基础知识

1.1掌握FASTQ格式
(1)格式有什么特点?
fastq内容格式有4行:
第1行主要储存序列测序时的坐标等信息;
举个例子:
• @ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
• 1. @,开始的标记符号;
• 2. ST-E00126:128:HJFLHCCXX,测序仪唯一的设备名称;
• 3. 2,lane的编号;
• 4. 1101,tail的坐标;
• 5. 7405,在tail中的X坐标;
• 6. 1133,在tail中的Y坐标
- 第2行就是测序得到的序列信息,一般用ATCGN来表示,其中N用于荧光信号干扰无法判断到底是哪个碱基时的代表符号;
- 第3行以“+”开始,可以储存一些附加信息,但目前的测序fastq文件这一行一般是空的。
- 第4行储存的是质量信息,与第2行的碱基序列是一一对应的,其中的每一个符号对应的ASCII值是经过换算的phred值,可以简单理解为对应位置碱基的测序质量值,越大说明测序的质量越好。不同的版本对应的phred值范围不同。
(2) 什么是phred值,怎么计算?
是评估这个bp测序质量的值,测序仪通过判断荧光信号的颜色来判断碱基的种类,ATCG分别对应红黄蓝绿,信号强弱不同,在这种情况下对每个结果的判断的正确性都存在一个概率值,这个值被储存为ASCII码形式,转化方式如下:
将该碱基判断错误概率值P取log10之后再乘以-10,得到的结果为Q。
比如,P=1%,那么对应的Q=-10*log10(0.01)=20(这个计算公式illumina平台使用,Solexa系列测序仪使用不同的公示来计算质量值:Q=-10log(P/1-P))
把这个Q加上33或者64转成一个新的数值,称为Phred,最后把Phred对应的ASCII字符对应到这个碱基。
如Q=20,Phred = 20 + 33 = 53,53在ASCII码表里对应的ASCII符号是”5”
(3) phred33 与 phred64是什么意思?
质量字符的ASCII值和质量得分的关系有如下两种:可以粗略分为 Phred+33和Phred+64,这里的33和64就是指ASCII值转换为Q该减去的数值。
在处理测序数据时,因为一些软件会根据碱基质量得分的不同做不同的处理,常要指定正确的编码方式,有必要对质量字符与质量得分的关系(Phred+33或Phred+64)作出正确的判断。当然,如果处理的是最近两年产生的测序数据,基本上都是Phred+33的,但从NCBI SRA数据库下载的较早的数据可能不同,需要注意。

1.2 FASTA格式的构成是怎样的,有什么样的规律?
fasta格式用于储存序列,可以储存DNA、RNA和蛋白质序列,一般分为两个部分,第1行是以>开头的序列描述信息,包括数据库中的编号,序列名称,序列类型,剩余的为序列信息,以蛋白质和mRNA序列文件为例:
蛋白质fasta文件
• 以>开头
• sp|P69905 数据库编码
• HBA_HUMAN Hemoglobin subunit alpha 蛋白质名称
• OS=Homo sapiens 所属物种
• GN=HBA1 基因名称
sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKLASVSTVLTSKYR`
核酸序列文件(mRNA序列中的U均用T来代替)
• 以>开头
• gi|13650073 基因ID
• gb|AF349571.1 genebank编号
• Homo sapiens hemoglobin alpha-1 globin chain (HBA1) 基因名称
• mRNA, complete cds 序列类型
gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCT

1.3 什么序列适合用FASTA保存,什么序列适合用FASTQ保存?
单纯的蛋白或者核酸的序列信息一般用FASTA格式保存,而测序文件一般用包含仪器信息和测序质量的FASTQ格式保存。

二 编程操作:

对FASTQ的操作
• 5,3段截掉几个碱基
• 序列长度分布统计
• FASTQ 转换成 FASTA
• 统计碱基个数及GC%

对FASTA的操作
• 取互补序列
• 取反向序列
• DNA to RNA
• 大小写字母形式输出
• 每行指定长度输出序列
• 按照序列长度/名字排序
• 提取指定ID的序列
• 随机抽取序列

高级难度:
• 根据坐标取序列
• 多文件合并
• 根据ID列表取序列
• GTF文件探索
• 简并碱基的引物序列还原成多条序列
• snp进行注释并格式化输出

Fast Q与 fast A相关推荐

  1. 嵌入式目标检测--Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection

    Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection in Video https:/ ...

  2. 深度学习论文阅读目标检测篇(二):Fast R-CNN《Fast R-CNN》

    深度学习论文阅读目标检测篇(二):Fast R-CNN<Fast R-CNN> Abstract 摘要 1. Introduction 引言 1.1 RCNN and SPPnet 1.2 ...

  3. fast.ai_使用fast.ai自组织地图—步骤4:使用Fast.ai DataBunch处理非监督数据

    fast.ai This is the fourth part of the Self-Organizing Maps with fast.ai article series. 这是带有fast.ai ...

  4. fast marching matlab,Fast Marching method

    function [D,S,father] = perform_front_propagation_2d_slow(W,start_points,end_points,nb_iter_max,H) % ...

  5. Fast R-CNN《Fast R-CNN》论文笔记

    本学弱喜欢在本子上记笔记,但字迹又丑. 望看不懂我的字的大佬不要喷我,看得懂的大佬批评指正.

  6. ORB特征和FAST关键点 笔记

    ORB特征和FAST 关键点 1. ORB特征 ORB特征由关键点和描述子两部分组成.它的关键点称为"Oriented FAST",是 一种改进的FAST角点,什么是FAST角点我 ...

  7. 目标检测经典论文——Fast R-CNN论文翻译(中英文对照版):Fast R-CNN(Ross Girshick, Microsoft Research(微软研究院))

    目标检测经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为纯中文版,中英文对照版请稳步:[Fast R-CNN纯中文版] Fast R-CNN Ross Girshick Mic ...

  8. Oriented Fast神奇高效的代码实现方式——ORBSLAM2源码讲解(二)

    文章目录 前言 一.基础知识 二.灰度质心法原理 三.UMAX 四.IC_Angle如何做加速运算 总结 前言 本博客结合哔哩大学视频ORBSLAM2[ORBSLAM2源码讲解专题一]ORB特征点提取 ...

  9. 【论文翻译】Fast R-CNN

    Fast R-CNN Ross Girshick Microsoft Research rbg@microsoft.com 摘要 本文提出了一种快速的基于区域的卷积网络方法(fast R-CNN)用于 ...

最新文章

  1. uhttpd 架构调用细节之lua
  2. mysql Got error 28 from storage engine
  3. 【手写数据结构】双链表最详细图解
  4. 树莓派3 mysql端口_树莓派3 之 安装Mysql服务
  5. 技术文档(12)-- Linux权限总结
  6. python模块相互引用_python中如何相互引用两个包中的模块
  7. C中使用memset
  8. Spring Boot 集成RabbitMQ
  9. 从魅力品质到伟大产品-卡诺模型
  10. 小米摄像头上传云服务器,杜老师说群晖:小米云摄像头无法对接群晖存储解决方法...
  11. ubuntu redis desktop manager 编译问题解决
  12. 亲测linux系统安装mysql5.7.22
  13. 一千万的股票能一天卖出吗
  14. MySQL中的“DATE_SUB()” 函数从日期减去指定的时间间隔
  15. Microsoft SQL Server 2000 Service Pack 3a
  16. 【MySQL】DDL(Data Definition Language)数据定义语言之操作数据库
  17. 火车头分页post php,轻松搞定PHPCMS V9火车头采集自动分页
  18. 计算机程序设计艺术读后感,计算机程序设计艺术(第1卷)读后感1000字
  19. OpenDaylight-Boron学习笔记: 3 L2Switch模块
  20. 高精度除法算法(大数除于小数)

热门文章

  1. html炫酷在线,炫酷实用的10个HTML5动画应用
  2. 西农新版锐捷linux系统客户端联网方法
  3. 微信安装包11年膨胀575倍,UP主:“98%的文件是垃圾”;苹果应用商店被曝大量色情App;四大科技巨头呼吁废除闰秒|极客头条...
  4. Vite 开发快速入门
  5. 天,地,人,伤寒六经概述
  6. 23种设计模式(java代码实现案例)
  7. 使用ffmpeg搭建HLS直播系统
  8. linux下文件夹作用总结
  9. ccxt获取symbol为空
  10. capt 与 Android Gradle Plugin