数据分析中的严谨问题
数据分析中,不少人存在或多或少的不严谨操作。本文大致列举一些
关于Fold Change的计算
Fold Change是差异biomarker筛选的一个常用步骤,一般大家都使用两组的均值相除进行计算。但是,对于非正态分布,使用均值相除是否合理?以下找几个特殊案例进行分析
存在异常值时
A组:1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 7, 10, 36, 均值为6.33, 中位数为4,且数据集中趋向于3-4附近.
B组:3, 4, 4, 5, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10, 11, 均值为6.33, 中位数为6,且数据集中趋向于5-6附近
可见,存在异常值时(尤其是样本量不够大时),采用均值可能得出不够有表征能力的FC值。
存在偏态分布时
A组:1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 5, 5, 6, 8, 10, 均值为4.0, 中位数为3,且数据集中趋向于3附近.
B组:0, 1, 2, 2, 3, 4, 4, 5, 5, 5, 5, 5, 6, 6, 8, 10, 均值为4.4, 中位数为5,且数据集中趋向于5附近.
可见,存在偏态分布时,采用均值也可能得出不够有表征能力的FC值。
何去何从
虽然我们会遭遇上述情况,但是大多数情况下,均值与中位数的表征能力差别不会太大。当某组数据杂乱无章(双峰甚至多峰分布)时,这个特征可能并不是理想的特征。当数据存在偏态分布时,顶多只会稀释差距,而对于真正有价值的特征,这点稀释也还能接受。
GSEA官网中,gene rank采用的几种方式中,Fold Change默认采用的是通过均值计算(虽然可以修改成中位数计算方式)。建议对于一般情况,仍然可以采用均值计算FC值。以下摘自文字及截图GSEA官网:GSEAUserGuide
To use median rather than mean expression values, set the Median for class metrics parameter to True, as described above.
GSEA官方推荐的是Signal2Noise来对gene进行排序。从公式上来看,Signal2Noise的正负性与log2FC的正负性是一致的。笔者基于强迫症,进一步使用R计算了基于均值的FC值,和GSEA软件Signal2Noise跑出来的基本一致(正负数个数一致,13K基因只偏差了1个,log2FC为0的有好几个,可能截点选取规则不同吧)。至少说明,GSEA做富集分析时,默认基于均值计算rank,这也是大家公认的。
GSEA富集分析的rank规则,是否可以自定义?比如采用模型权重w值?
关于Fold Change的界值
这个在之前的博客里讨论过。
数据分析中的严谨问题相关推荐
- 二维数组离散程度matlab,(十八)数据分析中的一些概念
(十八)数据分析中的一些概念 HIKAI 29 SEP 2017 0 Comments 矢量.向量.标量 矢量和向量是一个东西,只是在不同领域里面用到的不同称呼.矢量常常用在物理学中,向量在数学.几何 ...
- hive建立内部表映射hbase_快手 HBase 在千亿级用户特征数据分析中的应用与实践...
分享嘉宾:陈杨 快手 编辑整理:Hoh Xil 内容来源:BigData NoSQL 12th Meetup 出品社区:DataFun 注:欢迎转载,转载请注明出处. 快手建设 HBase 差不多有2 ...
- 聚信立数据科学家甘建铃:孙子兵法在数据分析中的应用
转载请注明出处:乐投网 - 聚信立数据科学家甘建铃:孙子兵法在数据分析中的应用 中国春秋时期有位名家孙武,写过几篇文章,称为兵法.孙武凭其兵法在吴国获得重用,任命为大将军,西破强楚.南服越国.北威齐晋 ...
- 大数据分析中使用关系型数据库的关键点
相当一部分大数据分析处理的原始数据来自关系型数据库,处理结果也存放在关系型数据库中.原因在于超过99%的软件系统采用传统的关系型数据库,大家对它们很熟悉,用起来得心应手. 在我们正式的大数据团队,数仓 ...
- 数据分析中会常犯哪些错误,如何解决的?
错把相关性当成因果性 correlation vs. causation 经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所 ...
- 浅谈数据分析中的“暗物质”
浅谈数据分析中的"暗物质" 我们分析数据,更重要的是看到数据中所隐藏的暗物质,即数据图中你看不见的数据\逻辑\知识. 开门见山,以下是某新闻媒体WAP\APP\PC三端的分周中和周 ...
- 数据分析中,你认为用户行为分析最重要的点是什么
数据分析中,你认为用户行为分析最重要的点是什么 对着满屏的数据,来做用户行为分析,是不是茫然不知所措? 做用户行为分析首先要确定你的目标.目标是降低成本(比如做渠道分析,优化渠道),增加收入(比如分析 ...
- 数据分析中的两种偏差
总第171篇/张俊红 今天给大家介绍一下数据分析中常见的两种偏差:选择性偏差和幸存者偏差. 1.选择性偏差 选择性偏差指的是在研究过程中因样本选择的非随机性而导致得到的结论存在偏差,是由于人为主观的选 ...
- 比较两组数据的差异用什么图更直观_芯片数据分析中常见的一些图的作用
今天给大家讲讲芯片数据分析中常见的一些图的作用,让大家伙儿知道它们在BB些啥. 箱式图(Box plot) 基因芯片的原始数据是需要进行标准化处理的,主要目的是消除由于实验技术(如荧光标记效率.扫描参 ...
最新文章
- mysql大批量数据写入_存储过程写入大批量数据,用于测试mysql查询优化
- Android-获取系统的应用程序的信息
- 外媒:英特尔未来10年可能投资950亿美元在欧洲新建8家芯片厂
- modbus发送接收_自己编写MODBUS协议代码所踩过的坑
- PAIP.paip.手机离线ROOT过程总结
- 例4.7 素数 - 九度教程第51题(素数筛法)
- 实践:VB创建Com组件 在Asp以及.Net中调用
- 如何用Matlab求极限
- Java实体类转Map、Map转实体类
- nlp-with-transformers系列-03_剖析transformers模型
- 当别人对自己有意见时,怎么处理?
- 怀念到哭泣、再美也伤
- 问题 Q:巧克力与小花梨
- Shizuku,小黑屋,手机冻结应用
- MA5626 MA5620修改特定MAC替代家用光猫注册配置指导
- Android稳定性优化,你需要做好以下几点
- cmder linux传输文件_使用scp在windows和Linux之间互传文件
- ETest,装备质量一站式测试服务平台
- 使用cmd指令切换windows显示模式
- 那些年苹果与 USB 的爱恨情仇
热门文章
- RFID技术如何让图书馆实现自助借还,自助盘点
- 单片机设计:基于stm32智能语音识别蓝牙音响(ld3320语音识别模块+mp3模块+喇叭+点阵屏+OLED+蓝牙+手机app)
- 【附源码】计算机毕业设计SSM汽车维修服务系统
- 服务器重启django项目
- 什么是拦截器?什么是过滤器?
- 《人,绩效和职业道德》及博客读后感
- Proteus中的继电器在哪里
- python信息检索系统_GitHub - Uyouii/SearchingSystem: python实现的基于倒排索引和向量空间模型实现的信息检索系统...
- Yolo v3的学习
- librosa--学习笔记(1)