接上一个笔记生成新变量

生成所有我们需要的变量后,就需要开始对数据进行分析,但是并不是一上来就进行回归分析

还需要对变量之间的关系进行初步的分析再开始回归

数据分布

直方图

这个我在之前的文章里有写,这里再简单的写一下

https://blog.csdn.net/Clytie_Lion/article/details/123811416?spm=1001.2014.3001.5502

hist roa_w if $samp & roa_w>-0.2,freq norm

其中hist的默认纵坐标是各个值的概率,用freq可以显示具体的数量,而 norm则是在图形中显示正态分布曲线,即下图中的蓝色曲线,可以清晰的看出roa在蓝色线内的左下方是空白的,而在0处集中了大量了数值,这也在一定程度上显示了企业在0临界值进行盈余管理的行为

描述性统计

最简单的描述性统计

**#设置样本条件
global samp miss==0 & ind!="I"
**#设置变量
global dep ln_audfee
global exp BigFour
global ctrl ln_ta lev roa modtabstat $exp $dep $ctrl if $samp , s(n mean sd min q max) c(s) 

s()中是我们需要列示的统计量

目前我们的解释变量属于是01变量

那么我们还可以进行分组描述性统计以观察分组的数据特征,作为回归分析的前期初步检验

tabstat $dep $ctrl if $samp ,by($exp) s(n mean sd min q max) c(s)

组间差异检验

ttest

组间差异的检验,相比上上一个分组的描述性统计简单对比数字,ttest提供了一个更为专业的检验,检验制定变量在不同组别之间的差异

unequal指的是两个分组样本的方差不相等

同时,ttest的默认置信水平是95%,可以通过level(99)设置不同的置信区间

**#ttest检验组间差异
foreach i in $dep  $ctrl{ttest `i' if $samp, by ($exp) unequal
}
foreach i in $dep  $ctrl{ttest `i' if $samp, by ($exp) unequal level(99)
}

结果如下,大部分是只需要看最后一行的p值,可以看出两个样本之间的均值是显著不相等,且为0的样本显著大于为1的样本

更详细的ttest检验可以看连玉君老师的这篇文章

Stata:多个变量组间均值\中位数差异检验https://zhuanlan.zhihu.com/p/78666638

ranksum()

秩和检验实际上就是把所有的数值进行排序获得一个等级排序,前提假设是分组样本在总体分布位置相同,主要适用于当变量不符合正态分布的情况

**#ranksum
foreach i in $dep  $ctrl{ranksum `i' if $samp, by ($exp)
}

最后看p值拒绝原假设,即两个样本的分布并不平均

皮尔逊卡方检验

当制定变量也是虚拟变量时,可以通过tab中的chi2进行皮尔逊卡方检验

下面的mod是审计意见的代理变量,为01变量,所以可以采用tab 自带的chi2检验

**#对于虚拟变量的皮尔逊检验
tab  BigFour mod,row chi2

结果显示如下,同样观察最后一行,结果显示p<0.01拒绝原假设,即拒绝mod 和bigfour之间是独立分布的。

相关系数检验

为什么进行相关系数矩阵呢?大部分的文献中并不会列示它的相关系数检验,但是其在我们自己进行研究的时候,作用很大

首先一个是将系数矩阵中的各个系数进行一个直观上的理解,看是否存在非常异常的相关关系,是否是由于变量衡量方式本身出问题导致的

其次就是大部分文献用于检验变量之间是否存在多重共线性问题以排除

**#pwcorr相关系数矩阵
pwcorr $exp $dep  $ctrl if $samp,  sig star(0.01)

sig表示显示p值,star()可以将p值<0.01的用一颗星标注出来

当然如果需要导出的话,可以采用连玉君老师的优化方法

Stata结果输出:pwcorr_a输出相关系数矩阵| 连享会主页

散点图与直线图

将散点图与拟合直线放在同一张图上,以观察初步的回归关系

下方代码中间的||代表第二张图并列一同显示的意思

具体的美观调整等可以help sactter或者help lfit自行调整

**#scatter & lfit
scatter ln_audfee ln_ta if $samp , msize(tiny) || lfit ln_audfee ln_ta

stata上课笔记 | 数据分析部分相关推荐

  1. 面板数据分析及stata应用笔记

    动态面板数据模型及估计方法 假说里面不要出现显著 文章目录 (一)面板数据基础知识 **一.面板数据的定义** **二.面板数据的分类** **三.面板数据的优缺点** **四.面板数据模型** ** ...

  2. 数据分析学习笔记-数据分析预备知识

    数据分析学习笔记 数据分析预备知识

  3. 学习Linux第一次上课笔记

    一.配置IP地址 1.设置网络连接模式为NAT模式. 学习linux第二次上课笔记 2.获取IP地址,首先运行dhclinet服务,然后敲ip add进行查看,自动获取的IP地址. 学习linux第二 ...

  4. STATA 学习笔记 :相关系数

    STATA 学习笔记 :相关系数 为什么要计算变量之间的相关系数? 检测变量之间的多重共线性 相关系数呈现的几种方法 1. 散点图矩阵 help graph matrix Description: g ...

  5. Redis教程(上课笔记)

    Redis教程 1. 什么是NoSql NoSQL一词最早出现于1998年,是Carlo Strozzi开发的一个轻量.开源.不提供SQL功能的关系数据库.2009年,Last.fm的Johan Os ...

  6. STATA学习笔记:数据合并

    STATA学习笔记:数据合并 一 横向合并数据:merge 1. One-to-one merge on specified key variables merge 1:1 varlist using ...

  7. STATA学习笔记:egen函数

    STATA学习笔记:egen函数 1. egen (1)mean() webuse egenxmpl,clear egen avg = mean(cholesterol) gen deviation ...

  8. STATA学习笔记:外部命令

    STATA学习笔记:外部命令 1.设置外部命令存储地址 //在电脑里设置好文件夹以备存储外部命令 //Set location where packages will be installed //方 ...

  9. STATA学习笔记:缺漏值的处理

    STATA学习笔记:缺漏值的处理 1. 缺漏值的标记 stata中缺漏值默认标记为"." "."是数值,且是一个大于任何自然数的数值 [注意] sum.gene ...

最新文章

  1. 2022-2028年中国石化行业节能减排投资分析及前景预测报告
  2. foreach判断最后一个_JavaScript很简单?那你理解的forEach真的对吗?
  3. python编程分析了一下高考那些事,发现了两个之最,原来是这样
  4. DML、DDL、DCL的分别是什么
  5. 分布式数据库相关概念介绍
  6. 程序员养家活口接私活必备网站(顺便用技术改变世界)
  7. flock SUSE/RHEL
  8. 在使用FireFox浏览器时,经常打开新标签,页面总是不断自动刷新,解决办法
  9. 倾斜摄影测量数据的一些简析
  10. gprs模块与服务器通信协议,gprs模块与服务器通信原理分析
  11. backdrop-filter,让你的网站熠熠生”毛’
  12. 鸿蒙Module引用har方法
  13. macos 10.15 软件损坏/无法验证开发者
  14. 小学计算机课题研究报告,(完整版)信息技术与小学学科教学整合的研究课题申请报告...
  15. 《中国合伙人》经典台词:一个人迫于无奈之下的选择,往往是正确的。。。
  16. 固态硬盘比机器硬盘好很多吗?
  17. MFC进修笔记2——MFC和Win32
  18. 微信小程序-刷新当前页
  19. 基于vspd DLL二次开发的虚拟串口工具
  20. 西电-机器学习-逻辑回归

热门文章

  1. 计算4的1万次方的结果
  2. 记账本典型用户和使用场景分析
  3. 020:Python函数使用进阶
  4. 湖北武汉资料员报考建筑工程资料的管理措施建筑七大员报考
  5. matlab的输入字符串接收,matlab字符串操作总结
  6. 组织架构,强矩阵,弱矩阵,职能型,项目型
  7. (金融)银行贷款的用户增长项目——数据分析
  8. 关于校园新闻系统设计的答辩流程指导
  9. Linux中ps和grep什么作用,在linux里面ps -ef | grep tomcat 什么意思
  10. 如何录制 1080 p的视频