首先介绍一下我自己的情况,是一个还在读本科的stata小白,由于一些原因必须使用stata进行数据处理,从2.20到现在,前后近近两周时间,磕磕绊绊后终于完成了一些进度。由于自己起步的时候太困难了,所以想给像我一样的小白们提供一些思路。也请各路大神多多批评指正。

首先,我从官网下载了我需要的三年数据。

然后,保留出了我需要的一些变量,并且为它们重命名。

cd D:\CFPS数据\2010
use cfps2010adult_202008.dta,clear
keep pid fid provcd %%保留三个所需变量
rename (fid provcd)(fid2010 province) %%重命名变量
gen year=2010 %%在横截面数据中添加变量“年份”
save D:\CFPS数据\cfps2010adult.dta,replace %%用覆盖的方式保存数据

其他两年的数据也是同样道理,这样,我们就有了2010,2011和2012的三年数据及其中所需变量。

接着,我需要将三年数据进行匹配,找出三年中都有的id及他们的数据。并且将不符合条件的id全部清除。

%%首先,给2010年的数据按照pid进行排序(其他两年也同样用该代码复制粘贴即可)
use D:\CFPS数据\cfps2010adult_202008.dta,clear
sort pid
save D:\CFPS数据\cfps2010adult.dta,replace%%然后,用1:1的方式以pid匹配数据
merge 1:1 pid using D:\CFPS数据\cfps2010adult.dta
%%将匹配结果以生成一个新变量_merge显示出来
tab _merge
%%将完全匹配上的数据保留,未匹配上pid的数据删除
keep if _merge==3

在这里要进行一点说明,如果我们需要将三年的数据进行统一,我的处理方法是两年两年进行统一,可以先用2010年的数据将2011年和2012年的数据进行统一,然后就可能出现一种情况:在我们进行完上面的代码操作之后,2011年和2012年的数据确实与2010年的完全匹配上了,但是这三年的数据量还是不一样。

如果出现以上的情况,我建议的处理方法是先把2011和2012年的_merge变量用drop _merge先删掉,然后找出三年中数据量最少的那年数据,以它为基准,对剩下两年的数据用merge语句进行进一步的匹配处理。如果不把之前的merge删掉,那么stata就会显示出错哈(:别问我是怎么知道的,问就是我就是这么一次次被stata折磨过来的)

上面的步骤结束之后,我们就全部结束了数据匹配工作,接下来就可以进行一些有关变量值的处理,如codebook pid语句可以查看变量pid的基本情况,比如数据量和缺失值情况,然后可以根据我们的需求进行数据缺失值的删除——直接使用下面这段代码即可。

eden mis =rowmiss(:all)
drop if mis

好叭,以上就是本篇博客的全部内容,如果能够帮助到同样作为新手小白的你,我将万分荣幸。也希望你们能够像我一样多多把自己的经验显示出来,方便更多的友友们涉水stata或者其他编程语言哇~前人栽树后人乘凉嘛哈哈。

Stata初步处理CFPS数据(merge)相关推荐

  1. append 后如何删除_如何在STATA中合并数据文件呢?

    ❝ 作者:江小白 邮箱:jieresearch@163.com ❞ 我们在使用stata进行数据分析时,可能涉及多个数据文档的合并操作或者同时使用不同数据集中的多个变量,这都需要我们进行文档间不同变量 ...

  2. Stata画出数据的时间序列折线图和拟合趋势线

    第一个:画股票的 ssc install cntrade,replace cntrade 600519 //这里用茅台股展示 gen t=_n drop if t<3893 drop if t& ...

  3. 数据名称:中国家庭追踪调查数据CFPS数据年限:2010-2020中国家庭追踪调查(China Family Panel Studies,CFPS)旨在通过跟踪收集个体、家庭、社区三个层次的数据,

    数据名称:中国家庭追踪调查数据CFPS 数据年限:2010-2020 中国家庭追踪调查(China Family Panel Studies,CFPS)旨在通过跟踪收集个体.家庭.社区三个层次的数据, ...

  4. (一)数据清理之stata的使用----------数据的导入,导出;do文件的使用问题

    stata是国内大学常用的统计型软件之一,相比于MATLAB.SAS这种相对专业型的数学编程软件来说,stata的学习相对简单,相对于SPSS来说,它又更侧重编程,当然这几种软件都可以进行编程,但以我 ...

  5. Stata:面板数据的稳健回归-xtrobreg和robreg

    全文阅读:Stata:面板数据的稳健回归-xtrobreg和robreg| 连享会主页 目录 1. 引言 2. 理论背景 2.1 一阶差分估计 2.2 成对差别估计 3. 命令介绍 3.1 命令安装 ...

  6. 实证研究之|stata清洗charls数据

    首先整理出一年的数据 stata的下载来源于学校官方软件下载,只有英文版,博主的电脑为mac 第一步,use data,直接将数据拖进stata即可use 第二步:点击上方data查看数据,前三列标黄 ...

  7. python假设检验平均_Python|Excel|SPSS|R|Stata|Eviews统计数据假设检验T|F|卡方检验

    拍价即为成交价,不按数据量.任务量收费,价格透明,不用询价,节省时间 现在不说专业高效这些话,相信我的认真负责能够赢得您的认可 使用各种统计数据分析软件提供数据分析服务,包含数据整理.处理.清洗.挖掘 ...

  8. Stata基础自学——数据查看

    数据查看 本博客为未明学院<零基础Stata训练营>课程学习笔记 基本命令 list: 列出当前内存中的所有数据 browse: 使用数据浏览器打开当前内存中的数据 label data ...

  9. 【Stata】CGSS数据清理:Codebook速成法

    对数据使用者来说,了解一个调查数据基本情况的常见途径就是查看该数据的codebook. 对数据所有者/提供方来说,制作一份详细的codebook是其数据管理工作中不可或缺的一环. 2016年上半年CG ...

  10. STATA导入excel数据为红色的解决办法

    方法一:创建新的符合格式的变量(方法二更简单) *如果Stata可以直接打开你的数据表格的话就直接打开,不能的话就用import导入excel表格 describe //可以看到数据格式是str,文本 ...

最新文章

  1. HDU 6265 Master of Phi
  2. php性能优化 --- laravel 性能优化
  3. JeecgBoot 移动OA 新版本上线啦!!!
  4. web容器 ejb容器_容器实用指南
  5. Java练习02 打印三角形
  6. 框式交换机指示灯提示信息
  7. 项目部署,环境搭建(pip/ makefile)
  8. 金融破段子 | 如果早知赚钱概率只有8%,你会不会改变投资策略
  9. 在mudbuilder上的胡扯1
  10. 【转载】SAP Smartform A5 针式打印机 打印格式横向问题
  11. 前端网站开发页面重定向的几种方法
  12. 第41课:Checkpoint彻底解密:Checkpoint的运行原理和源码实现彻底详解
  13. myeclipse8.5 TPTP插件的使用问题
  14. 聊聊路径规划算法—快速搜寻随机树算法
  15. Java试用两个月,我快被劝退了
  16. 时间格式化问题@DateTimeFormat和@JsonFormat的区别
  17. send函数和recv函数
  18. ORACLE 12C EM 端口5500关闭及如何修改默认端口
  19. android studio 配置+安装
  20. springmvc如何获取CheckBox数据

热门文章

  1. 如何找项目写到简历中
  2. 二元函数对xy同时求导_《高等数学》微课视频“二元函数的全微分求积”录音...
  3. ABAQUS仿真——子弹冲击、热传导
  4. Github Action 指南
  5. 自动安装L2tp的脚本
  6. AUTOSAR和OSEK关系及网络管理比较
  7. windows10系统 java JDK下载安装及环境变量配置教程
  8. JCTF Writeup
  9. Spotfire 表达式中的属性
  10. 在线作图|2分钟绘制一张精美的火山图(Volcano Plot)