作者:潘星宇 (清华大学)

Stata 连享会: 知乎 | 简书 | 码云时间: 2020.7.28-8.7

主讲嘉宾:连玉君 (中山大学) | 江艇 (中国人民大学)

课程主页:

空间计量方法已经成为了时下最为热门和常用的计量方法之一,而空间权重矩阵的构建则是运用空间计量方法时必不可少的“标准动作”。但在实际研究过程中,我们往往会遇到很多问题。例如,目前网络上能获取到的矩阵与我研究的样本不匹配;例如,做回归时时需要剔除一些样本单位,但如何构建与之对应的空间权重矩阵;再例如,如何构建一些广义上的“空间”权重矩阵,等等。本期我们就来和大家一起了解一下权重矩阵的构建。

1. 空间权重矩阵原理简介

通常定义一个二元对称空间权重矩阵来表达 n 个位置的空间个体(例如区域)的邻近关系:

理论上讲,不存在最优的空间矩阵,即无法找到一个完全描述空间相关结构的空间矩阵。空间矩阵的构造必须满足 「空间相关性随着 ‘距离’ 的增加而减少」的原则。

需要注意的是。在空间计量中,“距离(counterfacutal) ” 的定义可以是广义的,包含但不限于地理上的相邻或者欧氏距离,也可以是经济意义上合作关系的远近,甚至可以是社会学意义上的人际关系的亲疏。

1.1 简单空间权重矩阵

最简单的空间权重矩阵是所谓的「二进制空间权重矩阵」,使用 0 和 1 来标记个体之间的空间相邻情况,属于 定性 界定。

简单二进制邻接矩阵

简单的二进制邻接矩阵的第

行第

列元素为:

基于距离的二进制空间权重矩阵

这类空间权重矩阵的第

行第

列元素为:

广义「相邻」概念的二进制空间权重矩阵

如前文所述 “相邻” 可以有不同的定义。一般来说从最基本的空间概念出发,有 Rook 相邻 、Queen 相邻 等。 Rook 相邻指的有一段共同的边即认为两个单位相邻,Queen 相邻认为只要存在顶点相接,就认为两地区为 "邻居" 关系。此外还可以定义成二者 是否有相同方言 、是否同属于一个城市群 ,等等。

1.2 基于距离的空间权重矩阵形式

若考虑距离的相对大小,想要从「定量」角度刻画空间相邻性,可以使用如下权重定义方法:

其中:

分别表示某个省份(比如地理几何中心,省会(首府)) 的纬度和经度;

为两个省份间经度之差;

为地球半径,等于 3958.761 英里。在实际应用中,常对空间权重矩阵进行行标准化,空间权重矩阵的对角元素设为 0。

2. 空间权重矩阵构建的准备工作

要构建自己 “定制的” 空间权重矩阵,首先需要获得所研究空间单元的地理位置信息文件,以便于 Stata 判断相对或者绝对地理位置。这些信息通常来自于对研究单元对象的 ESRI Shapefile 文件(也就是 Stata 绘制地图时需要的所谓 “底图” 文件)。 中国的 shapefile 文件包括省级,市级和县级等各个层面的数据,可以在国家基础信息中心申请下载,或者从一些公开的网络资源获取。

本文采用中国省级行政区 shapefile 作为演示数据。

一个完整的 shapefile 文件由以下几个文件组成:省级行政区.dbf

省级行政区.shp

省级行政区.shx

省级行政区.prj

省级行政区.shx

2.1 编辑 shapefile 文件

目前,Stata 中还没有能对 shapefile 文件进行编辑的命令。这一步骤一般采用 ArcGIS 或 arcview 等软件来进行。由于这一步非常重要,因此我们以 ArcGIS 软件为例,做一个简单的演示。

第一步:导入 shpefile 文件

在 ArcGIS 主界面中,点击下图中红圈所示的图标,然后按提示选择硬盘上存储的 shpefile 文件,即可将其导入 ArcGIS。

第二步:编辑 shpefile 文件

这里假设我们的研究对象不含西藏自治区、香港特别行政区、澳门特别行政区以及台湾省,我们就需要在编辑器当中把这四个要素删除。

首先选中图层,右键菜单中选择 “开始编辑”,

右键图层打开属性表,删除上面提到的四个要素:

第三步:导出 shapefile 文件

再右键图层,选择 导出数据 :

这样,我们就有了符合我们需要的空间权重矩阵构建的 shapefile 文件,下面就需要将其导入 Stata 以便做后续分析了。

2.2 在 Stata 中导入 shapefile 文件

若采用空间面板数据模型进行建模,则还需要找出这些省份的经纬度等地理信息。前文已经说明了如何下载 shapefile 文件,该文件中即包含了各个国家的地理信息。那么可以将研究单元数据和 shapefile 进行合并。这里需要用到 mif2dta 或 shp2dta 命令来读取 shapefile 文件。该命令为外部命令,安装方式参考「 Stata: 外部命令的搜索、安装与使用」 。需要注意的是, 只有经纬度信息的数据集不能用于二项式空间权重矩阵的构建 ,关于这一点我们将在下文中说明。

这一过程主要是将 .shp 格式的文件编译成stata可以读取的文件,主要采用 shp2dta 命令完成。

我们来看看 shp2dta 命令的基本语法:

. shp2dta using shpfilename, ///

database(filename) coordinates(filename) ///

genid(newvarname) gencentroids(stub)

其中,coordinates(filename) 指定包含 .shp 文件数据的新 Stata 数据集的名称。

database(filename) 指定包含 .dbf 文件数据的新 Stata 数据集的名称。

genid(newvarname) 指定新数值变量的名称,该数字变量在文件 database.dta 中将唯一标识感兴趣的不同地理区域。newvarname 采用的值将对应于文件 coordinates.dta 中变量 _ID 所采用的值。

gencentroids(stub) 选项可以计算出地理区域的质心的坐标,存储在变量 x_stub 和 y_stub 中,并添加到文件 database.dta 中。 但我们还必须指定 genid(newvarname) 选项。

. shp2dta using "C:\Users\xypan\Desktop\连享会推文\空间权重矩阵的构建\空间权重矩阵底图\30个省市自治区.shp", ///

database(data_db) coordinates(data_xy) ///

genid(weightid) gencentroids(stub) replace

. use data_db, clear

. rename NAME province

. list province x_stub y_stub in 1/10

+------------------------------+

| province x_stub y_stub |

|------------------------------|

1. | 黑龙江 47.8418 127.725 |

2. | 新疆 41.112 85.2009 |

3. | 山西 37.5698 112.263 |

4. | 宁夏 37.2681 106.158 |

5. | 山东 36.3217 118.107 |

6. | 河南 33.8743 113.581 |

7. | 江苏 32.9807 119.42 |

8. | 安徽 31.8229 117.197 |

9. | 湖北 30.9677 112.239 |

10. | 浙江 29.1659 120.023 |

+------------------------------+

读取 shapefile 文件后,可以发现有 x_stub 和 y_stub 两个变量,分别代表了对应省份的的地理坐标。

接下来将带有地理坐标的 data_db.dta 文件和我们的数据文件匹配起来,命名为 spatialweight_province.dta:

merge 1:m province using "C:\Users\xypan\Desktop\连享会推文\空间权重矩阵的构建\省级数据.dta"

keep if _merge==3

drop _merge

save "C:\Users\xypan\Desktop\连享会推文\空间权重矩阵的构建\spatialdata_province.dta", replace

到此我们完成了几乎所有的准备工作,下一步开始正式构建空间权重矩阵。

3 空间权重矩阵的构建

3.1 命令说明

生成距离空间权重矩阵的命令语法为

spwmatrix gecon varlist [if] [in], ///

wname(wght_name) [wtype(inv) cart r(#) ///

dband(numlist) alpha(#) knn(#) ///

econvar(varname1) beta(#) Other_options]

主要选项的含义如下:wname(wght_name) 表示要生成的空间权重矩阵的名称

wtype(bin | inv | econ | invecon | socnet | socecon) 分别代表二进制,距离衰减,经济距离,逆经济距离,社会网络或社会经济空间权重

dta 选择该选项以从 .dta 文件导入空间权重

text 选择该选项以从逗号或制表符分隔的文本文件导入空间权重

swm(idvar_name) 导入 ArcGIS 中生成的空间权重

knn(#) 请求最近邻空间权重

econvar(varname1) 可用此选项构建经济或逆经济距离空间权重

beta(#) 指定指数函数的系数 β; 默认测试版 (1)

cart 表示纬度和经度采用笛卡尔坐标,这是默认选项 (一般我们也使用的是这个);如果采用球面坐标则只能选择 r(#),此时不能同时选择 cart,并且需要指定地球半径距离(英里),一般默认填写 r(3958.761);

dband(numlist) 表示最大的权重矩阵边界,其中的 numlist 表示确定边界的变量,一般是各省份代码的最大值;

alpha(#) 表示参数限制范围,默认为 alpha(1) ;

3.2 反距离空间权重矩阵

use spatialdata_province.dta,clear

spwmatrix gecon x_stub y_stub , wn(spatialweight_province) wtype(inv) cart alpha(1)

xport(spatialweight_province,txt) row replace \\生成名为 spatialweight_province 的权重矩阵

spmat import spatialweight_province using spatialdata_province.txt,replace \\导入 spatialweight_province 权重矩阵

spmat save spatialweight_province using spatialweight_pro.spmat,replace //将生成的 spmat 权重文件存储为spatialweight_pro

spmat use spatialweight_pro using spatialweight_pro.spmat,replace //打开 spmat 权重文件

matrix list spatialweight_pro //查看 spatialweight_pro 权重矩阵

这样,反距离空间权重矩阵就生成了,由于矩阵展开太大,囿于篇幅限制这里不做展示。

3.3 经济距离空间权重矩阵

经济距离矩阵的计算公式为

use spatialdata_province.dta,clear

spwmatrix gecon x_c y_c, wn(province) wtype(invecon) cart econvar(GDP_2000) rowstand xport(spatialdata_province,txt) replace\\由于选择的是 invecon(经济反距离矩阵)因此需要声明相应的经济变量

spmat import spatialweight_province using spatialdata_province.txt,replace //生成以spatialweight_province 为名称的 spmat 权重文件

其他导入、存储和查看方法同上,不再赘述。

3.4 地理相邻空间权重矩阵

构建地理相邻空间权重矩阵时,之前计算的含有地理坐标的 spatialdata_province.dta 文件将不再适用,需要将我们编辑好的 .shp 文件导入 Geoda 软件,再导出 .gal 文件,再使用 spwmatrix 命令进行编译即可使用。导入过程非常简单,故在此略过。

use spatialdata_province.dta,clear

spwmatrix import using C:\连享会推文\空间权重矩阵的构建\空间权重矩阵底图\spatialdata_province.gal,wname(wcontig) xport(spatialdata_province, dat) \\.gal 只能导出 .dat (不是 .dta,.dat 是 R 语言中一种通用的文件格式)格式的文件

spmat import spatialweight_province using spatialdata_province.dat,replace

其他导入、存储和查看方法同上。

3.5 广义的 “相邻” 空间权重矩阵

这里我们采用文章开头提到过的二者是否有相同方言,我们采用徐现祥老师公布的方言数据,将方言赋值(因为 spmatrix 命令无法识别字符型变量),官话赋值为1,吴语赋值为2,以此类推。同属于一个方言区的省份我们赋值为1,不同的我们赋值为0.

use fangyan.dta, clear

spwmatrix socio fangyan_id, wname(fangyan) wtype(socnet) idvar(provinceid) xport(spatialdata_province,txt) \\fangyan_id代表我们的方言代理哑变量

其他导入、存储和查看方法同上。

4. 结语在完成了权重矩阵的构建后,就可以用它进行空间计量回归了,具体的操作可以参考我们的推文「Stata: 空间面板数据模型及Stata实现」 。

另外需要注意的是 ArcView 、 ArcGIS软件 和 MATLAB 软件也可以进行空间权重矩阵的构建,我们也看到了甚至一些关键步骤也必须经过这些个软件的操作(也有其他软件,在此不一一列举)。对这方面有兴趣的同学可以选择性地学习一下。其中 ArcView 相对更加轻量,不像后两种软件动辄 10G 大小。

目前 Stata 15.x 版本中发布的 xsmle 等命令可以也支持多个空间权重矩阵的回归。

参考文献

相关推文特别说明: 文中包含的数据可以到 [连享会|码云] 下载。文中包含的链接在微信中无法生效。请点击本文底部左下角的【阅读原文】。

相关课程部分直播课

Note: 助教招聘信息请进入「课程主页」查看。因果推断-内生性 专题 ⌚ 2020.11.12-15

主讲:王存同 (中央财经大学);司继春(上海对外经贸大学)空间计量 专题 ⌚ 2020.12.10-13

主讲:杨海生 (中山大学);范巧 (兰州大学)关于我们Stata 连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。

公众号推文分类:计量专题 | 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。连享会小程序:扫一扫,看推文,看视频……扫码加入连享会微信群,提问交流更方便

二进制空间权重矩阵_Stata_ 空间权重矩阵的构建相关推荐

  1. 二进制空间权重矩阵_空间权重矩阵(SWM)

    基本原理 如何利用数学(如用面积.距离等)建立空间数据和非空间数据之间的关系?对于空间统计而言,空间权重矩阵是一种有效的表达空间关系的方式.因此,它是用量化的方法表示了数据之间的"空间结构& ...

  2. 285个地级市空间权重矩阵(空间邻接、地理距离、经济距离、经济地理嵌套矩阵)

    285个地级市空间权重矩阵(空间邻接.地理距离.经济距离.经济地理嵌套矩阵) 1.范围:285个地级市 2.数据包括:包括空间邻接矩阵.空间地理距离矩阵.空间经济距离矩阵.空间经济地理嵌套矩阵 其中空 ...

  3. 空间计量 python_一文读懂空间计量入门之空间数据、权重矩阵、空间统计、空间模型等简介...

    原标题:一文读懂空间计量入门之空间数据.权重矩阵.空间统计.空间模型等简介 来源:计量经济学服务中心编辑整理,转载请联系 1 前言 空间分析起源于地理学.空间经济学和相关学科.到目前为止,它被认为是专 ...

  4. sklearn使用投票器VotingClassifier算法构建多模型融合的软投票器分类器(soft voting)并自定义子分类器的权重(weights)、计算融合模型的混淆矩阵、可视化混淆矩阵

    sklearn使用投票器VotingClassifier算法构建多模型融合的软投票器分类器(soft voting)并自定义子分类器的权重(weights).计算融合模型的混淆矩阵.可视化混淆矩阵 目 ...

  5. 【数据分析】目标优化矩阵表确定权重

    在数据分析过程中,某一分析结果可能不能通过数据直观的看出,而是需要把多个指标综合在一起进行评价从而得到最终结果.综合评价分析过程中,经常遇到的问题就是各个指标如何确定在总评分中所占比例,也就是权重.确 ...

  6. 形象理解线性代数(三)——列空间、零空间(核)、值域、特征值(特征向量)、矩阵与空间变换、矩阵的秩

    这里,我们还是要以 形象理解线性代数(一)--什么是线性变换?为基础.矩阵对向量的作用,可以理解为线性变换,同时也可以理解为空间的变换,即(m*n)的矩阵会把一个向量从m维空间变换到n维空间. 一.矩 ...

  7. 矩阵指数 matlab,空间计量-矩阵指数空间模型

    原标题:空间计量-矩阵指数空间模型 空间计量经济学 Matlab应用学习手册 空间计量经济学创造性地处理了经典计量方法在面对空间数据时的缺陷,考察了数据在地理观测值之间的关联.近年来在人文社会科学空间 ...

  8. 数组,向量和矩阵以及空间的维数

    数组,向量和矩阵以及空间的维数 1.Python列表和Numpy数组的区别: 2.Numpy数组和矩阵的区别: 3.matlab关于矩阵的维数的解释 1.Python列表和Numpy数组的区别: 此处 ...

  9. 离散数学实验2 关联矩阵、相邻矩阵、生成树、环路空间、断集空间的求解 C++

    离散数学实验报告2 文章目录 离散数学实验报告2 一.实验题目 二.实验目的 三.实验要求 四.实验步骤和内容 需求分析: 输入形式与输入范围 概要设计: 使用的数据结构与算法: 程序流程: 详细代码 ...

  10. Unity Shader入门精要笔记(四):矩阵与空间变换

    本系列文章由Aimar_Johnny编写,欢迎转载,转载请标明出处,谢谢. http://blog.csdn.net/lzhq1982/article/details/73612170 上一篇我们学习 ...

最新文章

  1. 使用CSS3各个属性实现小人的动画
  2. AbstractListView源码分析6
  3. mysql清理 frm_通过.frm .ibd文件恢复MySQL数据
  4. 操作系统基础知识笔记
  5. Ubuntu 10.10升级显卡驱动后开机动画低分辨率问题
  6. 【PyQt5 知识点示例代码】布局、菜单、信号与槽、对话框、组件
  7. node.js 设置 淘宝 镜像
  8. Oracle导入导出之dmp
  9. J2EE和.NET技术
  10. matlab两个运动同时进行,多体运动的matlab动画演示
  11. 土地资源管理就业怎么这么难_我所理解的土地资源管理专业
  12. 有哪些好用且免费的安全测试工具?
  13. Python使用在线接口SDK模块(baidu-aip)实现人脸识别
  14. 如何关闭mysql secure_file_priv
  15. 这个毕业季,让海马体照相馆为简历添“战斗力”
  16. em算法 图像模糊检测_基于EM算法的眼底OCT图像反卷积去模糊技术
  17. ABP vNext 实现租户Id自动赋值插入
  18. 影像组学平台助力又一位培训班学员论文见刊:基于机器学习的多参数MRI放射组学预测直肠癌患者新辅助放化疗后不良反应
  19. 侵入式及非侵入式概念
  20. 软件测试计划怎么写?模板在这呢

热门文章

  1. 超好玩的vbs代码 (恶作剧代码)
  2. cad计算机功能键,【答疑】Auto CAD2014计算器快捷键是什么呢?? - 视频教程线上学...
  3. 04-新拟物单选按钮样式
  4. java导出excel超出255,快逸报表页面超过255列导出excel
  5. win10为单个网卡配置多个IP地址
  6. Win10鼠标宏怎么设置?电脑设置鼠标宏的方法
  7. HighNewTech:新物种?这是一种不需要写代码的程序猿,这事,得从Ta们掌握了 iVX工具(首个无代码编程语言)说起……
  8. 如何查询淘宝天猫的宝贝类目
  9. 加密狗检测不到mysql_广联达检测不到加密锁
  10. 大众点评字体_【网络爬虫实战】解决大众点评搜索页面字体加密