[yzhpdh多读paper]Does country-level RD efficiency benefit from the collaboration network structure

2016年发布

Abstract

研究合作网络结构对R&D efficiency的影响。

不仅通过output quantitive 衡量R&D结构的表现，还使用了input-output efficiency score

构建了一个独一无二的数据集使得可以在国家层面构建7个科学合作网络

使用Malmquist productivity index(曼奎斯特生产率指数)与数据包络分析方法(Data Envelopment Analysis,DEA)

Version:0.9 StartHTML:0000000105 EndHTML:0000000772 StartFragment:0000000141 EndFragment:0000000732

The clustering coeffificient (CC), structural holes (SH), degree centrality (DC), closeness centrality (CNC), and betweenness centrality (BC) 被用于综合分析合作网络的结构属性

panel data model(面板数据模型)用来探索网络属性对R&D效率的影响

我们的研究结果不仅再次证实了协作网络结构对国家层面的科研成果的影响，而且还表明更高的SH、DC、CNC和BC水平与更高的未来效率呈正相关。

接下来先着重了解一下以上涉及到的方法和理念

clustering coeffificient:集聚系数（也称群聚系数、集群系数）是用来描述一个图中的顶点之间结集成团的程度的系数。具体来说，是一个点的邻接点之间相互连接的程度

structural holes:结构洞，即社会网络中某个或某些个体和有些个体发生直接联系，但与其他个体不发生直接联系，即无直接关系或关系间断，从网络整体看好像网络结构中出现了洞穴。

如果两者之间缺少直接的联系，而必须通过第三者才能形成联系，那么行动的第三者就在关系网络中占据了一个结构洞

degree centrality：度中心性（Degree Centrality）是在网络分析中刻画节点中心性（Centrality）的最直接度量指标。一个节点的节点度越大就意味着这个节点的度中心性越高，该节点在网络中就越重要。

closeness centrality：计算一个节点到所有其他可达节点的最短距离的倒数，进行累积后归一化的值。紧密中心度可以用来衡量信息从该节点传输到其他节点的时间长短。节点的“Closeness Centrality”越大，其在所在图中的位置越靠近中心。

betweenness centrality ：用一个结点承担最短路桥梁(shortest path/bridge)的次数除以所有的路径数量。

keywords

Collaboration network ，Structural holes ，Degree centrality ，Closeness centrality Abetweenness centrality ，Country-level R&D effificiency

1.Introduction

这部分强调了科技发展是国家长期发展的主要驱动力。

效率最高的研究人员也是参与合作最多的研究人员

说明了合作网络的好处

现存研究充分运用社会网络分析法、调查研究者网络对其R&D的影响

以往研究员是以result-oriented，而这篇文章结合了process-oriented与result-oriented

这篇文章基于SCI(Science Citation Index)与SSCI(Social Science Citation Index)数据库

构建了一个国家层面的科学合作网络，并将每个国家作为一个node

文章将每个国家的R&D活动作为一个黑盒，并且收集输入与输出变量，并将Malmquist-DEA衡量R&D efficiency的变化，本文还将R&D efficiency 分解成 efficiency change与technical change，最后几个 panel data model(面板数据模型)被用于调查network structure与efficiency的关系

2.Theoretical background and hypothesis

这是这篇文章的理论模型，h1(a)(b)代表的是各种假设，这部分依据左边图中蓝色的属性提出假设，(a)类型假设一般就是xx属性与future efficiency成正相关，(b)类型假设一般就是xx属性与future R&D outputs成正相关

3.Methodology

3.1 Research settings

3.1.1合作网络结构

从1996～2006之间以5年为窗口抽取数据生成7个合作网络结构，只有两个国家共同产出600篇(阈值）以上文章才算连接，文章也尝试过其他三个阈值，然后panel data model都是比较稳定的

文中使用文章合作网络去反映国家级别的R&D合作活动

3.1.2 R&D efficiency

文章通过inter-temporal DEA bootstrap估计technological innovation efficiency，基于global Malmquist index观察全年效率变化，对于research efficiency也是基于相似方法

注：数据包络分析（Data envelopment analysis，DEA）是运筹学和研究经济生产边界的一种方法。该方法一般被用来测量一些决策部门的生产效率。

文章还提到的MRC(Malmquist R&D productivity change)，这个指标>1代表效率上升，=1没变化，<1 变弱。

MREC(Malmquist R&D productivity efficiency change)

MRTC(Malmquist R&D productivity technical change)类似

3.2 Data

3.2.1 R&D activity的输入输出

full-time equivalent researchers(FTE). -----> R&D manpower

Gross domestic expenditure(GERD). -------->不同R&D花费的合并

prior accumulated knowledge stocks(KS) ------->input,与knowledge generation有强正相关

被USPTO(PATENT)授权的专利与在科学期刊上发表的文章------->作为输出

然后阐述了一下收集数据时遵循的原则，这里有拿和之前工作做对比的描述

3.2.2 Variables in panel data model

dependent variables:PAPER反映output quantivity、MRC、MREC、MRTC反映input-output efficiency

independent variables：CC、SHs、DC、CNC 、BC

control variables：PC（人均计算机）、UE（大学教育质量）、YIS（年轻人对科学的兴趣）

3.3 statistical approaches

估计一个只包含控制变量的基线模型。
我们分别在基线模型中引入五个自变量。相应地获得了五个单独的模型。
同时将所有控制变量和自变量引入一个单一模型，以获得完整的模型。

我们估cross-section random effect model，因为豪斯曼检验不能拒绝随机效应规范（p=0.096）。Greene（2002）指出，当因变量为计数数据时，线性模型导致系数的估计存在偏差和不一致,因此计数模型被用于PAPER，我们使用negative binomial model，因为前者施加常数方差。此外，普通最小二乘法（OLS）适用于MRC、MRTC和MREC。cross-section random effect model的使用允许constants(常数)因国家而异。这些不同的constants呈现出难以理解的国家特征,但可能会影响研发绩效。

4.Results

CC比较高，说明国家间合作比较密切

作者还考虑到了multicollinearity problem(多重共线性问题)、autocorrelation problem（自相关问题）、endogeneity(内生性)

多重共线性问题

在进行线性回归分析时，容易出现自变量（解释变量）之间彼此相关的现象，我们称这种现象为多重共线性。适度的多重共线性不成问题，但当出现严重共线性问题时，会导致分析结果不稳定，出现回归系数的符号与实际情况完全相反的情况。本应该显著的自变量不显著，本不显著的自变量却呈现出显著性，这种情况下就需要消除多重共线性的影响。

自相关性会导致的问题

图片截取自（第六章第二节自相关性的后果 - 百度文库

内生性（来自内生性问题的产生和解决办法_大太阳小白的博客-CSDN博客_内生性问题

对于一个回归问题，回归方程如下：

$y = \beta _{0}+\beta _{1}x_{1} + \varepsilon$

简单来说内生性就是自变量x1与扰动项 $\varepsilon$ 存在相关性，即 $cov(x_{1},\varepsilon ) \neq 0$ ，存在内生性那么用OLS（ols 全称ordinary least squares，是回归分析（regression analysis）最根本的一个形式）就无法得到无偏估计，结论就不可靠

然后文章用了很多数学模型方法来论证文章中模型的健壮性、结果的可靠性

discussion and conclusion

越来越多的研究探讨了协作网络的工作结构如何影响节点性能。

我们试图通过论证网络结构对国家层面研发绩效的影响来扩展这一研究领域。我们分别使用产出数量和投入产出效率作为研发绩效进行了检查，以提供可靠和潜在的证据。

我们构建了一个独特的数据集，使我们能够从1996年到2006年绘制七个国家级合作网络。
我们收集网络中每个国家的研发数据。
CC、SH、DC、CNC和BC用于测量网络结构的特性，MRC、MRTC和MREC用于测量效率的变化。
我们通过引入一组关键观测值来控制国家间的异质性，如PC、UE、YIS和PP。
我们同时将最相关的网络指标纳入我们的面板数据模型。与该领域的早期研究相比

我们的论文通过增加一个新的以三种不同方式（MRC、MREC和MRTC）测量的过程变量，并将其纳入由国家而非个人或公司形成的新实证文本中

我们从研发过程的角度引入了一个新的研发绩效指标，即由多个输入和输出推导出的研发效率，为网络效应提供了新的证据。据我们所知，我们是第一个展示网络结构如何影响研发效率的人。与以结果为导向的R&D产出作为R&D绩效不同，由R&D投入到R&D产出的转化质量决定的以过程为导向的R&D效率体现了R&D活动的管理和运营绩效。对研发效率的影响分析可以为县级网络效应提供补充证据，有助于揭示研发产出提高的根本原因。根据我们的研究结果，可以将几个有趣的新观点纳入到研究合作非常重要且应该推广的既定概念中（Price and Beaver，1966）。因此，科学合作产生的网络结构在国家一级很重要。网络结构还影响国家的产出数量和投入产出效率。

处于SH（结构洞）位置的国家意味着该国的科学家可以轻松获取互补的非冗余信息。一个拥有高DC（度中心性）的国家至少意味着两个重要条件。

这个国家比DC低的国家有更多活跃的科学家。
这个国家的科学家是全球性的，他们进行了几次国家间的合作。在这种情况下，科学家们会接触到新知识、新发现和新想法。

高CC国家的科学家可以迅速从其他国家获得知识和信息。一个高BC的国家意味着这个国家的科学家可能有很多机会从海外获取新知识和信息。

一般来说，高SH、DC、CNC和BC可以增加科学家的知识获取，促进他们的知识（再）结合。在这种情况下，科学家们可以进一步提高他们的创造力和生产力。

在国家一级，当研发活动的“技术”得到改进时，可以考虑这些单独变化的集合。因此，SH、DC、CNC和BC可能与未来效率的提高正相关。MRC的实证结果验证了SH、DC和CNC与研发效率正相关且显著。MRTC的实证结果表明，SH、DC、CNC和BC的系数为正且显著。

SH、DC、CNC和BC可以很好地解释MRTC。因此，这些变量可以影响研发效率，因为它们对MRTC有积极而显著的影响。

本研究中的其他几个问题也值得讨论。

PP始终与未来的出版物显著且积极地相关，强调了研发基础设施对研发活动的重要性。Guan和Chen（2012a）以及Wang和Huang（2007）假设外部环境变量可以影响研发效率。

我们的研究结果表明，一个UE和YIS（大学质量与青少年对科研的兴趣）较高的国家可以实现较高的研发效率。这种情况的一个可能解释是，高UE和YI意味着高质量的研发人力。然而，我们无法确定UE或YIS是否与PAPER显著相关，可能是因为产量主要取决于研发活动的规模。

其次，我们认为我们研究的样本量值得注意。关于什么构成回归分析的准确和充分样本量的讨论已经持续了多年。最普遍接受的规则是每个独立样本至少需要10个样本变量（哈里斯，1985）。由于数据可用，我们的研究涵盖了七年的时间段，涉及224个样本。我们在模型中使用了五个自变量和四个控制变量，这需要至少90个样本。因此，我们数据集的样本量足够大，可以获得准确的实证结果。

尽管做出了相关贡献，但这项研究仍存在一些局限性。

鉴于我们只开发了本研究中使用的国家间协作网络，每个网络仅包含32个节点。
一些国家（如俄罗斯）的数据缺失情况严重，我们无法将其纳入数据集中。
我们不考虑国内合作网络。这些限制将在我们未来的研究中解决。除国家间合作网络外，我们还将为每个国家构建个人层面的国内合作网络。
还将研究这些网络对研发绩效的影响。未来的研究还应该探索这些网络之间的相互作用。