本文转载自:https://www.jianshu.com/p/c1859e8e5937

VOSviewer是众多科学知识图谱软件之一,即通过“网络数据”(主要是文献知识单元)的关系构建和可视化分析,实现科学知识图谱的绘制,展现知识领域的结构、进化、合作等关系,其突出特点是图形展示能力强,适合大规模数据。

image
一、VOSviewer概况

(一)开发历程

VOSviewer是荷兰莱顿大学科技研究中心[1](The Centre for Science and Technology Studies, CWTS)的van Eck 和Waltman[2]于2009年开发的一款基于JAVA的免费软件,至今已更新至1.6.6版本(2017年10月23日发布)[3],主要面向文献数据,适应于一模无向网络的分析,侧重科学知识的可视化。

(二)下载安装介绍

1、本地安装使用:JAVA(java 6或更高版本) + VOSviewer

(1)安装JAVA6或更高版本:https://www.java.com/zh_CN/

(2)下载VOSviewer安装包:http://www.vosviewer.com/download

提供windows、mac OS X及其他系统三种系统安装包支持)
(3)运行:解压VOSviewer安装包,直接点击exe文件运行即可

image
2、网页使用:

打开http://www.vosviewer.com/vosviewer.php,下载vosviewer.jnlp文件并启动。

二、软件功能介绍

(一)主要功能介绍

VOSviewer软件设计的核心思想是“共现聚类”,即两个事物同时出现代表它们之间是相关的;这种相关关系存在多种类型,它们的强度和方向也不一样;基于关系强度与方向的测度指标聚类,可寻找不同类型的团体。

image
基于共现聚类的分析单元和聚类可视化效果,VOSviewer的主要功能可归结如下:

1、支持多类数据格式

VOSviewer支持文献数据库、通用网络数据及文本数据的导入和分析。其中文献数据库指从web of science、Scopus等主流数据库中下载文献著录数据,在此基础上提取相应的字段构建共现网络,如合作网络、共词网络、共被引和耦合网络等;通用网络数据指用户可以自建节点、联系数据或者直接导入GML或Pajek等网络数据文件实现共现聚类(附录二);文本数据指VOSviewer可以从单行文本中提取主题词,基于主题词在单行中的共现进行聚类,其中文本数据可以来自用户自建文件,也可以来源于相应文献数据库中的标题或摘要字段。

image
image
image
image
2、提供多类视图解读

VOSviewer提供可视化视图包括三种:network visualization(聚类视图)、overlay visualization(标签视图)、density visualization(密度视图)。

(1)Network visualization(聚类视图)

image
visualization:圆圈和标签组成一个元素,元素的大小取决于节点的度、连线的强度、被引量等,元素的颜色代表其所属的聚类,不同的聚类用不同的颜色表示,通过该视图可以查看每个单独的聚类,例如通过主题共现发现研究热点的结构分布、通过作者合作发现研究小团体、通过作者耦合网络发现学者对研究主题的异同情况等。

(2)Overlay visualization(标签视图)

image
visualization:区别于Networkvisualization的特点是用户可以根据自己的研究需要,通过map file文件中的score或颜色(红、绿、蓝)字段对节点赋予不同的颜色。默认按关键词的平均年份取score值进行颜色映射。

(3)Density visualization(密度视图)

image
visualization:图谱上每一点都会根据该点周围元素的密度来填充颜色,密度越大,越接近红色;相反,密度越小,越接近蓝色。密度大小依赖于周围区域元素的数量以及这些元素的重要性。密度视图可用来快速观察重要领域以及某一领域知识及研究密度情况。

(二)其他功能

1、数据清洗功能

数据清洗功能主要依赖于Thesaurus file文件,支持文献数据和文本数据,不支持自定义网络数据。当基于文献数据构建网络时,Thesaurus file可以被用来合并标题、作者名、机构名、国家名、被引文献;当基于文本数据构建网络时,Thesaurus file可以用来合并同义词、单词的不同拼写形式、缩写形式等。Thesaurus file每一行都包含一个标签(如人名、国家名等)和可替代标签,如果可替代标签为空,则原本的标签会被忽略显示,这可以被用来当做语料库的停顿词,或者忽略无意义的词。

2、通用词汇筛选功能

仅支持文本数据,主要针对数量较大、通用性较强但缺乏研究价值的词语,例如结论、方法等词汇,VOSviewer可以计算每个名词的相关度得分,允许用户省略较低得分的主题词,从而只对具有特定意义的词汇进行共现。

3、高级功能

(1)支持网页发布,节点及连线信息的显示可以基于HTML(仅适用于自定义数据)

(2)支持使用命令行

(3)支持内存扩充(解决处理大批量数据内存不足的问题)

三、工作流程及实现技术

image
VOSviewer的处理流程与大部分的科学知识图谱类软件类似,即文件导入——信息单元抽取(如作者、关键词等)——建立共现矩阵——利用相似度计算对关系进行标准化处理——统计分析(一般描述统计+聚类)——可视化展现(布局+其它图形属性映射),其中,关键实现技术包括:

1、数据标准化:支持不标准化、Association strength、Fractionalization LinLog/modularity。

2、聚类算法:VOS聚类

3、布局算法:VOS布局

4、其它图形属性映射:支持用户对(节点/标签/连线/簇)大小/粗细、颜色、形状、标度等图形属性的设置。

四、案例实践

(一)基于关键词共现分析信息计量领域的研究结构

1、数据来源介绍

(1)检索平台:Web of science

(2)检索式:SO=( SCIENTOMETRICS OR JOURNAL OF INFORMETRICS); 时间跨度: 所有年份;索引: SCI-EXPANDED, SSCI,A&HCI;文献类型不限。

(3)检索结果:3874篇(检索时间:2017.11.09)

(4)选取“全纪录与引用的参考文献”,并统一保存为制表符分隔文件(tab delimited)。

2、数据清洗准备工作:编制词表

(1)需要清洗哪些词?

A. 人名消歧(本例不需要)

B. 通用性强、无意义的词(主要针对标题、摘要等,关键词一般不需要):vosviewer内部提供相应的算法,可以计算出该词的通用性,但仅适应于文本数据的分析,在文献著录信息中不能使用。

C. 含义相同、表述相异:缩写词(如social network analysis和SNA)、中英混用、单复数(citation/citations)、同义词、近义词等。

(2)如何建立词表

因为建立词表的成本较高,如果经常做某个领域的分析或严谨性要求较高,可以建立相对完备的词表,一般来说,可以先将数据导入VOSviewer进行初步观察和统计,如果发现干扰词汇较多,可以只针对该批文献集建立词表。本例利用OpenRefine对关键词字段进行聚类,主要对出现频次较高、存在单复数或词性不同的关键词进行了合并,形成如下的用于数据清洗的词表:

image
3、数据分析与图谱解读

(1)导入数据,并进行功能选择

A. 分析单元类型:co-occurrence-all keyword(author keyword+keyword plus)

B. 计数方式:full counting

C. 节点过滤(过滤标准为节点的出现频次≥3、节点度排名前800,大约占总节点的10%) (2)图谱调整与解读

调整布局和聚类参数等获得效果较好的聚类及布局,并导出最终的数据结合图谱进行分析。

A. 聚类视图

image
可以看出,cluster1主要针对专利技术的计量,基于国家、企业层面,研究技术创新、研发及流动规律;cluster2主要是计量理论及方法的研究,其中,方法上侧重网络分析、引文分析、共词分析、知识图谱等,研究对象包括领域结构、发展演变规律等;cluster3是对计量指标的研究,基于引文的数量关系来构建和检验指标,从而运用到具体的领域,如排名、科研评价等;cluster4是对针对传统科学出版物(期刊、论文)的评价研究,除对基于引文的评价方法外,替代计量等新兴指标频次也较高,此外,对科学出版物的评价也围绕不同学科和领域展开;cluster5是针对(国家、大学、学者)科研产出的评价研究;cluster6是对科研合作的研究,主要运用网络分析的相关方法,如社会网络分析中各项测度指标,研究的层面包括学者层次,也涉及国际层面,包括简单网络分析,也涉及复杂网络,不仅设计合作的结构特征,还包括合作结构的演化,cluster7是对跨学科/领域现象的测度研究,该领域研究规模较其他领域相对较小,学者主要纳米技术领域切入对学科交叉型进行测度。

B. 密度视图

image
密度视图可以发现某一研究领域的研究重点和热点,可以看到信息计量领域的研究重点包括引文分析、科研产出评价、科研合作、计量指标、网络分析和专利技术创新。

此外,可以通过时间映射的标签视图探索该领域研究演化情况。

(二)基于中文多源数据分析情报学近三年研究小团体

大部分文献网络可视化的软件主要分析单一来源数据为主,借助自定义网络数据的功能,可以分析来源不同的网络,比如多个数据库的融合,下面以情报学主要的四本中文核心期刊:情报学报(万方收录)、情报科学(CNKI收录)、情报理论与实践(CNKI和万方收录)、情报资料工作(CNKI和万方收录)近三年的发文为数据来源,建立作者合作网络,进行国内情报学研究小团体发现。

1、数据来源介绍

(1)检索平台:中国知网和万方

(2)检索式:中国知网(JN=‘情报科学’+‘情报理论与实践’+‘情报资料工作’);

万方(刊名:情报学报);起始年:2015 结束年:2017

(3)检索结果:中国知网(情报科学;情报理论与实践;情报资料工作):2550篇;万方(情报学报):335篇

2、数据格式转换

将数据导入excel后筛选出作者字段,然后利用Gephi或bibexcel等工具建立作者的共现网络,生成节点数据和关系数据,并建立VOSviewer的分析文件:AU_map.file和AU_net.file,其中map文件中为作者id、标签和发文数量,net为作者的合作关系,导出共现数据后保存在txt文件中。

image
3、数据分析与图谱解读

image
image
image
image
(三)基于被引文献DOI分析信息计量领域的知识基础

在待分析的文献集中,引文的格式为一般为:(作者, 出版年, 来源期刊信息, DOI)因此在进行共被引分析时只能从被引作者和被引期刊来推测引文的主题(知识基础),而VOSviewer最新版本推出的DOI数据分析一定程度上可以弥补之前对引文进行主题分析的限制。但该功能存在一定局限,一是并不是所有文献都有DOI,分析前需要检测样本数据的缺失情况,二是VOSviewer在文本数据主题词提取算法上还存在很大不足,三是VOSviewer在利用DOI进行文本分析时耗时较大,很多情况下还需要扩容。因此下面的案例主要用来说明该功能的用法,结果上还有待考量。

1、数据来源介绍

采用案例一中的数据集

2、数据转换与分析

(1)利用VOSviewer的共被引分析功能,提取出所有的参考文献及被引数量M(dataframe);

(2)将M导入R提取参考文献中的DOI信息;

3874篇文献共引用63543篇文献,但仅有29628篇文献有DOI数据,这里以被引量在前5%(1500篇)的文献作为待分析文献集

(3)将所有参考文献的DOI保存为txt文件,利用VOSviewer的文本数据分析功能进行分析。

image
六、参考资源

1、Manual:VOSviewer_1.6.6;VOSviewer_1.6.5

VOSviewer的官方指南手册,功能介绍详细

2、Eck N J V, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping[J]. Scientometrics, 2010, 84(2):523.

VOSviewer作者发布的软件开发论文,对软件的处理流程和实现技术进行了介绍,另外也可以查一下作者的其他论文,对VOSviewer可以有更好的理解。

3、Ding Y, Rousseau R, Wolfram D. Measuring Scholarly Impact: Methods and Practice[M]. Springer Publishing Company, Incorporated, 2014.

Chapter 13 Visualizing Bibliometric Networks对主要科学知识图谱软件进行了总结和归纳。

4、Aria M, Cuccurullo C. bibliometrix : An R-tool for comprehensive science mapping analysis[J]. Journal of Informetrics, 2017, 11(4):959-975.

虽然是对bibliometrix的介绍,但可以深入了解知识图谱类软件的处理流程。

5、Börner K, Chen C, Boyack K W. Visualizing knowledge domains[J]. Annual Review of Information Science & Technology, 2003, 37(1):179-255.

6、Chaomei, Chen. Science Mapping:A Systematic Review of the Literature[J]. 数据与情报科学学报(英文), 2017(2):1-40.

【参考】

[1] 荷兰莱顿大学科技研究中心:https://www.cwts.nl/

[2] Eck N J V, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping[J]. Scientometrics, 2010, 84(2):523.

[3] VOSviewer官网:http://www.vosviewer.com/

作者:毛里里求斯
链接:https://www.jianshu.com/p/c1859e8e5937
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

VOSviewer软件研究热点分析相关推荐

  1. 金融行业开源软件研究评测报告——JSON组件

    背景 JSON是一种轻量级的数据交换格式,采用完全独立于编程语言的文本格式来存储和表示数据,简洁和清晰的层次结构使得JSON成为理想的数据交换语言.在业务系统中,JSON组件作为数据转换和处理的重要环 ...

  2. 关于开源软件研究的英文论文_关于开源公司软件的7个神话

    关于开源软件研究的英文论文 许多公司都从开源中受益,无数公司选择开放其基础结构的开源组件(甚至是面包和黄油)以回馈社会. 但是,当您向公众开放业务的代码和工作流时会发生很多误解,而且随着公司深入研究如 ...

  3. 铁路计算机软件,铁路信号计算机联锁软件研究与设计原稿_0(全文完整版)

    <铁路信号计算机联锁软件研究与设计(原稿)_0.doc>由会员分享,可免费在线阅读全文,更多与<铁路信号计算机联锁软件研究与设计(原稿)_0>相关文档资源请在帮帮文库(www. ...

  4. 工业软件研究框架_聚焦十四五!先进制造急先锋——工业软件

    十四五规划酝酿正当时. 据新华社,"十四五"规划编制工作自16日起开展网上意见征求. 预计十四五将更注重提高发展质量,更注重内需,更注重发展均衡,更注重创新升级,更注重系统性应对世 ...

  5. Access数据库操作软件研究

    研究了一些不用装Access对mdb数据库做操作的软件:总结如下: 1 此工具可用:可操作记录:执行SQL语句:操作表结构和创建表大概有些难: 2 网上下的,如上图的软件:不可用:疑似病毒: 3 可用 ...

  6. 干货 | 数字经济创新创业——软件研究

    下文整理自清华大学大数据能力提升项目能力提升模块课程"Innovation & Entrepreneurship for Digital Economy"(数字经济创新创业 ...

  7. Mathtype 7.4.4.516软件研究

    前言 emm博客园最近崩了呀...需要的尽快下载. 笔者最近使用MathType进行论文的书写,MathType加上Mathpix Snipping Tool一起用简直是绝配.不过MathType试用 ...

  8. MPlayer软件研究篇(一)──输出驱动

    linux下面最好用的播放器当属mplayer了.一些多媒体的嵌入式产品都有用到mplayer.有的"方案"提供商,也会在mplayer上面开发,增加自己的解码器和输出驱动,然后提 ...

  9. 基于VC的OPC客户端软件研究与实现

    http://wenku.baidu.com/view/9ed11c07eff9aef8941e06ed.html 转载于:https://www.cnblogs.com/-song/archive/ ...

  10. 金翼远程安全接入软件研究

    TEST 转载于:https://www.cnblogs.com/TianJun/archive/2008/07/11/1240547.html

最新文章

  1. public、protected、default、private区别
  2. 分布式锁选型背后的架构设计思维【附源码】
  3. oracle存储查询出来的值_技术分享|浅析ORACLE数据库物理体系结构及其对应优化策略...
  4. 云计算,巨头们的背水一战
  5. GridMask:SOTA 数据增广方法,显著改进分类、检测、分割效果
  6. SpringCloud Config手动刷新及自动刷新
  7. 【CVTE Web后台开发实习生2019.12.05在线笔试】总结
  8. Codeforces Round #532(Div. 2) B.Build a Contest
  9. oracle用户权限管理
  10. pyspark分类算法之多层感知机神经网络分类器模型实践【MLPClassifier】
  11. 安信可nbiot模块_专利分享基于NBIOT的微电网信息采集与监控系统及其实现方法...
  12. 使用OneDNS完美解决办公网络优化问题
  13. 西瓜书第一第二章理解
  14. 2021-2027全球与中国可待因药品市场现状及未来发展趋势
  15. SpringBoot 2 访问 Neo4j 图数据库
  16. 中国阀门驱动装置行业运行状况与前景趋势研究报告2022-2028年
  17. Android混淆发布依赖
  18. 【IT】计算机体系结构
  19. matlab中绘制一个sin函数曲线
  20. 品牌的价值 龚文祥的第六次跳槽

热门文章

  1. bootstrap-table初始数据,页面一直显示“正在努力加载数据中,请稍后“
  2. PHP实现敏感词过滤
  3. 安卓游戏源码源代码下载
  4. PHP 7 vs HHVM 比较—兄弟连IT教育
  5. 第十届“认证杯”数学中国数学建模国际赛(2021年小美赛)
  6. emmx文件用什么软件打开电脑_emmx文件怎么打开
  7. 二分查找在java中的实现
  8. 传智播客 java表单笔记_传智播客java_web笔记全套
  9. java nio 思维导图
  10. 【.md格式文件编辑器】几款主流好用的markdown编辑器介绍