如何去做词频统计和关键词共现分析
1 对关键词的词频进行统计
下面展示一些 内联代码片
。
# encoding=utf-8
import openpyxl
wb = openpyxl.Workbook()
wb = openpyxl.load_workbook('copy1.xlsx') # Excel名
sh = wb['all'] # sheet名
'''
换一种写法
row=sh.max_row # 得到行数
'''
cons=[] # 将所有数据append成一个list
for cases in list(sh.rows)[1:9240]: # 行数,也可以通过代码来带入 即rowcase_D = cases[2].value # 关键词所在的列cons.append(case_D) result_new = []
res2 = []
for con in cons:fenci = con.strip().split('; ') # 假定关键词是以分号+空格分开的result_new.append(fenci)
new = sum(result_new,[])
res2.append(new)
#print(res2) # res2的形式是 [['aaa','bbb','abc']]import collections
dic = collections.Counter(res2[0])from openpyxl import Workbook
workbook = Workbook()
i=2 # 默认sheet
sh = workbook.active
sh.title = "count" #sheet名
for key in dic:sh.cell(row=1, column=1, value='关键词')sh.cell(row=1, column=2, value='频次') sh.cell(row=i, column=1, value=str(key))sh.cell(row=i, column=2, value=dic[key])i+=1
workbook.save(r'name.xlsx')
2 统计词共现的全部代码
注意,'一行作者.txt’这个文件必须是每篇文献的作者之间通过//连接成一行,合作作者通过分号+空格连接。
import pandas as pd
import numpy as np
from openpyxl import Workbookdef authors_stat(co_authors_list):au_dict = {} # 单个作者频次统计au_group = {} # 两两作者合作for authors in co_authors_list:authors = authors.split('; ') # 按照逗号分开每个作者authors_co = authors # 合作者同样构建一个样本for au in authors: # 统计单个作者出现的频次if au not in au_dict:au_dict[au] = 1else:au_dict[au] += 1# 统计合作的频次authors_co = authors_co[1:] # 去掉当前作者for au_c in authors_co:A, B = au, au_c # 不能用本来的名字,否则会改变au自身if A > B:A, B = B, A # 保持两个作者名字顺序一致co_au = A+'; '+B # 将两个作者合并起来,依然以逗号隔开if co_au not in au_group:au_group[co_au] = 1else:au_group[co_au] += 1return au_group, au_dictif __name__ == '__main__':f1 = open('一行作者.txt','r',encoding = 'utf-8')cons = f1.read()co_authors = consco_authors_list = co_authors.split('//')au_group, au_dict = authors_stat(co_authors_list)workbook = Workbook()i=2 # 默认sheetsh = workbook.activesh.title = "count"for (k,v) in au_group.items(): sh.cell(row=1, column=1, value='合作作者')sh.cell(row=1, column=2, value='频次') sh.cell(row=i, column=1, value=str(k))sh.cell(row=i, column=2, value=v)i+=1workbook.save(r'co_author.xlsx')
下次教画图。
接下来就是愉快的分析啦。
over is Over——Lee
如何去做词频统计和关键词共现分析相关推荐
- 如何用VOSviewer分析CNKI关键词共现?
用VOSviewer尝试CNKI中文文献关键词共现(keyword co-occurence)分析时,你可能会踩到一个大坑.本文帮助你绕开这个坑,或是从坑里爬出来. (由于微信公众号外部链接的限制,文 ...
- CiteSpace关键词共现图谱含义详细解析
CiteSpace关键词共现图谱含义详细解析 本文以CiteSpace软件做的关键词共现分析为例,进行关键词共现图谱含义详细解析. 关键词是一篇论文的核心概括,对论文关键词进行分析可对文章主题窥探一二 ...
- 基于 python获取教育新闻进行分词关键词词共现分析 知识图谱 (附代码+报告)
本文着眼于对疫情期间教育领域新闻的分析,基于 python 语言,利用爬虫获取教育领域的最新新闻,并将其内容进行分词,抓取关键词.在此基础上,根据关键词进行共现分析,并利用 Gephi 软件绘制主题知 ...
- 绘制作者共现和关键词共现图教学
需要的作者共现.关键词共现次数 使用到的工具包括python和gephi 注意:gephi的安装需要java支持. 步骤 1.数据准备 1.1 作者词频 1.2 作者共现 2.形成gephi可读的数据 ...
- python关键词共现图谱_如何用知网导出的关键词 几秒 生成共现矩阵及图谱 》完整版...
自编软件使用技能视频演示(一) 最新整理完整版的,从收集数据 到 共词矩阵 到 图谱. 在做社会网络分析时,首先需要得到共现矩阵,如关键词共现矩阵.作者共现矩阵.机构共现矩阵等. 可是如何把从知网里导 ...
- BICOMB(书目共现分析系统软件)介绍、使用文献及下载
BICOMB(书目共现分析系统,Bibliographic Items Co-occurrence Matrix Builder)是一款文本挖掘的基础工具软件,BICOMB可对国际上权威的生物医学文献 ...
- 关于高频关键词共现,ACA(作者同被引)等的范式
这篇随笔是写在看了若干篇关于高频关键词共现和ACA的文章之后的一个总结,这些论文大多是2010年之前发表的,这与这种方法是传统方法有很大关系.同时,这些文章不仅限于图书情报领域. 下面是正文: ①大多 ...
- 【NLP】关键词共现/属性共现矩阵
[NLP]关键词共现/属性共现矩阵 [共现]理解起来无非是两个词语同时出现的频次作为一个指标,构造矩阵.矩阵的第一列和第一行都是词语列表中的所有词,因此对角线一般设置为0--即不把自己和自己共现算进去 ...
- CiteSpace系列——关键词共现图重叠很多怎么办?
假设我们正在进行关键词共现可视化: 方法一:在控制面板调整字体大小,将字体调小在一定程度上可以减少重叠 方法二: 在工具栏上找到Labels,点选最小化重叠按钮
最新文章
- php禁止伪造_php防止伪造的数据从URL提交方法
- Apriori算法进行关联分析(2)
- hdu 4049 Tourism Planning [ 状压dp ]
- 发送邮件 (Send Email)
- 代码 微信小程序 词典_微信小程序+ANKIWEB-学习语言的神器,背诵单词的利剑
- 理解TypeScript的泛型
- gradle指令linux守护,gradle之gradlew最全指令攻略
- 模幂运算问题,使用朴素算法和重复-平方算法(快速幂+C#计算程序运行时间)
- cisco failover 概念
- 一、简单工厂模式 : 面向对象 特性 封装
- 数据库主键和外键的关系
- 【数据结构 严蔚敏版】 链表基本操作
- word vba设置表格样式
- python判断成语是abac型_abac型词语成语大全
- Delta并联机构运动学分析
- ABP默认表结构解析
- HDU - 4287 Intelligent IME
- 服务器413是什么状态,服务器异常代码413问题
- mysql字符串分割为数组_mysql下将分隔字符串转换为数组
- (论文加源码)基于DEAP的脑电情绪识别(CNN,RNN和两种不同的注意力机制)
热门文章
- php 模板渲染,ThinkPHP6.0模板渲染 - ThinkPHP6.0快速开发手册(案例版) - php中文网手册...
- 持有境外机动车驾驶证,是否可以在我国驾驶机动车?
- Java实现凯撒密码、维吉尼亚密码、双换位密码、RC4算法加密
- (一)Android基础界面设计
- PowerDesigner16.5 逆向生成物理模型
- 从球场捡拾矿泉水瓶的老人,看市场经济下的供求关系
- 【中亦安图】关于数据库文件损坏风险的提醒(3)
- Facebook如何管理150亿张照片
- ESD(静电释放)上半部分
- 文末福利|使用Python转换PDF,Word/Excel/PPT/md/HTML都能转!