1 对关键词的词频进行统计

下面展示一些 内联代码片

# encoding=utf-8
import openpyxl
wb = openpyxl.Workbook()
wb = openpyxl.load_workbook('copy1.xlsx')       # Excel名
sh = wb['all']                              # sheet名
'''
换一种写法
row=sh.max_row                             # 得到行数
'''
cons=[]  # 将所有数据append成一个list
for cases in list(sh.rows)[1:9240]: # 行数,也可以通过代码来带入 即rowcase_D = cases[2].value         # 关键词所在的列cons.append(case_D)   result_new = []
res2 = []
for con in cons:fenci = con.strip().split('; ') # 假定关键词是以分号+空格分开的result_new.append(fenci)
new = sum(result_new,[])
res2.append(new)
#print(res2)  # res2的形式是   [['aaa','bbb','abc']]import collections
dic = collections.Counter(res2[0])from openpyxl import Workbook
workbook = Workbook()
i=2                          # 默认sheet
sh = workbook.active
sh.title = "count"           #sheet名
for key in dic:sh.cell(row=1, column=1, value='关键词')sh.cell(row=1, column=2, value='频次')    sh.cell(row=i, column=1, value=str(key))sh.cell(row=i, column=2, value=dic[key])i+=1
workbook.save(r'name.xlsx')

2 统计词共现的全部代码

注意,'一行作者.txt’这个文件必须是每篇文献的作者之间通过//连接成一行,合作作者通过分号+空格连接。

import pandas as pd
import numpy as np
from openpyxl import Workbookdef authors_stat(co_authors_list):au_dict = {}  # 单个作者频次统计au_group = {}  # 两两作者合作for authors in co_authors_list:authors = authors.split('; ')  # 按照逗号分开每个作者authors_co = authors  # 合作者同样构建一个样本for au in authors:     # 统计单个作者出现的频次if au not in au_dict:au_dict[au] = 1else:au_dict[au] += 1# 统计合作的频次authors_co = authors_co[1:]  # 去掉当前作者for au_c in authors_co:A, B = au, au_c  # 不能用本来的名字,否则会改变au自身if A > B:A, B = B, A  # 保持两个作者名字顺序一致co_au = A+'; '+B  # 将两个作者合并起来,依然以逗号隔开if co_au not in au_group:au_group[co_au] = 1else:au_group[co_au] += 1return au_group, au_dictif __name__ == '__main__':f1 = open('一行作者.txt','r',encoding = 'utf-8')cons = f1.read()co_authors = consco_authors_list = co_authors.split('//')au_group, au_dict = authors_stat(co_authors_list)workbook = Workbook()i=2   # 默认sheetsh = workbook.activesh.title = "count"for (k,v) in  au_group.items(): sh.cell(row=1, column=1, value='合作作者')sh.cell(row=1, column=2, value='频次') sh.cell(row=i, column=1, value=str(k))sh.cell(row=i, column=2, value=v)i+=1workbook.save(r'co_author.xlsx')


下次教画图。

接下来就是愉快的分析啦。
over is Over——Lee

如何去做词频统计和关键词共现分析相关推荐

  1. 如何用VOSviewer分析CNKI关键词共现?

    用VOSviewer尝试CNKI中文文献关键词共现(keyword co-occurence)分析时,你可能会踩到一个大坑.本文帮助你绕开这个坑,或是从坑里爬出来. (由于微信公众号外部链接的限制,文 ...

  2. CiteSpace关键词共现图谱含义详细解析

    CiteSpace关键词共现图谱含义详细解析 本文以CiteSpace软件做的关键词共现分析为例,进行关键词共现图谱含义详细解析. 关键词是一篇论文的核心概括,对论文关键词进行分析可对文章主题窥探一二 ...

  3. 基于 python获取教育新闻进行分词关键词词共现分析 知识图谱 (附代码+报告)

    本文着眼于对疫情期间教育领域新闻的分析,基于 python 语言,利用爬虫获取教育领域的最新新闻,并将其内容进行分词,抓取关键词.在此基础上,根据关键词进行共现分析,并利用 Gephi 软件绘制主题知 ...

  4. 绘制作者共现和关键词共现图教学

    需要的作者共现.关键词共现次数 使用到的工具包括python和gephi 注意:gephi的安装需要java支持. 步骤 1.数据准备 1.1 作者词频 1.2 作者共现 2.形成gephi可读的数据 ...

  5. python关键词共现图谱_如何用知网导出的关键词 几秒 生成共现矩阵及图谱 》完整版...

    自编软件使用技能视频演示(一) 最新整理完整版的,从收集数据 到 共词矩阵 到 图谱. 在做社会网络分析时,首先需要得到共现矩阵,如关键词共现矩阵.作者共现矩阵.机构共现矩阵等. 可是如何把从知网里导 ...

  6. BICOMB(书目共现分析系统软件)介绍、使用文献及下载

    BICOMB(书目共现分析系统,Bibliographic Items Co-occurrence Matrix Builder)是一款文本挖掘的基础工具软件,BICOMB可对国际上权威的生物医学文献 ...

  7. 关于高频关键词共现,ACA(作者同被引)等的范式

    这篇随笔是写在看了若干篇关于高频关键词共现和ACA的文章之后的一个总结,这些论文大多是2010年之前发表的,这与这种方法是传统方法有很大关系.同时,这些文章不仅限于图书情报领域. 下面是正文: ①大多 ...

  8. 【NLP】关键词共现/属性共现矩阵

    [NLP]关键词共现/属性共现矩阵 [共现]理解起来无非是两个词语同时出现的频次作为一个指标,构造矩阵.矩阵的第一列和第一行都是词语列表中的所有词,因此对角线一般设置为0--即不把自己和自己共现算进去 ...

  9. CiteSpace系列——关键词共现图重叠很多怎么办?

    假设我们正在进行关键词共现可视化: 方法一:在控制面板调整字体大小,将字体调小在一定程度上可以减少重叠 方法二: 在工具栏上找到Labels,点选最小化重叠按钮

最新文章

  1. php禁止伪造_php防止伪造的数据从URL提交方法
  2. Apriori算法进行关联分析(2)
  3. hdu 4049 Tourism Planning [ 状压dp ]
  4. 发送邮件 (Send Email)
  5. 代码 微信小程序 词典_微信小程序+ANKIWEB-学习语言的神器,背诵单词的利剑
  6. 理解TypeScript的泛型
  7. gradle指令linux守护,gradle之gradlew最全指令攻略
  8. 模幂运算问题,使用朴素算法和重复-平方算法(快速幂+C#计算程序运行时间)
  9. cisco failover 概念
  10. 一、简单工厂模式 : 面向对象 特性 封装
  11. 数据库主键和外键的关系
  12. 【数据结构 严蔚敏版】 链表基本操作
  13. word vba设置表格样式
  14. python判断成语是abac型_abac型词语成语大全
  15. Delta并联机构运动学分析
  16. ABP默认表结构解析
  17. HDU - 4287 Intelligent IME
  18. 服务器413是什么状态,服务器异常代码413问题
  19. mysql字符串分割为数组_mysql下将分隔字符串转换为数组
  20. (论文加源码)基于DEAP的脑电情绪识别(CNN,RNN和两种不同的注意力机制)

热门文章

  1. php 模板渲染,ThinkPHP6.0模板渲染 - ThinkPHP6.0快速开发手册(案例版) - php中文网手册...
  2. 持有境外机动车驾驶证,是否可以在我国驾驶机动车?
  3. Java实现凯撒密码、维吉尼亚密码、双换位密码、RC4算法加密
  4. (一)Android基础界面设计
  5. PowerDesigner16.5 逆向生成物理模型
  6. 从球场捡拾矿泉水瓶的老人,看市场经济下的供求关系
  7. 【中亦安图】关于数据库文件损坏风险的提醒(3)
  8. Facebook如何管理150亿张照片
  9. ESD(静电释放)上半部分
  10. 文末福利|使用Python转换PDF,Word/Excel/PPT/md/HTML都能转!