对指定关键词进行词频统计

过往的词频统计都是针对整个文档进行的，而如果研究中需要知道单条评论或某个研究单元内某些词的词频，那么就需要进行额外的处理。原理非常的简单，就是遍历筛选，具体做法为去除停用词的逆运算。

Step1:分词

最基本的处理的就不做多余的赘述，直接上码：

def seg_word(data):seg_result=[]stop_list = open('哈工大停用词表.txt','r',encoding='utf-8').read()for sentence in data:c_words=jieba.cut(sentence)seg_result.append([word for word in c_words if word not in stop_list and len(word) >1])#不要忘记了加[]，输出要为list格式return seg_result

Step2：遍历筛选核心关键词

def flitter(seg_result):key_words=open('key_words.txt','r',encoding='utf-8').read()result=[]for i in seg_result:for j in i:if j in key_words:result.append(j)return result

这里需要注意的有两点：

（1）第一步中的分词结果是list of list 的格式，我们需要对内层即第二层的内容进行统计，因此需要用第二层的内容对key_words进行遍历。即两个for循环。

（2）key_words的读取格式要为string，所以是.read()而不是.readlines，否则不会起作用，停用词列表类同。

Step3：词频统计

实现方法（1）

def count_words(result):count={}for i in result:if len(i)>=2:#排除单个词count[i]=count.get(i,0)+1#类似一个循环判断,get的第二个空格是默认值，如果不在list里面就是返回NONE或者数字0return count

实现方法（2）

count={}
for i in seg_result:if i not in count:count[i]=0#键和值一起存进了count，只是没有的话值为0else:count[i]+=1

实现方法（3）

count=data.value_counts()#默认降序count=data.value_counts(ascending=True)#升序排列

此外，还可以进行排序

items = list(count.items())#list里面为元组
items.sort(key=lambda x:x[1],reverse=True)#key指要执行什么，冒号后面是排序的依据，对应索引中的索引应该是1，（键为0值为1）

Step4:数据测试

在定义好了函数后，就可以进行主函数的书写和函数的调用啦

data = open('test.txt','r',encoding='utf-8').readlines()
seg_result=seg_word(data)
result=flitter(seg_result)
count=count_words(result)

补充：这样的筛选结果是以词为单元的，每一个符合筛选要求的词语占一行。但有时候用词频做细粒度分析的时候需要知道原本每一行所包含关键词的情况。那么这时候就需要换一种结构：

主要的区别在于函数仅仅考虑单条评论的处理方式，至于自己的数据全部在主函数中进行使用。

import jieba
import pandas as pd
#定义函数
#结巴分词
def seg_word(sentence):seg_list = jieba.cut(sentence)seg_words=[]for i in seg_list:seg_words.append(i)stoplist=open(r'C:\Users\64884\Desktop\相似度训练\哈工大停用词表.txt','r',encoding='utf-8').read()seg_result=[]for word in seg_words:if word not in stoplist:seg_result.append(word)return seg_result#主题词过滤
def flitter(seg_result):key_words=open(r'C:\Users\64884\Desktop\相似度训练\key_words.txt','r',encoding='utf-8').read()result=[]for i in seg_result:if i in key_words:result.append(i)return result#输入自己的数据
data = open(r'C:\Users\64884\Desktop\相似度训练\物流评论.txt','r',encoding='utf-8').readlines()
seg_result=[]
for i in data:seg_result.append(seg_word(i))result=[]
for i in seg_result:result.append(flitter(i))

对指定关键词进行词频统计相关推荐

好用！强大的词云图文字云制作神器！可永久使用，快速出图，支持自动分词关键词筛选词频统计！
可永久使用的词云图文字云一键制作软件,快速出图,支持自动分词关键词筛选词频统计! 软件名称:MagicCloud词云图制作软件(简化版.标准版,升级版) 目前仅支持Windows电脑安装,软件安装大小 ...
学习NLP的第10天——文章关键词提取：词频统计
关键词提取是词语颗粒度的信息抽取的一种重要的需求,即提取文章中重要的词语. 关键词提取的常用方法包括词频统计.TF-IDF和TextRank等. 其中,词频和TextRank属于单文档算法,即只需一篇 ...
北京交通大学Python课程设计大作业（四）——典籍词频统计
北京交通大学Python课程设计大作业(四)--典籍词频统计文章目录北京交通大学Python课程设计大作业(四)--典籍词频统计一.词频统计任务介绍二.典籍词频统计python源代码如下三. ...
【文本处理词频统计】python 实现词频统计
自定义词频统计函数:wordcount # -*- encoding=utf-8 -*-import string import pandas as pdword_list=[] freq_list= ...
Pytorch 文本数据分析方法(标签数量分布、句子长度分布、词频统计、关键词词云)、文本特征处理(n-gram特征、文本长度规范)、文本数据增强(回译数据增强法)
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 文本数据分析学习目标: 了解文本数据分析的作用. 掌握常用的 ...
jieba词频统计、关键词提取、词云图制作
1.jieba分词及词频统计 import jieba import pandas as pd# 加载自定义分词词典(txt内容格式:自定义关键词+空格+空格 ----->换行继续) jieba ...
spss可以关键词词频分析吗_一种有效的多关键词词频统计方法
一种有效的多关键词词频统计方法马志柔 ; 叶屹 [摘要] 针对词频统计的特点 , 设计了一种多了多关键词的高效匹配 , 扫描一次文档就可统计出全部关键词词频信息 . 通过理论分析与实验表明 , ...
Hadoop综合大作业补交4次作业：获取全部校园新闻，网络爬虫基础练习，中文词频统计，熟悉常用的Linux操作...
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. (1)开启所有的服务,并创建文件夹wwc (2)查看目录下所有文件 (3)把hdfs文件系统中文件夹里的文 ...
Python大数据：jieba分词，词频统计
实验目的学习如何读取一个文件学习如何使用DataFrame 学习jieba中文分词组件及停用词处理原理了解Jupyter Notebook 概念中文分词在自然语言处理过程中,为了能更好地处理 ...

对指定关键词进行词频统计

对指定关键词进行词频统计相关推荐

最新文章

热门文章