1、长度

文本长度：按照字数、标点符号、中英文
分词长度：词数，列表：list

预处理——统计词频、词，矩阵数据——深入分析，二维表，记录（文本）、字段（词）

2、引入库

import jieba
import jieba.posseg as psg
from collections import Counter

3、读取

#读取当前目录下的fenciExample.txt文本文件
#这个文件是《舌尖上的中国》中某一集的解说词
#输出文本中出现次数排在前20的单词
# 读取
shejian=open('fenciExample.txt').read()
print('文本长度：',len(shejian))
x=jieba.cut(shejian)
x=list(x)

4、提取词大于长度2的

列表推导式:循环而已

shejian_words=[x for x in jieba.cut(shejian) if len(x)>=2]
# 列表推导式:循环而已
# 拆分
shejian_words1 = []
for x in jieba.cut(shejian):if len(x)>=2:shejian_words1.append(x)

5、词频统计

词频，统计词频，使用Counter()
文本挖掘，中文
部分词无关，普遍意义常规词、停用词（——停用词过滤）

c1=Counter(shejian_words)
print(c1)

6、前20

# 提取排名前20
c=Counter(shejian_words).most_common(20)
print(c)

Python金融数据挖掘第7章第2节（5）高频词相关推荐

Python金融数据挖掘第7章第3节 (7) 案例：基于股评文本的情绪分析
1.特征词表示一篇文本,矩阵数据,聚类.分类.预测 2.情绪.情感分析情感值.舆论文本.文本数据,来源管,新闻.情感倾向:存在误差,不准确 3.基于股评文本的情绪分析 #网络舆情,判断指数走向 3 ...
Python金融数据挖掘第7章复习思考题 3
3.有'手机垃圾短信'数据集,将其放在文件中:sms_spam.csv,该文件共有5537行,2列,分别是类型(type,ham为非垃圾短信,spam为垃圾短信)和内容(text,短信的具体内容). ...
Python金融数据挖掘第11章复习思考题1 (聚类）给出一个数据集data_multivar.txt，里面有200个点坐标，在平面坐标系下可以画出它的散点图，用K均值聚类算法来训练模型，分4类。
1.题目给出一个数据集data_multivar.txt,里面有200个点坐标,在平面坐标系下可以画出它的散点图,如图11-12所示. data_multivar.txt 图11-12 数据集 da ...
金融数据挖掘第7章第2节（3）英文文本分析处理
一.分割句子与单词(例1) nltk:自然语言工具包(分词.词干提取.同义词与反义词) 安装MLTK:conda install nltk (1)导入包 import nltk nltk.downlo ...
大学学python在金融中的应用_《Python金融数据挖掘及其应用》教学大纲
< python 金融数据挖掘及其应用> 课程教学大纲课程代码: 学分: 5 学时: 80 (其中:讲课学时: 60 实践或实验学时: 20 ) 先修课程:数学分析.高等代数.概率 ...
小猪的Python学习之旅 —— 15.浅尝Python数据分析：分析2018政府工作报告中的高频词...
一句话概括本文: 爬取2018政府工作报告,通过**jieba**库进行分词后做词频统计, 最后使用 wordcloud 库制作naive词云,非常有意思- 引言: 昨晚写完上一篇把爬取到的数据写入到 ...
Python金融数据挖掘第八章第1节 Apriori算法原理（2）
一.目标 1.了解关联规则算法的研究对象.意义和应用场景 2.掌握支持度与置信度的概念及计算方法 3.掌握关联规则算法的项目空间集裁剪方法 4.掌握Apriori算法的原理和实现方法二.关联规则 1 ...
Python金融数据挖掘第八章复习思考题1
一.问题医院礼品店已完成5项交易,购买记录清单如表8-3所示,请使用Apriori算法进关联规则分析. (1)使用数字代替商品完成第3列: (2)计算购买"鲜花"的支持度: (3 ...
Python金融数据挖掘第八章复习思考题2
一.问题设有一份购物篮数据basketdata.txt,包括两部分内容. 第一部分是1000名顾客的个人信息,含7个变量:会员卡号(cardid).消费金额(value).支付方式(pmethod) ...

Python金融数据挖掘第7章第2节（5）高频词

1、长度

2、引入库

3、读取

4、提取词大于长度2的

5、词频统计

6、前20

Python金融数据挖掘第7章第2节（5）高频词相关推荐

最新文章

热门文章

Python金融数据挖掘 第7章 第2节 （5）高频词

1、长度

2、引入库

3、读取

4、提取词大于长度2的

5、词频统计

6、前20

Python金融数据挖掘 第7章 第2节 （5）高频词相关推荐

最新文章

热门文章

Python金融数据挖掘第7章第2节（5）高频词

Python金融数据挖掘第7章第2节（5）高频词相关推荐