Python金融数据挖掘 第7章 第2节 (5)高频词
1、长度
文本长度:按照字数、标点符号、中英文
分词长度:词数,列表:list
预处理——统计词频、词,矩阵数据——深入分析,二维表,记录(文本)、字段(词)
2、引入库
import jieba
import jieba.posseg as psg
from collections import Counter
3、读取
#读取当前目录下的fenciExample.txt文本文件
#这个文件是《舌尖上的中国》中某一集的解说词
#输出文本中出现次数排在前20的单词
# 读取
shejian=open('fenciExample.txt').read()
print('文本长度:',len(shejian))
x=jieba.cut(shejian)
x=list(x)
4、提取词大于长度2的
列表推导式:循环而已
shejian_words=[x for x in jieba.cut(shejian) if len(x)>=2]
# 列表推导式:循环而已
# 拆分
shejian_words1 = []
for x in jieba.cut(shejian):if len(x)>=2:shejian_words1.append(x)
5、词频统计
词频 ,统计词频,使用Counter()
文本挖掘,中文
部分词无关,普遍意义常规词、停用词(——停用词过滤)
c1=Counter(shejian_words)
print(c1)
6、前20
# 提取排名前20
c=Counter(shejian_words).most_common(20)
print(c)
Python金融数据挖掘 第7章 第2节 (5)高频词相关推荐
- Python金融数据挖掘 第7章 第3节 (7) 案例:基于股评文本的情绪分析
1.特征词 表示一篇文本,矩阵数据,聚类.分类.预测 2.情绪.情感分析 情感值.舆论文本.文本数据,来源管,新闻.情感倾向:存在误差,不准确 3.基于股评文本的情绪分析 #网络舆情,判断指数走向 3 ...
- Python金融数据挖掘 第7章 复习思考题 3
3.有'手机垃圾短信'数据集,将其放在文件中:sms_spam.csv,该文件共有5537行,2列,分别是类型(type,ham为非垃圾短信,spam为垃圾短信)和内容(text,短信的具体内容). ...
- Python金融数据挖掘 第11章 复习思考题1 (聚类)给出一个数据集data_multivar.txt,里面有200个点坐标,在平面坐标系下可以画出它的散点图,用K均值聚类算法来训练模型,分4类。
1.题目 给出一个数据集data_multivar.txt,里面有200个点坐标,在平面坐标系下可以画出它的散点图,如图11-12所示. data_multivar.txt 图11-12 数据集 da ...
- 金融数据挖掘 第7章 第2节(3)英文文本分析处理
一.分割句子与单词(例1) nltk:自然语言工具包(分词.词干提取.同义词与反义词) 安装MLTK:conda install nltk (1)导入包 import nltk nltk.downlo ...
- 大学学python在金融中的应用_《Python金融数据挖掘及其应用》教学大纲
< python 金融数据挖掘及其应用> 课程教学 大纲 课程代码: 学 分: 5 学 时: 80 (其中:讲课学时: 60 实践或实验学时: 20 ) 先修课程:数学分析.高等代数.概率 ...
- 小猪的Python学习之旅 —— 15.浅尝Python数据分析:分析2018政府工作报告中的高频词...
一句话概括本文: 爬取2018政府工作报告,通过**jieba**库进行分词后做词频统计, 最后使用 wordcloud 库制作naive词云,非常有意思- 引言: 昨晚写完上一篇把爬取到的数据写入到 ...
- Python金融数据挖掘 第八章 第1节 Apriori算法原理(2)
一.目标 1.了解关联规则算法的研究对象.意义和应用场景 2.掌握支持度与置信度的概念及计算方法 3.掌握关联规则算法的项目空间集裁剪方法 4.掌握Apriori算法的原理和实现方法 二.关联规则 1 ...
- Python金融数据挖掘 第八章 复习思考题1
一.问题 医院礼品店已完成5项交易,购买记录清单如表8-3所示,请使用Apriori算法进关联规则分析. (1)使用数字代替商品完成第3列: (2)计算购买"鲜花"的支持度: (3 ...
- Python金融数据挖掘 第八章 复习思考题2
一.问题 设有一份购物篮数据basketdata.txt,包括两部分内容. 第一部分是1000名顾客的个人信息,含7个变量:会员卡号(cardid).消费金额(value).支付方式(pmethod) ...
最新文章
- 搭建测试环境属于软件文档,搭建软件测试环境应注意的几个问题
- golang 解析html
- linux shell 文件 第一行插入字符串
- C#基础加强(7)之ref与out
- vux 地图插件_基于vue的移动端组件vux的安装及使用
- 《Deep Learning》—— 数学基础
- 『设计模式』之小试牛刀
- Spring单一类型依赖查找Bean
- 《变革中的思索》连载六:IT=IP+IQ
- 面向对象---基础概念
- matlab后处理保存avi动画
- 在vs里配置其他编译器
- Dell电脑重装系统
- 一个年轻程序员的成长,提升时间利用效率,第十四周总结
- CF 106C Buns
- 使用python中PIL库进行切图时候出现了图片全黑
- PHP 对接美团大众点评团购券的开发步骤
- mysql minus 语句用法_mysql如何用minus运算符?
- linux命令中tar后的zxvf分别表示含义
- 天才假象:从刻意练习、心理策略到认知陷阱