1、长度

文本长度:按照字数、标点符号、中英文
分词长度:词数,列表:list

预处理——统计词频、词,矩阵数据——深入分析,二维表,记录(文本)、字段(词)

2、引入库

import jieba
import jieba.posseg as psg
from collections import Counter

3、读取

#读取当前目录下的fenciExample.txt文本文件
#这个文件是《舌尖上的中国》中某一集的解说词
#输出文本中出现次数排在前20的单词
# 读取
shejian=open('fenciExample.txt').read()
print('文本长度:',len(shejian))
x=jieba.cut(shejian)
x=list(x)

4、提取词大于长度2的

列表推导式:循环而已

shejian_words=[x for x in jieba.cut(shejian) if len(x)>=2]
# 列表推导式:循环而已
# 拆分
shejian_words1 = []
for x in jieba.cut(shejian):if len(x)>=2:shejian_words1.append(x)

5、词频统计

词频 ,统计词频,使用Counter()
文本挖掘,中文
部分词无关,普遍意义常规词、停用词(——停用词过滤)

c1=Counter(shejian_words)
print(c1)

6、前20

# 提取排名前20
c=Counter(shejian_words).most_common(20)
print(c)

Python金融数据挖掘 第7章 第2节 (5)高频词相关推荐

  1. Python金融数据挖掘 第7章 第3节 (7) 案例:基于股评文本的情绪分析

    1.特征词 表示一篇文本,矩阵数据,聚类.分类.预测 2.情绪.情感分析 情感值.舆论文本.文本数据,来源管,新闻.情感倾向:存在误差,不准确 3.基于股评文本的情绪分析 #网络舆情,判断指数走向 3 ...

  2. Python金融数据挖掘 第7章 复习思考题 3

    3.有'手机垃圾短信'数据集,将其放在文件中:sms_spam.csv,该文件共有5537行,2列,分别是类型(type,ham为非垃圾短信,spam为垃圾短信)和内容(text,短信的具体内容). ...

  3. Python金融数据挖掘 第11章 复习思考题1 (聚类)给出一个数据集data_multivar.txt,里面有200个点坐标,在平面坐标系下可以画出它的散点图,用K均值聚类算法来训练模型,分4类。

    1.题目 给出一个数据集data_multivar.txt,里面有200个点坐标,在平面坐标系下可以画出它的散点图,如图11-12所示. data_multivar.txt 图11-12 数据集 da ...

  4. 金融数据挖掘 第7章 第2节(3)英文文本分析处理

    一.分割句子与单词(例1) nltk:自然语言工具包(分词.词干提取.同义词与反义词) 安装MLTK:conda install nltk (1)导入包 import nltk nltk.downlo ...

  5. 大学学python在金融中的应用_《Python金融数据挖掘及其应用》教学大纲

    < python 金融数据挖掘及其应用> 课程教学 大纲 课程代码: 学 分: 5 学 时: 80 (其中:讲课学时: 60 实践或实验学时: 20 ) 先修课程:数学分析.高等代数.概率 ...

  6. 小猪的Python学习之旅 —— 15.浅尝Python数据分析:分析2018政府工作报告中的高频词...

    一句话概括本文: 爬取2018政府工作报告,通过**jieba**库进行分词后做词频统计, 最后使用 wordcloud 库制作naive词云,非常有意思- 引言: 昨晚写完上一篇把爬取到的数据写入到 ...

  7. Python金融数据挖掘 第八章 第1节 Apriori算法原理(2)

    一.目标 1.了解关联规则算法的研究对象.意义和应用场景 2.掌握支持度与置信度的概念及计算方法 3.掌握关联规则算法的项目空间集裁剪方法 4.掌握Apriori算法的原理和实现方法 二.关联规则 1 ...

  8. Python金融数据挖掘 第八章 复习思考题1

    一.问题 医院礼品店已完成5项交易,购买记录清单如表8-3所示,请使用Apriori算法进关联规则分析. (1)使用数字代替商品完成第3列: (2)计算购买"鲜花"的支持度: (3 ...

  9. Python金融数据挖掘 第八章 复习思考题2

    一.问题 设有一份购物篮数据basketdata.txt,包括两部分内容. 第一部分是1000名顾客的个人信息,含7个变量:会员卡号(cardid).消费金额(value).支付方式(pmethod) ...

最新文章

  1. 搭建测试环境属于软件文档,搭建软件测试环境应注意的几个问题
  2. golang 解析html
  3. linux shell 文件 第一行插入字符串
  4. C#基础加强(7)之ref与out
  5. vux 地图插件_基于vue的移动端组件vux的安装及使用
  6. 《Deep Learning》—— 数学基础
  7. 『设计模式』之小试牛刀
  8. Spring单一类型依赖查找Bean
  9. 《变革中的思索》连载六:IT=IP+IQ
  10. 面向对象---基础概念
  11. matlab后处理保存avi动画
  12. 在vs里配置其他编译器
  13. Dell电脑重装系统
  14. 一个年轻程序员的成长,提升时间利用效率,第十四周总结
  15. CF 106C Buns
  16. 使用python中PIL库进行切图时候出现了图片全黑
  17. PHP 对接美团大众点评团购券的开发步骤
  18. mysql minus 语句用法_mysql如何用minus运算符?
  19. linux命令中tar后的zxvf分别表示含义
  20. 天才假象:从刻意练习、心理策略到认知陷阱

热门文章

  1. ubuntu20.04到ubuntu18.04安装英伟达(nvidia)显卡驱动的血泪史
  2. 揭穿红领模式【深度长文】
  3. SqlServer 表分区
  4. 6个月轻松拿下GRE考试:备考复习计划分享
  5. 今天安装CDE软件包
  6. 四个干净高效的搜索引擎
  7. raise KeyError(key) from err KeyError: ‘日期‘
  8. OMAPL138使用UPP读写测试
  9. pmp考试重点串讲(四)
  10. 关于微软excel在线预览的使用小记