1、词数统计代码

#-*-coding:utf-8-*-
import  pandas  as  pd
import   numpy  as  np
import jieba
from  sklearn.feature_extraction.text import CountVectorizer
#自己构建文章
content=['This i is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document? i x y','i']
#content=['今天阳光真好','我要去看北京天安  门','逛完天安门之后我要去王府井','']
#进行中文分词
content_list=[]
for  tmp  in  content:#使用精确模式res=jieba.cut(tmp,cut_all=False)res_str=','.join(res)content_list.append(res_str)
#1、构建实例
con_vet=CountVectorizer()
#2、进行提取词语
#对于英文来说会按照空格分词
#认为单个的字符的词对于我们的文章分类没有影响,所以不拿出来
X=con_vet.fit_transform(content)
#获取提取到的词语
names=con_vet.get_feature_names()
print(names)
print(X)
print(X.toarray())

2、词的重要程度统计代码

#-*-coding:utf-8-*-
from   sklearn.feature_extraction.text import TfidfVectorizer
import jieba
#自己构建文章
#content=['This i is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document? i x y','i']
content=['今天阳光真好','我要去看北京天安  门','逛完天安门之后我要去王府井','']
#进行中文分词
content_list=[]
for  tmp  in  content:#使用精确模式res=jieba.cut(tmp,cut_all=False)res_str=','.join(res)content_list.append(res_str)
#1、构建实例
#min_df=1#设置分词的时候,词必须至少出现一次
#stop_words===停用词
tf_vec=TfidfVectorizer(stop_words=['之后','今天'])
#2、统计词的重要程度
X=tf_vec.fit_transform(content_list)
#获取分词结果
names=tf_vec.get_feature_names()
print(names)
print(X.toarray())

数据分析词数统计和词的重要程度统计相关推荐

  1. 《图像处理实例》 之 疏密程度统计

    疏密程度统计 以下的改进是http://www.imagepy.org/的作者原创,我只是对其理解之后改进和说明,欢迎大家使用这个小软件! 如有朋友需要源工程,请在评论处留邮箱! 说明: 此方法是大佬 ...

  2. 自助式数据分析平台:jvs数据智仓-统计报表的使用条件及界面介绍

    统计报表界面介绍 统计报表是指利用表格和报表等形式,将数据以清晰的结构和布局的方式呈现出来,以便用户进行数据分析和决策制定的一种BI统计方法.表格式的BI统计通常采用交叉表格.分组表.报表等形式,对数 ...

  3. 零基础学习数据分析路线,学习到什么程度可以找到工作

    一.数据分析学习到什么程度可以找工作? 这个问题要看你准备面试的公司,具体情况差异较大.所以我只能从自身真实经验中总结一些建议,给出一些最基础的知识结构,供楼主参考. 首先,我觉得优秀的数据分析师应该 ...

  4. 数据分析的重要一环之数据统计

    转载:http://www.baobaoshequ.com/article/4536 不管是业绩总量,还是各学历的员工人数,都需要我们从明细数据中进行统计.计算.因此,数据统计的过程即对明细数据进行各 ...

  5. Python数据分析高薪实战第八天 数据计算统计与分析

    17 如何快速实现数据的批量计算? 接下来我们会进入一个全新的模块:数值类数据分析.在这个部分,我们会学习数据分析中常用的数学方法以及 Python 中处理数值数据的神器:NumPy. 在完成了本部分 ...

  6. 文本数据分析——主题提取+词向量化

    使用Python 进行简单文本类数据分析,包括: 1. 分词 2. 生成语料库,tfidf加权 3. lda主题提取模型 4. 词向量化word2vec 参考: http://zhuanlan.zhi ...

  7. ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...

    最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...

  8. axure9数据统计插件_数据分析太棘手?常用8大统计软件解决难题!

    在数据分析工作中我们常常需要处理大量的统计问题,这个时候就迫切的需要一个适合统计分析工具,今天小编就给大家介绍八个我们常用的统计分析软件,并且详细介绍各自的特点以及适用的专业,方面大家从中选择一个切合 ...

  9. nba球员数据分析和可视化_可视化NBA球员统计

    nba球员数据分析和可视化 I haven't written a post in a while. I had a lot to do for university and my hobbies l ...

最新文章

  1. switch语句中在case块里声明变量会遇到提示“Expected expression before...的问题
  2. 雷林鹏分享:Redis 管道技术
  3. django登录跳转到另一个页面_[JWT]djangojson web token实现单用户登录
  4. Oracle 20c数据库开启原生的区块链表、AutoML以及持久化内存支持
  5. jquery数组怎么传给后台_我是如何让公司后台管理系统焕然一新的(下)封装组件...
  6. JS获取浏览器滚动条的宽度
  7. PKUWC2018 5/6
  8. linux下显示网卡设备及驱动信息intel shell脚本
  9. MySQL查询优化和索引优化学习笔记
  10. json java 比较_Java中json工具对比分析
  11. Qt 图片自适应QLabel大小
  12. 计算机控制技术结束语,电子商务在线 - 计算机控制技术教学改革探索与实践
  13. w ndows中的文档文件是,在 Wndows 资源管理器中刻录 CD 或 DVD.doc
  14. 一个nginx小白的vue项目部署的成功!
  15. 【codevs1422】河城荷取 二分+dinic
  16. 如何在手机上完成日语翻译中文
  17. 2016-1-21高博活动
  18. 本地mysql设置成DMZ主机远程访问的方法
  19. 将Kali2安装到U盘的实践----图文并茂,详细的让你哭
  20. 解读 “中国品牌全球信任指数”发布,中国品牌出海迎来大好时机

热门文章

  1. 发那科机器人寄存器Ar_发那科机器人与TP参数的千丝万缕关系
  2. sqlserver tds协议学习_数据安全交换协议来了,或将推动AI大步迈向3.0时代
  3. mysql优化学习笔记
  4. 容器学习 之 镜像的分层结构(六)
  5. scala学习 之 环境搭建(一)
  6. 图数据库之Pregel
  7. 从选秀策略看市场测试
  8. 神奇的用法_续行符——反斜杠
  9. [leetcode] 68.二叉树的最近公共祖先
  10. InnoDB 的索引模型