2021暑期 | Python数据挖掘暑假工作坊

腾讯课堂 | Python网络爬虫与文本分析

在论文

Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, The Review of Financial Studies,2020

中,

  • 除了使用词向量人工构建五大类文化词典,

  • 还使用了tfidf作为权重,计算企业每条文档五大类文化的得分情况。

情感分析

  • 无权重。直接计算文本中正、负情感词出现的次数

  • 有权重。tf-idf, tf是词频,idf是权重。

Tfidf法

scikit库除了CountVectorizer类,还有TfidfVectorizer类。TF-IDF这个定义相信大家应该已经耳熟能详了:

  • TF 词语出现越多,这个词越有信息量

  • IDF 词语越少的出现在文本中,词语越有信息量。

原始数据

import pandas as pdcorpus = ["hello, i am glad to meet you","it is wonderful","i hate you","i am sad"]df1 = pd.DataFrame(corpus, columns=['Text'])
df1

构造tfidf

from sklearn.feature_extraction.text import TfidfVectorizerdef createDTM(corpus):"""构建文档词语矩阵"""vectorize = TfidfVectorizer()#注意fit_transform相当于fit之后又transform。dtm = vectorize.fit_transform(corpus)#vectorize.fit(corpus)#dtm  = vectorize.transform(corpus) #打印dtmreturn pd.DataFrame(dtm.toarray(), columns=vectorize.get_feature_names()) df2 = createDTM(df['text'])
df2

合并df1和df2

df = pd.concat([df1, df2], axis=1)
df

#积极词典
pos_words = ['glad', 'hello', 'wonderful']#消极词典
neg_words = ['sad', 'hate']
#积极词典
df[pos_words]

df[pos_words].sum(axis=1)
0    0.873439
1    0.577350
2    0.000000
3    0.000000
dtype: float64
df['Pos'] = df[pos_words].sum(axis=1)
df

经过以上操作,很简便的对文本的正面情感进行了计算。同理,也可以对负面情感进行计算,此处省略。

输出

最后保存,输出为csv文件。

df.to_csv('output/tfidf有权重的情感分析.csv')

2021暑期 | Python数据挖掘暑假工作坊

腾讯课堂 | Python网络爬虫与文本分析

近期文章

腾讯课堂 | Python网络爬虫与文本分析B站视频 | Python自动化办公
读完本文你就了解什么是文本分析文本分析在经管领域中的应用概述综述:文本分析在市场营销研究中的应用中文金融情感词典发布啦 | 附代码wordexpansion包 | 新增词向量法构建领域词典语法最简单的微博通用爬虫weibo_crawler
大邓github汇总, 觉得有用记得star
hiResearch 定义自己的科研首页
whatlies包 | 简单玩转词向量可视化
Jaal 库 轻松绘制动态社交网络关系图
SciencePlots | 科研样式绘图库
使用streamlit上线中文文本分析网站
Clumper | dplyr式的Python数据操作包Clumper库 | 常用的数据操作函数Clumper库 | Groupby具体案例用法Clumper库 | 其他数据分析plydata库 | 数据操作管道操作符>>
plotnine: Python版的ggplot2作图库
plotnine: Python版的ggplot2作图库
Wow~70G上市公司定期报告数据集
YelpDaset: 酒店管理类数据集10+G
漂亮~pandas可以无缝衔接Bokeh

TFIDF | 有权重的计算文本情感得分相关推荐

  1. 自然语言处理之文本情感分析

    1.导语 深度学习近些年取得突破性的发展,目前深度学习技术在人工智能领域应用最广泛的两方面就是CV(计算机视觉)和NLP(自然语言处理),在本次夏虹老师的<人工智能>课程上,我和我的小组成 ...

  2. 利用Sentiwordnet进行文本情感分析(简)

    利用Sentiwordnet进行文本情感分析(简) 1. 简介 2. 下载NLTK包和它内部的词典 3. 全过程代码详解 1. 导入所需包,函数 2. 分词 3. 计数,给予词性标签 4. 计算单词得 ...

  3. 【Python】文本情感分析及绘制词云

    码字不易,喜欢请点赞!!! 这篇文章主要分享了使用Python来对文本数据进行情感分析以及绘制词云. 主要步骤包括: 1.文本预处理 2.文本分词 3.去除停用词(这里设置为单个词和一些常见的停用词) ...

  4. 自然语言处理—文本情感分析

    自然语言处理(NLP)中的文本情感分析是一个重要的应用领域,多用于评价性的用户信息回馈,如电影影评和购物后的评价.而情感分析主要是通过用户的回答文本数据(中文),进行文本情感量化分析,现有的情感分析方 ...

  5. python计算现场得分_浅谈用 Python 计算文本 BLEU 分数

    浅谈用 Python 计算文本 BLEU 分数 BLEU, 全称为 Bilingual Evaluation Understudy(双语评估替换), 是一个比较候选文本翻译与其他一个或多个参考翻译的评 ...

  6. tfidf+java+权重,使用scikit-learn tfidf计算词语权重

    TF-IDF概述 TF-IDF是Term Frequency -  Inverse Document Frequency的缩写,即"词频-逆文本频率".它由两部分组成,TF和IDF ...

  7. snownlp 中文文本情感分析、相似度计算、分词等

    snownlp 官网:https://pypi.org/project/snownlp/ SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了[TextBlob](https ...

  8. 自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

    自然语言处理(NLP)之使用TF-IDF模型计算文本相似度 所用数据集:ChnSentiCorp_htl_all.csv 语料库即存放稀疏向量的列表. 要注意的是,搜索文本text与被检索的文档共用一 ...

  9. NLP之NBGBT:基于朴素贝叶斯(count/tfidf+网格搜索+4fCrva)、梯度提升树(w2c+网格搜索+4fCrva)算法对IMDB影评数据集进行文本情感分析(情感二分类预测)

    NLP之NB&GBT:基于朴素贝叶斯(count/tfidf+网格搜索+4fCrva).梯度提升树(w2c+网格搜索+4fCrva)算法对IMDB影评数据集进行文本情感分析(情感二分类预测) ...

最新文章

  1. 测试工程师的好日子来啦?Testin发布AI测试产品,提升易用性和自动化效率
  2. 校正光学系统像差原则
  3. ospf专题二:虚链路
  4. JSP 与 Servlet 的关系
  5. git server安装
  6. Cycle-1(循环)
  7. 如何在PHP里面连接数据库?
  8. Linux下docker的安装及常用命令
  9. 突击计划——两种温度格式的转换
  10. 绝大多数人努力程度之低,根本轮不上拼天赋
  11. BZOJ5212: [Zjoi2018]历史
  12. Funcode-黄金矿工
  13. Spring常用注解含义
  14. 推荐系统中传统模型——LightGBM + LR融合
  15. 【Linux】Linux 磁盘与文件系统管理命令
  16. 生命周期数据共享[父子-子父-兄弟]ref引用数组复习
  17. img 图片加载设置超时
  18. java实现踢下线用户_浅谈踢人下线的设计思路!(附代码实现方案)
  19. java edt,Java Swing 学问篇 - EDT
  20. MySQL索引key_len

热门文章

  1. 实例分割总结 Instance Segmentation Summary(Center Mask、Mask-RCNN、PANNet、Deep Mask和Sharp Mask)
  2. “第十届金融工程及量化投资年会”会议议程
  3. ORACLE CASE WHEN 及 SELECT CASE WHEN的用法
  4. 苹果6换屏多钱_有了孩子才知道钱有多重要,分享我的6年攒钱史
  5. 基于JavaWeb的传染性疾病的了解与预防网站设计
  6. HCL打开显示当前系统用户怎么解决_苹果手机蓝牙怎么连不上的解决步骤
  7. 元素形式展示初等变换与初等矩阵的关系
  8. Siemens Simatic PCS 7.5 version 9.1
  9. 【JavaScript】Document Object Model 文档对象模型
  10. 关闭出装显示无服务器,王者荣耀:出装问题很多人都不懂,完全忽略几个细节问题...