前文说到根据贝叶斯过滤器筛选出的评论将其中被分类为有价值评论的排名前50条拿出来作人工标注,这样就得到了一个小评论样本库。于是我们面对的问题就变成了一个典型的部分监督学习,又称LU学习。

LU学习的全称是Labeled Examples & Unlabeled Examples,和监督学习相比,LU学习不仅会把那些已标引的数据用于训练分类器,还会把未标引的数据中的有价值信息挖掘出来加以充分利用。

解决LU学习的方法可以在Web数据挖掘这本书的第5章中找到,在书中作者描述了一种EM算法+贝叶斯分类器的解决方案,利用EM算法不停地迭代,改进贝叶斯分类器中的参数。在项目中我最终采用了EM算法+KNN分类器的办法。对于每个未标引的评论,找出已标引评论中与其最相近的10条,然后根据这10条评论的标引情况来给这条评论打分(要打两个分:赞同和反对)根据打分的比值来分类。如果比值接近于,这不标引。此外,如果10条最邻近评论中有非人工标引的评论,这条评论的权值为0.5。

小窍门:

最后我做些经验之谈,当人们发表评论时往往会用 “虽然……但是……” 或 “……不过……” 或类似的转折结构来更加全面地表述自己的观点。但是这种评论的论点往往在后半句而且前半句表达的观点与真正的观点是相反的,所以当程序识别除了这样的结构后,应该主动过滤掉前半句,防止混淆分类器。

转载于:https://www.cnblogs.com/rav009/p/5131097.html

社交平台舆情分析项目的总结和感想(LU学习,EM,KNN)(二)相关推荐

  1. 舆情分析项目-重庆公交坠江原因

    舆情分析项目 1.分析事件:重庆公交坠江原因 2.分析对象: (1)网友评论(初级分类-分词匹配:高级分类-自然语言识别,映射人类情感和意图,比如:积极.消极.无奈.讽刺.建设.谩骂.理性分析.事后. ...

  2. 基于LDA和baidu-aip的舆情分析项目

    概述 本文主要分为数据获取(微博爬虫).文本分析(主题抽取.情感计算). 项目场景:以微博为数据源,分析新冠疫苗舆情的主题演化和情感波动趋势,结合时事进行验证,从而得出特殊事件对于舆情的特定影响,为突 ...

  3. 舆情分析(Public opinion analysis)开源汇总

    舆情分析(Public opinion analysis)开源汇总 前言 舆情分析就是根据特定问题的需要,对针对这个问题的舆情进行深层次的思维加工和分析研究,得到相关结论的过程. 两大方法 1.内容分 ...

  4. 大学生医疗保险满意度的网络舆情分析

    本章拟进行前期的网络舆情调查,为问卷问题设计的具体变量提供参考. 基于百度搜索指数的网络舆情预调查 百度指数以用户搜索量和媒体检索量等作为基础数据,通过防作弊等方式的过滤和加权,形成最后的指数,并与搜 ...

  5. 百分点认知智能实验室:NLP模型开发平台在舆情分析中的设计和实践(下)

    编者按 NLP模型开发平台是以快速打造智能业务为核心目标,无需机器学习专业知识,模型创建-数据上传-数据标注(智能标注.数据扩充)-模型训练-模型发布-模型校验全流程可视化便捷操作,短时间内即可获得高 ...

  6. 网络舆情分析关键词怎么获取的系统平台方法

    舆情热点事件发生后,有效做好舆情应对工作的前提是先要做好舆情分析工作.一般来说,比较常见的舆情分析方式就是对舆情分析关键词进行提取,通过关键词来搜集精准有效的数据信息进行分析. 由于舆情热点产生后,会 ...

  7. 基于实时计算(flink)打造舆情分析平台——新华智云

    案例与解决方案汇总页: 阿里云实时计算产品案例&解决方案汇总 产品介绍 新华智云是一家致力于通过大数据技术驱动媒体变革的公司,数芯是新华智云推出的实时舆情分析平台,旨在满足用户一系列舆情分析需 ...

  8. 基于实时计算(flink)打造舆情分析平台——新华智云...

    案例与解决方案汇总页: 阿里云实时计算产品案例&解决方案汇总 产品介绍 新华智云是一家致力于通过大数据技术驱动媒体变革的公司,数芯是新华智云推出的实时舆情分析平台,旨在满足用户一系列舆情分析需 ...

  9. NLP模型开发平台在舆情分析中的设计和实践

    "数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,尽情咨询期待! 大数据产业创新服务媒体 --聚焦数据 · 改变商业 编者按 NLP模型开发平台是以快 ...

最新文章

  1. 加法神经网络--AdderNet: DoWe Really Need Multiplications in Deep Learning?
  2. 第二阶段个人冲刺03
  3. ORC文件存储格式的深入探究
  4. java 窗口 单例_java单例模式实现面板切换
  5. Linux 的mv命令
  6. InfoPath Resource Sites
  7. 宝塔面板备份网站方法
  8. 学习笔记(十五)——镜像的知识点与注意事项
  9. Bithumb Global AMA丨Cred加速实现开放金融——打造区块链上蚂蚁金服
  10. 【深度学习--图像分类】imageAI自定义模型训练
  11. 线程数据共享:pthread_getspecific和pthread_setspecific
  12. 修复计算机会没有桌面文件吗,电脑桌面文件不见了怎么恢复
  13. P3369普通平衡树
  14. 记录一次设置内网通过路由器映射一个内网ip和端口到外网过程
  15. NAACL 2022 | FACTPEGASUS:抽象摘要的真实性感知预训练和微调
  16. 甲骨文收购mysql,甲骨文提出十大保证 承诺收购Sun后会善待MySQL
  17. word保存html格式批注没有了,Word批注保存后再打开没了
  18. SwiftUI - Text
  19. 广义线性模型(GLM)
  20. C++一本通1086(角谷猜想)

热门文章

  1. Linux CentOS 6.x设置静态IP(亲测有效)
  2. 请你说明ConcurrentHashMap有什么优势以及1.7和1.8区别?
  3. java解决特殊字符输出
  4. Qt for ios 无证书真机调试
  5. java定时器的使用
  6. 第2章 信号、接口和引脚(XIlinx ZYNQ-7000 SOC UG-585文档)
  7. 移除添加的文件_文件压缩教程-文件批量压缩
  8. 5.2.3 OS之I/O设备的分配与回收(DCT-COCT-CHCT-SDT)
  9. 3.5 《数据库系统概论》之基本表更新(INSERT、UPDATE、ALTER、DELETE)与视图VIEW(定义、查询、更新)
  10. stm32系列启动文件解读(KEIL编译环境)