原文链接:http://tecdat.cn/?p=8640

原文出处:拓端数据部落公众号

数据简介

讨论你关心的事情可能很困难。网络暴力骚扰的威胁意味着许多人停止表达自己并放弃寻求不同的意见。平台努力有效地促进对话,导致许多社区限制或完全关闭用户评论。

相关视频:文本挖掘:主题模型(LDA)及R语言实现分析游记数据

文本挖掘:主题模型(LDA)及R语言实现分析游记数据

时长12:59


AI团队正在研究工具,以帮助提高在线评论互动。一个重点领域是研究负面的在线行为,如有害评论(即粗鲁、不尊重或可能使某人离开讨论的评论)。到目前为止,他们已经构建了一系列可用模型。但是当前的模型仍然会出错,并且它们不允许用户选择他们感兴趣的有害评论类型,例如,某些平台可能可以接受亵渎,但不能接受其他类型的有害内容(查看文末了解数据获取方式)。

数据详情

数据格式

csv

字段

id

评论内容

有害的

严重有害的

猥亵

威胁

侮辱

身份_仇恨

大小

67191kb

样本量

159571

数据浏览

以前8行数据为例,我们来预览一下:

变量探索:

总体高频词

有害的高频词

严重有害的高频词

猥亵高频词

词云

数据获取

在下面公众号后台回复“有害评论文本数据”,可获取完整数据。


点击标题查阅往期内容

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

左右滑动查看更多

01

02

03

04

点击标题查阅往期内容

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

自然语言处理NLP:情感分析疫情下的新闻数据

R语言自然语言处理(NLP):情感分析新闻文本数据

python用于NLP的seq2seq模型实例:用Keras实现神经机器翻译

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

适用于NLP自然语言处理的Python:使用FacebookFastText库

用于NLP的Python:使用Keras进行深度学习文本生成

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

python在Keras中使用LSTM解决序列问题

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力消耗数据

在Python中使用LSTM和PyTorch进行时间序列预测

欲获取全文文件,请点击左下角“阅读原文”。

【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化相关推荐

  1. python爬取京东商品数据要先登录_京东商品评论情感分析|文本数据预处理

    本文爬取了十款热销手机的文本评论数据后,首先对文本评论数据做文本预处理,文本评论数据中存在大量的无价值信息,引入无用的文本数据,对其作情感分析,显然没有价值,得出的文本挖掘结果也不尽人意.所以对于文本 ...

  2. 29Python时间序列分析(美国消费者信心指数及维基百科点击量EDA,含实例数据)

    唐宇迪<python数据分析与机器学习实战>学习笔记 29Python时间序列分析 一.pandas生成时间序列 常见的时间序列:时间戳(timestamp):具体时间点2020.4.6的 ...

  3. 【论文分享】MAD-GAN :基于生成对抗网络的时间序列数据多元异常检测

    2019年ICANN文章 MAD-GAN: Multivariate Anomaly Detection for Time Series Data with Generative Adversaria ...

  4. wiki中文文本语料下载,在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例

    首先下载wiki中文语料(大约1.7G) https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ...

  5. python训练自己中文语料库_word2vec+维基百科语料库训练中文模型

    训练中文词向量word2vec模型 1.准备数据 中文维基百科地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-arti ...

  6. java 维基百科_wikipedia

    popup的使用(一)2021-01-22 16:35:58 核心代码 注意Hyperlink的使用 You can use a Popup to provide a link for a speci ...

  7. 运动想象脑电数据分享

    运动想象脑电数据分享 运动想象脑电数据分享 运动想象脑电数据分享 针对之前LZ的第一篇文章脑电数据的实验范式及EEGLAB分析预处理 文章链接:https://blog.csdn.net/weixin ...

  8. 离线维基百科wikipedia——可以随身携带的百科全书

    前言 每次使用维基百科需要科学上网或者使用镜像站,科学上网比较麻烦,镜像站常常会失效,且前述方法都需要需要网络,总之,使用起来不是特别方便.最近发现维基官方提供离线阅读的方法,而且现在手机和电脑的存储 ...

  9. 机器人库 各种机器人co数模cojt数据分享

    机器人库 各种机器人co数模cojt数据分享 数据库类 机器人数模 co数模 cojt数据 各大机器人 co数模cojt数据分享 包含了ABB_cojt COMAU_cojt FANUC_cojt K ...

  10. 《大数据》2015年第3期“专题”——网络表示学习(上)

    网络表示学习 陈维政,张 岩,李晓明 (北京大学信息科学技术学院 北京 100871) 摘要:以Facebook.Twitter.微信和微博为代表的大型在线社会网络不断发展,产生了海量体现网络结构的数 ...

最新文章

  1. 以太坊去中心化_开发以太坊去中心化投票应用程序的指南
  2. 【Azure Services Platform Step by Step-第1篇】INTRODUCING THE AZURE SERVICES PLATFORM
  3. easyUI的combobox是否可用
  4. mui框架之a标签无法跳转的问题
  5. adf时间作用域_ADF:在任务流终结器中支持bean作用域
  6. Screen Painter 程序设计
  7. 刘德华--6雪藏是一种代价
  8. 130号:SpringBoot使用AOP
  9. RDS数据订阅服务使用说明
  10. 页面中文乱码,tomcat服务器,jsp乱码
  11. 老男孩python作业_老男孩python学习之作业一购物小程序
  12. ultravnc 设置代理_紫竹桥代理记账哪家好详情
  13. 淘宝客小程序制作(1)-淘宝的相关的准备
  14. 【Linux】制作U-Boot烧写镜像到SD卡的过程(上篇)
  15. M25F1 4G全网通终端的技术应用
  16. 图标及按钮在线搜索制作工具
  17. 产品公司解决方案、解决方案公司解决方案,可能你做了一辈子IT你也不知道...
  18. vue 流星的样式和流光canvas
  19. git 安装后,右键没有 git clone
  20. Unity的Animator的动画层(Layer)

热门文章

  1. Java编程思想1-对象导论
  2. 【ROR】基础0-在vagrant中配置ror环境
  3. 使用CHM文档 采集随笔(续)
  4. 15.1 异常(异常的基本概念+自定义异常)
  5. 数据-第19课-递归的应用实战一
  6. 数据-第11课-双向链表
  7. 在ASP.NET页面中添加确认对话框的方法
  8. spring boot安装环境步骤及问题解决方式
  9. 简析边缘数据中心技术
  10. TEA(Tiny Encryption Algorithm)