该数据集来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据。

根据新闻正文内容分析新闻的类别数据集官网链接:

http://www.sogou.com/labs/resource/tce.php.

该数据集样例格式如下所示:

在 FlyAI竞赛平台上 提供了超详细的参考代码,我们可以通过参加搜狗新闻文本分类预测练习赛进行进一步学习和优化。

1.1、算法流程及实现

算法流程主要分为以下四个部分进行介绍:

1.数据加载

2.构建网络

3.模型训练

1.数据加载

对每条新闻数据的读取和处理是在processor.py文件中完成。

具体实现如下:

2.构建网络

由于是搜狗新闻文本类数据,这里我们可以使用一维卷积Conv1D + BiGRU来构建网络,网络结构如下所示:

运行summary()方法后输出的网络结构如下图:

3.模型训练

这里我们设置了epoch为5,batch为128,采用adam优化器来训练网络,EarlyStopping可以加速调参过程。然后通过调用FlyAI提供的train_log方法可以在训练过程中实时的看到训练集和验证集的准确率及损失变化曲线。

1.2.最终结果

通过使用自定义CNN网络结构+双向GRU网络的方法,在epoch为10,batch为128的条件下使用adam优化器下不断优化模型参数,使用early_stopping规则在model训练达到early_stopping条件时提前终止训练提高model优化效率,最终模型在测试集的准确率达到91+。

NLP入门竞赛,搜狗新闻文本分类相关推荐

  1. NLP入门竞赛,搜狗新闻文本分类!拿几十万奖金!

    该数据集来自若干新闻站点2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据. 根据新闻正文内容分析新闻的类别数据集官网链接: http://www.sogou.com/labs ...

  2. Task01——零基础入门NLP - 新闻文本分类之赛题理解

    本篇目标 首先本篇文章会对赛题进行介绍以及个人对赛题的理解,带大家接触NLP的预处理.模型构建和模型训练等知识点. 赛题介绍 赛题名称:零基础入门NLP - 新闻文本分类 赛题任务:赛题以自然语言处理 ...

  3. 零基础入门NLP - 新闻文本分类

    本文是对阿里云新人竞赛中的"零基础入门NLP - 新闻文本分类"解体过程进行的记录,目前仅使用了textCNN模型进行预测,后续还会考虑使用LSTM进行对比. 赛题数据 赛题以新闻 ...

  4. 零基础入门NLP - 新闻文本分类,正式赛第一名方案分享

    零基础入门NLP - 新闻文本分类,正式赛第一名方案分享:https://mp.weixin.qq.com/s/7WpZUqdlItBToLYuRLm44g

  5. 零基础入门NLP - 天池新闻文本分类Task3笔记

    零基础入门NLP - 天池新闻文本分类 以下以Datawhale与天池举办的新闻文本分类这个NLP赛题做的NLP入门Task2笔记 赛题链接:https://tianchi.aliyun.com/co ...

  6. 【初学者入门】零基础入门NLP - 新闻文本分类

    序言 从今天开始入门学习NLP,虽然有点晚,但是我觉得任何时候都值得开始,尤其是面对你去感兴趣的事情.今天的任务是 [零基础入门NLP - 新闻文本分类],这是天池大赛中的入门级算法比赛,入口链接请自 ...

  7. 天池零基础入门NLP - 新闻文本分类Top1方案的bert4torch复现

    天池有些长期比赛可以练习玩玩(还可以继续提交),于是试了下简单的新闻文本分类任务,Top1的解决方案思路是"预训练+fgm+交叉验证模型融合",代码是基于bert4keras的,本 ...

  8. 天池比赛——新闻文本分类比赛(零基础入门NLP)

    1 赛题理解 1.1 比赛内容 对新闻文本的类别进行预测.比赛提供了包含14个新闻类别的文本数据,分为训练集和测试集A,B.训练集包含20万条新闻文本数据,测试集A,B分别包含5万条新闻文本数据.所有 ...

  9. 【项目实战课】NLP入门第1课,人人免费可学,基于TextCNN的新闻文本分类实战...

    欢迎大家来到我们的项目实战课,本期内容是<基于TextCNN的新闻文本分类实战>. 所谓项目课,就是以简单的原理回顾+详细的项目实战的模式,针对具体的某一个主题,进行代码级的实战讲解,可以 ...

最新文章

  1. linux mint系统分区,Win7删除了linuxmint的系统分区如何恢复
  2. 白鹭引擎开发飞机大战详尽教程(四控制飞机移动)
  3. Android线程详解
  4. .NET 6 Preview 2 发布
  5. Microsoft使用.NET Core SDK遥测数据
  6. 27 FI配置-财务会计-外币评估-定义评估方范围
  7. 蜜雪冰城“骗局”:年赚8亿,竟不是靠卖奶茶?!
  8. 如何在Vue中使用Font Awesome?
  9. 【DP + 卖股票】LeetCode 123. Best Time to Buy and Sell Stock III
  10. unity, 欧拉角(euler angle)
  11. linux下的asp.net服务器,Ubuntu架设asp.net服务器
  12. 卡尔玛滤波的原理说明
  13. 计算机管理打不开路径不存在,电脑打不开软件提示路径不正确如何解决
  14. 【CO2二氧化碳传感器】senseair S8 LP
  15. 目标跟踪:Deepsort--卡尔曼滤波、匈牙利匹配、马氏距离、欧氏距离、级联匹配、reid
  16. STM32环境下AS5048A14位磁旋转编码器SPI通讯调试记录——我学到的东西、遇到的问题、解决的过程
  17. android property实现路径
  18. mt6761平台 源码内置APK报错“/lib/xxxx.so“ not found
  19. css层叠样式表——css基础介绍
  20. centos 安装 pcre

热门文章

  1. bootstrap之div居中
  2. Codeforces Round #369 (Div. 2)
  3. ebuild 中的软件包依赖
  4. 你应该知道的25个非常有用的CSS技巧
  5. 微软MSN推出新一代Live服务 能离线编辑博客
  6. Ibatis in action 电子书
  7. LightGBM和XGBoost使用scale_pos_weight处理不平衡数据源码分析
  8. python3与相关软件的关系,箭头表示依赖
  9. 悟道·文澜详解:目前最大的中文多模态通用预训练模型
  10. 为什么《七周七语言》选中的是这几种语言?