达观杯文本智能处理挑战赛冠军解决方案
已获 AI小白入门 授权
之前整理了一份自己的Rank 4的解决方案,并开源了部分代码,原文链接:“达观杯”文本智能处理挑战赛,季军带你飞。这次分享一下朋友(NLP幼儿园)整理的"达观杯"文本智能处理挑战赛冠军的解决方案。
本文已获作者NLP幼儿园授权
竞赛背景
2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上,目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作,并在各行各业得到充分应用。
自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。
此次比赛,达观数据提供了一批长文本数据和分类信息,希望选手动用自己的智慧,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。未来文本自动化处理的技术突破和应用落地需要人工智能从业者和爱好者的共同努力,相信文本智能处理技术因为你的算法,变得更加智能!
比赛网址
http://www.dcjingsai.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html
解决方案
最后附上小伙伴的gayhub:
https://github.com/ShawnyXiao/2018-DC-DataGrand-TextIntelProcess
如果喜欢该文章,可以点击下面的bar关注呀!
往期推荐:
一大批历史精彩文章啦
干货 | 那些高产的学者都是怎样工作的?
高校里的你值得关注的最强大脑
近年来NLP在法律领域的相关研究工作
有偿征稿!
好文!必须点赞
达观杯文本智能处理挑战赛冠军解决方案相关推荐
- 【数据竞赛】“达观杯”文本智能处理挑战赛1
一.数据竞赛简介 "达观杯"文本智能处理挑战赛 1.任务 建立模型通过长文本数据正文(article),预测文本对应的类别(class) 2.数据 传送门:链接: https:// ...
- “达观杯”文本智能处理挑战赛代码示例
达观杯介绍: 类似kaggle的数据科学比赛,任何人可以参加 网址:http://www.dcjingsai.com/ 可以用支付宝实名注册 项目名称: "达观杯"文本智能处理挑战 ...
- 达观杯”文本智能处理挑战赛
竞赛信息 1.网址 http://www.dcjingsai.com/common/cmpt/"达观杯"文本智能处理挑战赛_竞赛信息.html 2.任务 建立模型通过长文本数据正文 ...
- “达观杯”文本智能处理挑战赛,季军带你飞
来自AI小白入门 前段时间和朋友何从庆(AI算法之心)等队友一起组队参加了这个比赛,本来以为小比赛人少,没想到参加的人会有几千人.最后我们队伍取得季军(4st/3131),虽有些许遗憾,但是也很荣幸认 ...
- “达观杯”文本智能处理挑战赛
(本内容转载自公众号"科技与Python") 2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现.而在以理解人类语言为入口的认知智能上,目前 ...
- 【数据竞赛】“达观杯”文本智能处理挑战赛2
文章目录 一.TF_IDF原理 1.TF(item frequency) 2.逆向文件频率IDF(inverse document frequency) 3.TF-IDF 二.TF-IDF算法实现 1 ...
- 【数据竞赛】“达观杯”文本智能处理挑战赛4
一.逻辑回归 逻辑回归(Logistic Regression, LR)是一种常用的处理两类分类问题的线性模型. 1.概率估计 LR 模型计算输入特征的加权和(加上偏差项),之后将中间结果输入 log ...
- 【数据竞赛】“达观杯”文本智能处理挑战赛3
一.语言模型 在统计自然语言处理中,语言模型指的是计算一个句子的概率模型. 传统的语言模型 词的表示是原始的.面向字符串的. 向量角度:更高维.更稀疏的向量.若词汇表大小为 NNN,每个字符串形式的词 ...
- 【数据竞赛】“达观杯”文本智能处理挑战赛6——模型优化
文章目录 一.超参数 1.网格搜索 2.随机搜索 3.贝叶斯优化 二.Stacking 1.核心图解 (1)构建新的训练集 (2)构建新的测试集 (3)最终的训练与预测 2.示例 (1)构建新的训练集 ...
- 【数据竞赛】“达观杯”文本智能处理挑战赛5
一.LightGBM模型 1.XGBoost缺点 每轮迭代时,都需要遍历整个训练数据多次.如果把整个训练数据装进内存则会限制训练数据的大小:如果不装进内存,反复地读写训练数据又会消耗非常大的时间. 预 ...
最新文章
- 用sqlplus为oracle创建用户和表空间
- initWithCoder: 与initWithFrame:
- IBASE handle free after save - buffer table cleared
- [深度学习] 分布式Horovod介绍(四)
- Grunt + Bower—前端构建利器
- python 环境常用指令(updating...)
- 6759: 异或序列
- 第一章 ASP.NET MVC简介(1.1)
- 【Python数据分析实战】豆瓣读书分析(含代码和数据集)
- GD32F103替换STM32F103
- 网站流量可视化分析--浏览量分析、退出量分析
- 无线局域网和蜂窝移动网络_手机连上WiFi之后,你会关闭移动网络吗?这其中大有讲究...
- TiDB EcoSystem Tools 原理解读(一):TiDB-Binlog 架构演进与实现原理
- 5种高大上的yml文件读取方式,你知道吗?
- opcode是什么意思
- PAKDD2020:阿里巴巴算法大赛中的得与失
- 猪八戒网站上的骗子为什么这么多
- python爬虫win10程序_Python爬虫教程:批量提取Win10锁屏壁纸
- 美赞臣中国独立后任命朱定平为总裁;思拓凡亚洲首个技术研发卓越中心上海揭幕 | 美通社头条...
- Spring Security内部工作原理