应该说参加这个比赛很累,完全低估了自然语言处理的难度和复杂性。不过经过这个比赛,熟悉了自然语言处理的分词ICTCLAS和句法分析Stanford Parser建立句法树进行处理的流程,同时也写了海量的正则表达式用来问题分类,还有就是理解了自然语言处理是多么的难。

首先,讲一下我对问题的理解。我的理解可以将问题划分为 问题分类,问题关键词匹配和 问题语义理解三部分。

首先说一下问题分类,问题分类,我们将问题拿过来,首先想到的就是问题的所在的领域。

第一次尝试:  我们参考了一些国内的和国外的问题分类模型和文章,将问题按照领域分类,人物类、历史类、电影、汽车呀、娱乐呀等等的,其实也想跑到搜狗的细胞词库下载了海量的分类词库词库过来使用。不过后来发现这种方法效果不好的,因为首先百度比赛的时候每对句子之间的相似度其实是挺高的,而且只是句子的表达和句法不同而已,基本上每个句子都是属于同一个领域的。

第二次尝试: 我们按照问题的疑问词和问题的内容对问题进行分类,即对问问题的目标(典型的例子:1 人民大学在哪里?(地点类)人民大学怎么样(评价类)?人民大学的校长是谁(人物类)?)。因为标记的数据只有800条,就这800条,也标注很累的了。如果使用统计的方法,很容易就可以确定特征值提取和选取正则表达式进行分类的。现在我们因为缺乏语料库,只能人工手动标注了这800条数据,还是很少了。对着这800条数据,编写了好多好多的正则表达式来方便对问题进行分类。这个就是导致我编写了超过80条以上(如果包含使用|,区分的表达式数目)的正则表达式 ~ ~ 。

第三次尝试:这个时候就是用ICTCLAS分词程序对句子进行分词。分词之后,直接比对A句子中的词语和B句子中的词语的重复出现的数目了。典型的就是A中的词语在B句子中出现的,然后呢B句子中不在A句子中出现的词语的数目要很少。当然这一步的副作用就是,我们需要编写海量的同义词库。人工手动的编写了测试数据集中的同义词库,耗时2人*天。这一步结果算出来之后呢,效果还行吧,反正就是从一开始毫无希望,让我们看到了一丝希望。具体的就是A中的名词、动词等一定要在B中出现,

第四次尝试:以失败而告终。第一名此时最后一点一直优化,F值已经达到了0.66了。我们的还在0.52进行徘徊的。这次尝试是希望使用句法树来进行语义解析的。首先这一步最好的并且最优的我觉得就是,首先使用正则表达式将句子分类为很多很多的类,然后对每个小类再识别句子的主题词和重要的位置。比如 你为什么吃西瓜。按照”为什么“,前后的词语重要性就是  你,西瓜   很重要的。对这个问题希望提取出重要的主题词为 你,西瓜。  但是这个方法由于到最后已经十分耗时了,而且我们的精力有限毕竟没有最终实现的。最后的结果就停留在0.511左右了。但是小伙伴们我们已经尽力了,期间因为这些不靠谱的比赛,哎不说了。我很想解释计算机方向的比赛其实都很难的,特别是热门方向上。特别是NLP这个人工智能最难得问题,哎。

最后的总结就是,自然语言处理不是直接就能搞的。这个需要长时间的积累,如果我们在一个搞自然语言处理的实验室,有语料库和具体的分析应该会好很多的,还有就是人数太少,两个人标注数据基本也不够的。还有一个就是这里用户的问题都是口语化的,这个对分词系统也带来了很大的挑战,很多词语,“咋能” ”咋样能“,没有最坑只有更坑。还有比如 “色戒里面男主角杀了女主角么?”  “色戒里面梁朝伟杀了那个女主角么?”,诸如此类的种种,真实没有办法分析的。

后面根据我和面试官的聊天发现我以后应该更加专注于一个小点上,我希望可以适用一句话来介绍我自己的研究方向和学习的方向的。自然语言处理这个比赛只能说是过来打打酱油的了。不过中途看了一些文章,了解了自然语言处理的分词和句法树的技术。而且从现在来看我们的自然语言处理的解决方案写的还是太简单了的,无比基础,虽然中文自然语言处理技术确实比较难。没有语义语料是硬伤,最近看了LSI的模型觉得隐语义模型是对这个比较好的一个方向。

还有最不爽的就是遇到了360的面试官,他说你做这个干什么,你本身又不是做自然言语言处理的。其实仔细想一想也对,我一定要找好自己的职业发展方向,在一个点上发力。这样才是最好的。

教训:

我想想我之前看过什么书哈,看过C++,看过linux操作系统,看过java开发,搞过Android开发,搞过算法,搞过数据挖掘,搞过自然语言处理,这样太乱了,不行的。一定要找一个自己擅长的方向,并且一句话就能概括你这个人的技术特长的,一定要有技术特长。术业有专攻的。

失败原因总结,NLP太复杂,没有相关的语料积累,对于语义理解不熟悉。我看了一篇learning to understand the meaning of sentence,觉得我们还是做的太简单了。以后有时间,我也会看一些NLP的知识的,补充过来。

参考文献:

某牛人写的自然语言处理的简介文章:http://www.matrix67.com/blog/archives/4212

漫话中文自动分词和语义识别(下):句法结构和语义结构: http://www.matrix67.com/blog/archives/4870

我爱自然语言处理,自然语言处理傲慢与偏见:http://www.52nlp.cn/

LSF随机句法分析http://wenku.baidu.com/view/4032ecd4195f312b3169a535.html

PS:大赛网址:http://openresearch.baidu.com/topic/52.jspx

百度Q-T语义一致性比未获奖 (总结)相关推荐

  1. C#调用百度地图API入门解决BMap未定义问题

    本文主要是最近帮助好友研究JavaScript的百度地图API,同时显示到C# Winform界面.同时遇到了BMap未定义的错误(BMap is not defined)及解决方法.以前写过基于An ...

  2. 百度AI语音语义一体化技术 识别的同时进行语义分析

    7月4日,百度AI开发者大会(Baidu Create 2018)盛大召开,在下午的百度大脑论坛上,百度语音技术部总监高亮公布了百度基于远场的语音语义一体化技术的三项重大突破,包括基于远场的语音语义一 ...

  3. 百度统计网站流量出现“代码未生效”的应对情况

    解决"代码未生效" 你可能像我一样,使用百度统计来统计网站的访问情况,但是我在按照官方给的方法添加入我的js统计代码时,在百度统计管理台检查显示"代码未生效". ...

  4. win7升级Win10之360百度等升级助手均因系统未激活不可升级

    上个月,每天开机还有win10升级推送消息,因为傲娇就是木有装.现在想在2015年最后几天免费升级个正版win10,忽然发现更新推送消息木有啦.... 然后问度娘,据说百度啊,360啊啥啥的,都联手微 ...

  5. 陆奇交还百度COO权杖背后:功未成 身已退!

    ▼ 点击上方蓝字 关注网易智能 为你解读AI领域大公司大事件,新观点新应用 2018年5月18日,在百度奋战了整整16个月的陆奇退出一线. 百度公告称,百度集团总裁兼COO陆奇由于个人和家庭原因,无法 ...

  6. 百度云域名解析如何添加? - [未完待续]

    百度云域名解析如何添加 百度教程: 点击前往查看 从没发现,百度云这么坑爹,买了个服务器,控制中心操作一头雾水(相关服务器域名管理的东东查起来真真是乱的一笔糟!!!),搞起来这么麻烦. 一. 域名实名 ...

  7. Android App后台、锁屏运行,百度定位不实时定位。未解问题,求大神指教?

    细节描述: 功能需要实现:App 一直给后台上传经纬度.(正常运行,后台运行,锁屏运行) 问题描述:红米Note 5A. 在A点,App 锁屏,走到B 点,然而在A---B之间一直上传的是A点锁屏前的 ...

  8. 网盘用户分享独播剧链接 百度未及时封禁一审被判赔偿百万余元

    [TechWeb]12月22日消息,据海淀法院官方微信发布的消息,近日,海淀法院宣判了原告优酷网络技术(北京)有限公司诉被告北京百度网讯科技有限公司侵害作品信息网络传播权纠纷一案.法院判决百度公司赔偿 ...

  9. 死链提交为什么不能提交 html文件,百度提交网站后死链一直未处理掉的原因有哪些?...

    上次成都SEO的网站出现死链接之后,按照处理方式处理后,但是还是没有处理掉,柴叔分析了一下其主要原因有以下几点:百度提交网站死链一直未处理掉的原因有哪些?分享给各位希望后面用得上: 1.站点质量因素: ...

最新文章

  1. 2021年大数据ELK(十九):使用FileBeat采集Kafka日志到Elasticsearch
  2. Java架构-面试前必须知道的MySQL命令【explain】
  3. DNS子域委派配置案例[转载]
  4. MongoDB查询报错:class com.mongodb.MongoSecurityException: Exception authenticating MongoCredential...
  5. Java多线程之静态代理
  6. 操作 实例 / dom
  7. Hibernate持久化对象的状态:瞬时状态、持久化状态、托管状态
  8. NOIP2007 树网的核
  9. 这就是为什么您的开源项目失败
  10. 插值问题(拉格朗日插值、牛顿插值)
  11. C++算法学习(力扣:201. 数字范围按位与)
  12. bzoj3159: 决战
  13. SSH工具连接谷歌云VPS实例
  14. [转载]借助LVS+Keepalived实现负载均衡
  15. C# 图片转换ICO工具
  16. 【美团滑块】猫眼下单、点评
  17. java播放wav文件没声音_java播放wav文件,该如何处理
  18. IoC Containers and the DI pattern
  19. python 福利吧_段友福利:Python爬取段友之家贴吧图片和小视频
  20. java时钟课程设计,Java课程设计-时钟图形模拟

热门文章

  1. Banner——轮播图
  2. Sketch for mac(专业矢量绘图设计软件)
  3. CSS day_04(6.15)背景颜色图片、修饰元素、浮动
  4. C语言学习(三)内存初识、数据在内存中的保存形式、程序载入内存
  5. 利用cookie进行模拟登录并且抓取失败
  6. CRMEB 商城订单发货功能
  7. 智能养殖畜牧系统研发
  8. iQOO Neo7智能手机;索尼“地球蓝”LinkBuds S耳机;卡西欧多款40周年纪念款手表 | 科技新品...
  9. 1001: 植树问题 ZZULIOJ
  10. 南京大学用python玩转数据答案_2020中国大学mooc用Python玩转数据章节答案