随着中国改革开放程度的加深,互联网行业也逐渐出现变革,典型的变化就是由原来的低端重复性造轮子,逐步转向高端,以技术创新为主导。一个有力的证明就是近年来以技术驱动的创业公司越来越多,这在10年前是不可想象的。在人才要求上,对工作经验不再那么看重,而更加重视求职者的学历,专业,背景。

在这样的背景下,一些原来传统的互联网大公司,将逐步失去竞争优势。当然事实上也没这么邪火,这个变化是缓慢的,也有许多公司不愿意接受应届硕士,嫌弃他们没有Ai经验。因为他们认为学术界和工业界有鸿沟。但是一些真正以技术创新驱动的Ai公司,更加青睐于高学历,有研发背景的海归。说句实话,目前国内的Ai,能够搞的起来的,也就那么几家而已,其余的都是炒作。一些新兴的Ai创业公司,除了商汤,依图,云从,旷视外,nlp领域并没有出现独角兽。所以重点谈一下nlp。

3月10号北理工举办了一场知识图谱研讨会,与会邀请了9位学术界和工业界的专家。在最后1个小时的问答环节里,有听众向专家提出了这么一个问题:招聘网站要做求职者和jd的匹配度,如何解决这样的问题?专家捣鼓了半天,最后也没给出令人满意的答案来。其实我认为,真正能解决问题的人,还不一定就是这些学术界的专家。都说场景是Ai第一要素,如果一个人整天指望着发论文活着,那么他的思维里,对场景的概念应该是淡化的。迄今为止,见到过的最务实的研发应该数阿里的达摩院了。阿里有真实海量的数据,有明确的落地场景,在这样的背景下砸1000亿搞研发,是比较靠谱的。

之前我有一个观点,那就是研发Ai方案之前,一定要把人类自身对于特定场景的逻辑搞明白了,从中抽象出数学模型出来。然后做现有算法模型与场景的匹配度,如果全都匹配不上,那就在原来的基础上重新整合出的模型出来。但是很遗憾,很多工业界的程序员并没有意识到这个问题,对于一个算法,他的核心从来不是公式推导,而是这个算法是如何产生的,能解决哪些问题,不能解决哪些问题,以及算法的缺陷和改进的方向。说白了,研发就是把握好大的方向,比如深度学习在语义理解中承担什么样的角色?很多学者追捧如何改进seq2seq,论文满天飞,从我的角度来看,这些工作是没有太大的实际意义的。包括机器翻译,单纯依靠NMT也是不切实际的。当然,seq2seq对于描述性的文本,是很好的。对于描述性的文本,深度学习都会发挥很好的效果。原因就是描述性的文本,规则不是很强,更需要向量这种语义表示来做语义相似度运算,这就是场景的问题了。而对于规则性强的场景,翻译就得靠规则和语义相似度替换了,而对于商品标题这类问题,由于大部分标题都是拼凑的,并不是很符合语法,所以用seq2seq效果会很差的,这个时候统计建模就会发挥作用了。

以前面提到的招聘网站jd匹配问题,专家在筛选简历的时候和hr肯定不一样。由于hr不懂技术,在看简历的时候,更多是依靠规则,一条一条地比对,而每条规则的比重是不同的。比如老板要求学历是至高无上的,那么hr在看简历时,往往先看学历,一看不是海归,或者985硕士博士,直接pass掉了。这就基于规则的逻辑,一条一条地看,评分,最后给出综合的印象。而同样的场景,技术专家筛选简历,除了这些规则外,他们会重点关注候选人的技术,自学能力,潜力,尤其是一些描述性的文本,会重点关注。所以往往hr认为不合适的,技术专家反而认为合适。那么,这样的一个场景,很显然我们做模型匹配度的时候,是必须考虑两者的因素的。对于第一因素规则,这些规则其实是有优先级关系的,比如划分为重要,必要,次要三个级别,每个级别对最后综合得分的贡献度不同,也就是权重不同。在人工干预的阶段,把这些规则全都罗列出来做处理。而这些规则会大量出现在结构化的文本中,因为一篇简历,整体会包括结构化的文本和描述性的文本两部分。比如公司的实验室想招聘AI研发人员,那么学历,学校,专业的优先级就是重要的,获奖情况,背景平台是必要的,那么毕业时间等其他因素就是次要的。这些规则的权重不同,最后加权求和得到基于规则的得分。

具体方案如上图所示:其中u为根据规则得到的相似度分数,最后求总分的时候引入平滑系数,是因为两部分的比重在实际中是不同的,需要手动调节。采用MSE作为损失函数。另外在jd中,有的描述,比如能够修改lucene源代码等,如果采用规则,效果会非常差,因为大部分程序员都是仅仅会使用lucene而已。所以简历中出现了lucene,并不代表就合适。

之前有人问过我,他们公司做的抽取,要求抽取出高管,基于规则非常差,准确率只有70%多,不知道怎么解决。一句话,知识图谱是良方。

学会case by case,远比死学算法知识重要,还是那个观点,对于AI算法,推导不是核心。

转载于:https://www.cnblogs.com/txq157/p/8863508.html

论场景在研发中的重要性相关推荐

  1. 【软件测试】稳定性和可靠性测试在软件开发中的重要性

    软件测试的某些方面经常会在那些刚接触流程的人中造成混淆--例如在稳定性和可靠性测试之间划清界限.两者通常可以互换使用,并且有一个共同的目标,即确保系统可以在选定的时间范围内稳定运行. 在这篇文章中,我 ...

  2. 星药科技李成涛:人工智能在药物研发中的应用

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  3. 【易拓大咖说】|一文讲述OData 在 SAP 生态系统中的重要性

    今天将分享 OData 在 SAP 生态系统中的重要性,解释如何将 OData 与 SA P 的服务集成,以及如何创建和使用 OData 服务,以帮助大家更好的使用数据连接器,一起来看看吧! 01 什 ...

  4. 我国自主研发的计算机操作系统是,浅谈我国自主研发计算机操作系统的重要性...

    龙源期刊网 http://doc.docsou.com 浅谈我国自主研发计算机操作系统的重要性作者:向思宇 来源:<新生代·上半月>2018年第12期 [摘要]:现如今知识产权的问题只被少 ...

  5. 勇敢的交流者在敏捷组织中的重要性

    在Scrum做任何事都需要把一套价值作为团队流程和交互的基础.勇敢正是其中之一.因为在scrum中所有人保持着团队协作,每个成员都能够感受到团队的支持.这让他们有勇气去承担更加艰巨的挑战. \ Dan ...

  6. 深度学习在小分子药物研发中的应用

    一.深度学习在小分子药物研发中的应用 二.深度学习工具 TensorFlow         Python                    https://www.tensorflow.org/ ...

  7. 学习机器学习的项目_辅助项目在机器学习中的重要性

    学习机器学习的项目 提示与建议 (Tips and Advice) There are a few questions that are asked frequently by machine lea ...

  8. 研发中会使用到的工具

    研发中会使用到的工具 分享一下后续持续更新

  9. 计算机统计知识,计算机知识在统计工作中的重要性

    计算机知识在统计工作中的重要性 目前计算机已在县以上统计部门广为利用,如何注意提高统计业务人员的计算机水平,培养出既懂统计业务,又懂计算机知识的复合型统计人才,是当前急待研究和解决的重要问题.一.计算 ...

最新文章

  1. centos 升级cmake from 2.* to 3.*
  2. leetcode算法题--Z字型变换
  3. python3.7正则表达式语法_python3正则表达式的几个高级用法
  4. ps怎么一下选中多个图层_PS图层基本操作,零基础小白必学
  5. 【目录】Django-2.0 学习笔记
  6. 每天一道LeetCode-----实现一个栈,提供一个接口用于返回栈中最小值
  7. 反射、对象拷贝、异常常见问题总结
  8. Sentinel底层LongAdder的计数实现
  9. 一个代表年月的类YearMonth
  10. java三个技术平台_Java的3个平台有什么区别
  11. 详解MES系统在钢铁企业的应用分析
  12. embed实现PDF文件预览
  13. 杨辉三角斜列规律及与循环层数的关系
  14. Discuz安装短信宝短信插件教程
  15. 构建初级前端页面以及重构开发环境(from 知乎)
  16. 赴日工作之在留换签证
  17. 基于聚集诱导荧光探针细胞膜/细胞膜表面GABA受体荧光探针/上汞离子荧光探针的研究
  18. AB罗克韦尔plc指示灯详解
  19. 双软认证企业税收优惠政策
  20. 高分屏笔记本显示模糊解决方法

热门文章

  1. typedef和define的详细区别
  2. 大数处理之一(加法和乘法)
  3. u-boot启动代码start.S详解360
  4. 【LeetCode】121.买卖股票的最佳时机
  5. 同一个网站别人能打开我打不开_做网站建设需要注意的五大事项
  6. centos amd双显卡_讯景RX590 AMD 50周年纪念版显卡评测
  7. 防爆计算机最新报价,防爆计算机 工厂直销 价格优惠升级方便外形轻巧KJD127防爆计算机...
  8. android自动化优化工具,一键自动优化系统大师下载
  9. scrum回顾_沙龙回顾 | 大规模敏捷框架-Essential SAFe介绍
  10. 11.QT事件机制源码时序分析(下)