1.施乐PARC实验室对成果做技术转移和产品孵化,spin off了一家叫做 Inxight 的公司,是工业界的NLP leader。在 PARC FSA(有限状态自动机)研究的基础上,推出一个 LinguistX 的平台,从浅层开始做起,Stemming, POS,NE,多语言。FSA 特别擅长 stemming (主要是削尾)和 morphology(词法分析),就是对词的各种分析。

2.NLP 做平台的,做 component technology 的,很难在市场生存发展。Inxight 在融资10+轮后,终于撑不住了。白菜价卖给了 SAP,最后不了了之。

3.Component technology 很难活,但是从这个源头,还是引出了另外两家步 Inxight 后尘的。一个就是 Ron 创立的 Powerset,Ron 是拿它做 parsing,向深度进军。另一家是BASIS,现在还活着,在旧金山,只做 stemming,多语言,那是向广度进军。

4.Powerset没有产品,只做出了一个技术 demo,证明 parsing 对搜索有用,比关键词高一筹。

Parsing 对搜索的好处是精准,因为语法结构的匹配代替了没有结构的关键词查询。譬如要搜索微软都并购过哪些公司,关键词就很难找到好的结果。可是Powerset 在 parsing 基础上的搜索或答问,就可以整出非常漂亮的结果。行内叫做 SVO search(主谓宾支持的结构化搜索)。结果一定是漂亮的,因为把句法结构加入了,微软必须是主语,并购必须是谓语,那么出来的结果就不会不干净。SVO 就是parse的主干,主谓宾,语言学叫 argument structure,是 parsing 的核心结构。

5.n万小时定律。大体是,NLP入门需要一万小时(大约五年工龄),找到感觉需要两万小时,栽几个有意义的跟头需要三万小时,得心应手需要四万小时,等你做到五万小时(入行25年)还没被淘汰的话,就可以成精了。那是一种有如神助、如入无人之境的感觉。

6.高精的NLP技术虽然很难,但技术的确不是问题,问题在于产品。从 NLP引擎 mapping 到产品或产品的 features,这里面有千百种组合,哪种组合能在市场上站住,到目前为止基本是盲人摸象的过程。为了减少盲目性,产品经理和制定产品策略的老总至关重要。

7.parsing 和搜索的关系。parsing 完再搜一定是效果好的,因为搜不到就backoff 到关键词。你可以肯定高于搜索,问题是成本。搜索完再根据情况调用parsing,也是可行的。

8.query来了,有个 routing 的process,这个 routing 可以包括局部搜索探路,也可以包括其他的策略,总之是,应该可以找到一类 query,这类 query 最适合用 parsing 来回应。最好是那些关键词最难回应,而结构最拿手的。如果这个子集能大体确定,那么 parsing 在互联网搜索上是大有可为的。其实,目前的搜索巨头,在利用 parsing 的路上走得太慢。

9.query understanding 是非常重要的一个环节,可是做的人痛苦,两三个词玩不出语言学的名堂来。做 text 的人面对的是整个互联网。query 是语言中的一个分子,那种感觉是不一样的。

原文链接:泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

李维:NLP 工业研发的掌故相关推荐

  1. 前科大讯飞AI研究院副院长李维出任弘玑Cyclone首席科学家

    大数据产业创新服务媒体 --聚焦数据 · 改变商业 数据猿报道 近日,前科大讯飞AI研究院副院长.硅谷大数据舆情挖掘公司Netbase首席科学家.自然语言处理(NLP)资深架构师李维博士加入国内知名的 ...

  2. 聊天记录:李维、左轻侯、周爱民谈Diamondback

    聊天记录:李维.左轻侯.周爱民谈Diamondback 本期嘉宾:,李维,周爱民,主持人,左轻侯,聊天话题:帝国反击战:Delphi再创辉煌? 嘉宾发言区 ---------------------- ...

  3. 易云维®智慧工业云平台让ChatGPT重新认识一下中国制造业信息化水平

    最近,ChatGPT聊天机器人颇受关注,那关于中国制造业在ChatGPT是怎样的"印象"呢? 什么是ChatGPT ChatGPT由OpenAI开发,使用Transformer网络 ...

  4. 软件赋能智造——第五届“设计+运维”国产工业软件研讨会圆满召开

    2023年5月25-26日,第五届"设计+运维"国产工业软件研讨会在南京举办.来自国产工业软件研发企业.制造业企业.高校.科研院所的业内大咖,能源动力.船舶海事.车辆运载.航空航天 ...

  5. 计算机李维,李维(南京工业大学名师——李维)_百度百科

    李维 (南京工业大学名师--李维) 语音 编辑 锁定 讨论 上传视频 本词条缺少概述图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧! 李维,出生于1963年4月,是南京工业大学的名师,主要研 ...

  6. 李维说他跳槽了,那我以后也不是Borland的Fans了?

    李维用了很大标题,很挑逗性的语言,向外透露,自己换公司了,不再继续服务于Borland,而转去CodeGear,哈哈,我是不是从此也脱离Borland阵营,变成了CodeGear的Fans了?奇怪,奇 ...

  7. 【读书笔记】《偷影子的人》[法]马克·李维 —— 不想被叫醒的梦

    目录 [版权信息] [人物简介] [剧情梗概] [原著佳句] [感悟] [总结] [版权信息] <偷影子的人> 作者:  [法] 马克·李维  出版社: 湖南文艺出版社 原作名: Le v ...

  8. 听李维谈JB2007有感 CodeGear能否重现辉煌?

     李维的会有感 虽然对李大师早有而闻,但好像从未正面打过交道,他好像也去过杂志社,但与我无关.今天能够坐在他对面,听其"忽悠"JBuilder 2007的新功能,确实很有一番味道, ...

  9. php 语义计算,科学网—【语义计算:关于解析逻辑语义角色】 - 李维的博文

    白: "每人选一种动物做研究.""每人选一个小伙伴做研究." 我: 好吧,来两颗圣诞奇异(歧义)树,祝各位圣诞快乐! 当树长得不像树的时候,我们开始怀疑.人可以 ...

最新文章

  1. Android 拍照是开启(调用)闪光灯(原创)
  2. linux中shell变量$#,$@,$0,$1,$2的含义解释:
  3. python 多个列表合并_Python对两个有序列表进行合并和排序的例子
  4. 关于质量标准化的思考和实践
  5. js 创建keyframe_javascript – 查找特定的CSS @keyframes规则
  6. css滑动星星评分,纯css3滑动星星打分动画特效
  7. 一种简便的安装使用 qemu 的方法
  8. windows在cmd中用cl、link工具编译生成dll与lib
  9. 英语知识系列:26个字母在单词中的发音总结
  10. SpringBoot(三)配置文件
  11. 计算两个数的平均值几种方法
  12. DataPipeline | 享物说产品负责人夏凯:数据驱动的用户增长实战
  13. 评标专家和评标专家库管理暂行办法:评标专家享有的权利
  14. 2018年超强台风“玉兔”重创塞班岛卫星影像纪实
  15. 普通二/三本学校程序员(搬砖工)的出路?
  16. 获取 Nuget 版本号
  17. photoshop设置网格线
  18. 狮子座适合计算机网络吗,适合狮子座的网名
  19. 成都市2016年11月滴滴订单od数据
  20. AES-CMAC加密算法使用

热门文章

  1. 360测试之美技术分享大会(第十季)圆满结束(附直播回放及PPT分享链接)
  2. CentOS8下配置静态IP后ping不通自身网关
  3. 闭门苦练Vue3后, Java一族何时一统天下?
  4. 韶关生物实验室建设平面布局
  5. CQF(量化金融)到底有多香?为什么越来越多人都去考?
  6. 探索性测试 VS 精益测试
  7. 2020蓝桥杯省赛第一场A组(C/C++)个人题解
  8. Leetcode1 daxia_xu
  9. DevExpress安装---测试可用
  10. 说给青春听的那些语句,为什么总那么疼