李维:NLP 工业研发的掌故
1.施乐PARC实验室对成果做技术转移和产品孵化,spin off了一家叫做 Inxight 的公司,是工业界的NLP leader。在 PARC FSA(有限状态自动机)研究的基础上,推出一个 LinguistX 的平台,从浅层开始做起,Stemming, POS,NE,多语言。FSA 特别擅长 stemming (主要是削尾)和 morphology(词法分析),就是对词的各种分析。
2.NLP 做平台的,做 component technology 的,很难在市场生存发展。Inxight 在融资10+轮后,终于撑不住了。白菜价卖给了 SAP,最后不了了之。
3.Component technology 很难活,但是从这个源头,还是引出了另外两家步 Inxight 后尘的。一个就是 Ron 创立的 Powerset,Ron 是拿它做 parsing,向深度进军。另一家是BASIS,现在还活着,在旧金山,只做 stemming,多语言,那是向广度进军。
4.Powerset没有产品,只做出了一个技术 demo,证明 parsing 对搜索有用,比关键词高一筹。
Parsing 对搜索的好处是精准,因为语法结构的匹配代替了没有结构的关键词查询。譬如要搜索微软都并购过哪些公司,关键词就很难找到好的结果。可是Powerset 在 parsing 基础上的搜索或答问,就可以整出非常漂亮的结果。行内叫做 SVO search(主谓宾支持的结构化搜索)。结果一定是漂亮的,因为把句法结构加入了,微软必须是主语,并购必须是谓语,那么出来的结果就不会不干净。SVO 就是parse的主干,主谓宾,语言学叫 argument structure,是 parsing 的核心结构。
5.n万小时定律。大体是,NLP入门需要一万小时(大约五年工龄),找到感觉需要两万小时,栽几个有意义的跟头需要三万小时,得心应手需要四万小时,等你做到五万小时(入行25年)还没被淘汰的话,就可以成精了。那是一种有如神助、如入无人之境的感觉。
6.高精的NLP技术虽然很难,但技术的确不是问题,问题在于产品。从 NLP引擎 mapping 到产品或产品的 features,这里面有千百种组合,哪种组合能在市场上站住,到目前为止基本是盲人摸象的过程。为了减少盲目性,产品经理和制定产品策略的老总至关重要。
7.parsing 和搜索的关系。parsing 完再搜一定是效果好的,因为搜不到就backoff 到关键词。你可以肯定高于搜索,问题是成本。搜索完再根据情况调用parsing,也是可行的。
8.query来了,有个 routing 的process,这个 routing 可以包括局部搜索探路,也可以包括其他的策略,总之是,应该可以找到一类 query,这类 query 最适合用 parsing 来回应。最好是那些关键词最难回应,而结构最拿手的。如果这个子集能大体确定,那么 parsing 在互联网搜索上是大有可为的。其实,目前的搜索巨头,在利用 parsing 的路上走得太慢。
9.query understanding 是非常重要的一个环节,可是做的人痛苦,两三个词玩不出语言学的名堂来。做 text 的人面对的是整个互联网。query 是语言中的一个分子,那种感觉是不一样的。
原文链接:泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故
李维:NLP 工业研发的掌故相关推荐
- 前科大讯飞AI研究院副院长李维出任弘玑Cyclone首席科学家
大数据产业创新服务媒体 --聚焦数据 · 改变商业 数据猿报道 近日,前科大讯飞AI研究院副院长.硅谷大数据舆情挖掘公司Netbase首席科学家.自然语言处理(NLP)资深架构师李维博士加入国内知名的 ...
- 聊天记录:李维、左轻侯、周爱民谈Diamondback
聊天记录:李维.左轻侯.周爱民谈Diamondback 本期嘉宾:,李维,周爱民,主持人,左轻侯,聊天话题:帝国反击战:Delphi再创辉煌? 嘉宾发言区 ---------------------- ...
- 易云维®智慧工业云平台让ChatGPT重新认识一下中国制造业信息化水平
最近,ChatGPT聊天机器人颇受关注,那关于中国制造业在ChatGPT是怎样的"印象"呢? 什么是ChatGPT ChatGPT由OpenAI开发,使用Transformer网络 ...
- 软件赋能智造——第五届“设计+运维”国产工业软件研讨会圆满召开
2023年5月25-26日,第五届"设计+运维"国产工业软件研讨会在南京举办.来自国产工业软件研发企业.制造业企业.高校.科研院所的业内大咖,能源动力.船舶海事.车辆运载.航空航天 ...
- 计算机李维,李维(南京工业大学名师——李维)_百度百科
李维 (南京工业大学名师--李维) 语音 编辑 锁定 讨论 上传视频 本词条缺少概述图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧! 李维,出生于1963年4月,是南京工业大学的名师,主要研 ...
- 李维说他跳槽了,那我以后也不是Borland的Fans了?
李维用了很大标题,很挑逗性的语言,向外透露,自己换公司了,不再继续服务于Borland,而转去CodeGear,哈哈,我是不是从此也脱离Borland阵营,变成了CodeGear的Fans了?奇怪,奇 ...
- 【读书笔记】《偷影子的人》[法]马克·李维 —— 不想被叫醒的梦
目录 [版权信息] [人物简介] [剧情梗概] [原著佳句] [感悟] [总结] [版权信息] <偷影子的人> 作者: [法] 马克·李维 出版社: 湖南文艺出版社 原作名: Le v ...
- 听李维谈JB2007有感 CodeGear能否重现辉煌?
李维的会有感 虽然对李大师早有而闻,但好像从未正面打过交道,他好像也去过杂志社,但与我无关.今天能够坐在他对面,听其"忽悠"JBuilder 2007的新功能,确实很有一番味道, ...
- php 语义计算,科学网—【语义计算:关于解析逻辑语义角色】 - 李维的博文
白: "每人选一种动物做研究.""每人选一个小伙伴做研究." 我: 好吧,来两颗圣诞奇异(歧义)树,祝各位圣诞快乐! 当树长得不像树的时候,我们开始怀疑.人可以 ...
最新文章
- Android 拍照是开启(调用)闪光灯(原创)
- linux中shell变量$#,$@,$0,$1,$2的含义解释:
- python 多个列表合并_Python对两个有序列表进行合并和排序的例子
- 关于质量标准化的思考和实践
- js 创建keyframe_javascript – 查找特定的CSS @keyframes规则
- css滑动星星评分,纯css3滑动星星打分动画特效
- 一种简便的安装使用 qemu 的方法
- windows在cmd中用cl、link工具编译生成dll与lib
- 英语知识系列:26个字母在单词中的发音总结
- SpringBoot(三)配置文件
- 计算两个数的平均值几种方法
- DataPipeline | 享物说产品负责人夏凯:数据驱动的用户增长实战
- 评标专家和评标专家库管理暂行办法:评标专家享有的权利
- 2018年超强台风“玉兔”重创塞班岛卫星影像纪实
- 普通二/三本学校程序员(搬砖工)的出路?
- 获取 Nuget 版本号
- photoshop设置网格线
- 狮子座适合计算机网络吗,适合狮子座的网名
- 成都市2016年11月滴滴订单od数据
- AES-CMAC加密算法使用