1.      LSK理论和系统简介

理论:语言语义知识全息网络模型-简称LSK网络模型,是一种对语言、语义、知识三者统一表达、演算并应用的一整套理论、模型和方法。

系统:以该理论为核心,实现了对信息和知识的表达、描述、解析、理解、生成、查询、转换、推理、自学习的全过程结合在一起的完整体系,初步形成一个模拟大脑思维对于语言能表述的知识和问题进行理解、存储、查询、推理、解决问题的人工智能系统框架。

2.      目标

用这套模型和理论,构建实现统一的信息服务平台,为人类提供自然语言处理和知识处理的多种智能应用,如:机器翻译,机器问答,智能客服、智能助手、语义搜索、情报检索、辅助教学、行业专家系统等。

各种应用处理均统一采用自然语言接口。

3.      具体说明

3.1.     前期研发

已研发三年时间,理论和模型已经完善,并构建起了原型系统,实现了上述方面的理论各方面的验证。

3.2.     要点说明

人类通过自然语言进行信息沟通交流。自然语言有着数百种多种多样不同的外在表现形式(语种、方言等),但内在一定蕴涵并遵循着同样的语义信息结构,因此持不同语言的人们之间才有沟通的基础。但一直以来的难点就是无法给出一个全面、完善、优美的语义模型,这涉及到大脑里边的数百亿神经细胞以及它们之间的连接究竟是如何来表达语言语义信息以及知识的。LSK很大程度上借鉴了这一机制。

另一个方面来看,语义、信息和知识其实是同构的,并无明确的界限,也可以说人们传递的信息和知识就是用一种内在的语义模型描述,然后通过外在的语言形式即声音和文字来传递的。比如,小王说“我们去海南玩了,那里很美”,如果对于这句话分析正确的话将得到【小王去海南玩】【海南很美】等内在语义信息,这些信息本质上和已知的【海南是一个岛屿,是一个旅游胜地】等知识是一样的,唯一的差别是对不同的人来说其重要性不同而已,【知识】更概括而更重要,【信息】更具体而更随意。【海南是一个岛屿】是一条知识,【小王去过海南】何尝不是一条知识呢。虽然对于无关的人来说这后者信息不重要,听听可能就丢弃遗忘了。而对于小王自己和关心小王的人来说,这些是重要信息,也是一种知识,需要存储起来甚至永远铭记,并对今后产生持久影响。

基于这种原则,LSK建立起一个有效的模型和完整的理论,对语言-语义-知识三者进行统一表达。

具体地,LSK对目前自然语言处理领域的多种模型如:语言生成学、关系数据模型、产生式表达模型、面向对象模型、语义网络模型、神经网络模型等多种传统的模型进行了统一。传统的这些模型都是试图从各自看到的一个方面来概括语义和知识表达的整体,最终都因为表达不了丰富而灵活多变的信息和知识,一直不能真正突破。

假如说以前关于自然语言的理论对信息的划分和建模都比较片面,是一种“管中窥豹”的话。LSK采用多层次多维度的信息表达,尽量构建起对人类语言和信息表达这个“豹子”更完整的描述,建立起它的骨骼,肌肉,神经,内脏,皮毛结构的完整模型,形成一个有机整体。这样才能真正接近大脑对语言信息的表达理解以致进行各种方面的处理。

结合概率理论:该模型是将规则和概率结合在一起。不同于目前主流的简单化的只在字符串层面的统计概率分析(丢失了很多重要信息),而是多个层级上描述和处理概率。事实上,大脑就是一个概率机器,只是概率应用的范围不是那么单一,是对多层次,多特征的各种各样信息进行【综合概率】的评判和分析。

对结果的评估是多因素参与得出的,可以排除局部信息噪音和歧义,得到最优化的理解结果。

单个信息和规则都不起绝对的决定作用,没有绝对的规则不能被违背,高层的规则可以压制低层的规则使之可以被违背。比如,【说话】这个谓语是要求【说话者】是【人】。但是,在童话环境中,可以出现“大树对小草说...”,这是因为更高层级的【拟人】模式使前者规则可以被违背而整体得到满足。

模型自描述、概念相互描述。概念并不是语义表达的要点,概念之间的关联才是语义的核心。

对于计算机怎么才算是真正“理解”了人类语言,一直是计算机科学和语言学争论的焦点。图灵测试描述了一个公认的最终的目标和衡量标准,但对于中间究竟如何实现并无任何有价值建议。LSK中在这方面有一个较大的突破,要点就是:信息之间是互为描述的,信息之间相对平等(好比在相对论中没有绝对时间和空间,时间和空间就只能通过物质之间的相互关系来进行相对的定位,这种不是绝对精确的相对定位其实就能满足人类的需要),且对于理解到的句子能做出和人一样的推导和联想。

语义模型和理论的提高实际上反过来可以提高语音识别的准确率。目前基于数理概率统计模型实现的语音识别技术已经成熟,准确率在90%以上,现在要提高语音识别的准确率从语音信息本身下手已经没有太多上升空间,剩下的错误率的消除关键在于提高语义的理解,因为人们分析语音对应的文字时其实也是结合了语义理解反过来去决定对语音识别成文字的选择。

3.2.1.         建立语言、语义和知识统一表达的模型

已完成。

理论基础和平台核心,各种应用都围绕这个统一的模型为中心来进行,对这个模型结构的信息进行输入、输出、查询、转换。

这其中要对数百计的基本概念进行准确而合理的描述和建模,例如:

基本概念:存在、时间、地点、量、程度、范围、关系、集合、比较、序列、指代...。

语义和语言形式方面:包括类属、属性、角色、扮演、疑问、否定、祈使、从句、被动、变形、兼语、连动、组合动词等语义语言形式。

特定语言特殊处理方面:例如中文的【离合式】【把字句】【得字句】【形容词谓语】…,英文的【复数】【词性变化】等粘着语素的处理都得到合理的解释和实现。

...

这些概念都要细致分析定义,很多甚至涉及到哲学上的难题,比如,【何为概念和命题】【先有内涵还是先有外延】【度和量的区别】【世界是连续的还是离散的】等,在LSK里边都有合理的解释和解决。

3.2.2.         自然语言解析并理解成语义结构

已初步完成。

关于分词:

LSK理论是以语义和知识为中心驱动的体系,不象传统的系统那样将分词作为词法和语法分析的前提。实际上,LSK里边没有完整的独立分词模块,分词和语义分析结合在一起两者密不可分,分词是语义分析处理的自然选择结果而不是语义分析依赖的绝对前提。也可以说从分词、词法分析、语法分析、语义分析、语用分析并不是一个简单的单向过程和单向依赖,而是存在着双向的反馈影响。结合语音识别也是如此-即语音识别的多义选择也将受到语义分析的影响而提高准确率。

解析理解:

传统的语言以及计算语言学家一直纠结自然语言理解应该是以语义为主还是干脆就依赖语法分析而完全不考虑语义,著名语言学家乔姆斯基一生也都在语法基础上是否要引入语义而纠结、反复。在LSK理论中,认为其实可以把语义知识和语言知识都看着同样的信息,都作为有效规则共同影响对自然语言分析理解的结果。总的原则是语义为主,语言语法知识为辅。在语义概念本身不结合语言约束也不会产生歧义的时候语言约束往往就失效(比如【饭我吃了】这个句子里边把【饭】宾语放在主语前边而且没有【被】等显式标记也不会有理解歧义,是因为语义本身决定了只能是【我吃饭】,所以不符合语法规则也不影响得出这个唯一有效的分析结果)。反之,如果没有语法约束会导致分析歧义的时候语法的约束就变得重要(比如【他打了她】,主语和宾语都是平等的人,交换位置从语义上同样有效而意思则截然不同,这时主语宾语等语法规则就不能忽略而起到决定性作用)。

3.2.3.         语义结构生成自然语言

已完成。

语义结构生成自然语言是自然语言解析成语义结构的逆过程。

LSK中,这两个过程体现为不同的算法,但共享同一套语言语义知识规则。

3.2.4.         机器翻译

已验证。

具体实现:翻译就是将【自然语言解析成语义结构】和【语义结构生成自然语言】整合在一起,加上在【语义不变】原则下的形式变换处理。

现状分析:目前的翻译是基于规则方法和基于统计方法,实际上研究了数十年,但完全没有达到可真正实用的效果,要点还是对语义的处理不够深入。现阶段流行的字符串层面的统计方法完全回避了语义的分析,其实不是他们证明了语义分析不重要或者不需要,而是语义建模和分析难度太大建立不起完整的体系而走捷径。LSK不回避问题,知难而上,在这块有较大的突破,并已展现出很好的效果。时间一定能证明这样的思路和方向是正确的。

传统的基于规则方法:

制定规则主观因素很多而且片面,通常只体现在【主语】、【谓语】、【形容词】、【动词】等语言层规则上,信息深度完全不够,没有成体系的语义信息,这些语言层的规则实际上并不能有效表达人类灵活多变的语言表达方式。【格语法】【蒙太格理论】【生成语义学】等语义研究也类似,都不够深入、不够本质和透彻。

传统的基于统计概率方法:

完全丢开语义和规则,在字符串层面进行概率统计转换,实现容易,可以快速构建一个系统。但这是表象,这种方法的理论基础决定了准确性达到一个瓶颈就无法再提高。

LSK的方法结合上述两种方法,而且有本质的提升:

  1. 广义上可以算基于规则:但这个规则和传统的规则不是一个概念,是非常深层、本质的。实际上是将语义和语言知识的规则都整合起来进行整体分析。

  2. 同样也基于概率:但不同于表层字符串的对应概率,而是在多层级的知识上构建概率。

LSK的目标是整段文字翻译的准确率提高到90%以上。

假设现有的翻译的整体准确率是60%的话,90%的准确率和60%相比是天壤之别的。人类理解知识的时候,总是用已知的来解释未知的。比如一句话有10个词,如果9个词是对的,1个词是错的,那么人可以用已知的9个正确的去纠正一个错的,整句话理解没有问题(甚至很多时候人类利用这一特点故意用一些“错误”的方法来产生特定的语用效果,比如反语、夸张等)。而如果只有6个词是对的,另外4个是错的,那么根本就无法理解了(所以人类如前例中那样运用特定的语言技巧时,一句话里边故意“用错”的数量一定很少,多了后听话方无法完成纠错那就真理解错误了)。因此可以说不是60分和90分的差别,而接近0和1的差别。这也就是现在的机器翻译尽管需求巨大,但目前最好的翻译系统都还不能真正普遍实用的原因。

3.2.5.         自动学习

已验证。

一个成熟的系统-尤其是未来要模拟人一样记忆、思考的智能系统,就必须有很好的自我学习能力。也就是系统在交互过程中以自然的方式发现新的知识并进行扩充。这里边的难点其实还是学习的模型和方法,即人类学习新知识的原理和过程究竟是什么?系统如何模拟它?

学习首先是要发现未知的知识,以学习新词汇为例,首先是要识别出未知的词汇:假设在一个句子中有10个词语,其中9个是已知的,而且明确了相互联系,另外有一个是未知的(或者是已存在但意义不匹配),那么就意识到这个是一个未知词汇或者说新知识,就启动新知识的学习加入。

LSK里边描述新知识的方法与结构和系统本身的核心信息结构是完全一样的,只是划分不同的层级而已。

具体上仍应用前述的用【已知描述未知】的原则,根据9个已知的词汇知识和分析出的结构,这个未知词汇的意义已经能得到表述,就可以将它用同样结构加入库,也就自然完成了学习过程。

在不能明确新知识的情况下,系统还可以和人互动的方式,向人提问索取更详细信息-就如同人们之间相互请教并学习一个新的知识一样。

比如主人对系统说【我夏天计划去塞班岛玩,你帮我查下机票情况】。假设【塞班岛】一词在系统中没有,也就是不知道它的知识,但是其它词汇(我、夏天、去、玩...)和语义都完全明确且构建起了分析结构,这时就剩下【塞班岛】的位置没有填入,那么根据已建立结构事实上能发现该位置需要的是一个【地名】。因此,系统能意识到【塞班岛】【属于】【地名】,如果觉得还不是绝对肯定就可以在网络上去查询或者直接向主人询问“塞班岛是一个地名吗?”,得到确认以后就可以把知识加入到系统,也就学习了这个知识。一旦学习完成后,【塞班岛是一个地名】的知识就完全融入系统,这个句子整体就理解完整了,而且这个知识将保存起来,可以应用到后边所有的分析处理中,并还可以给其它应用和人类分享。

这其实就是人类对知识的学习原理:总是用已知的描述未知的,未知的一旦被描述就又成了已知的从而可以用来描述更多的未知。观察我女儿的启蒙过程可以发现这一点:1、2岁时儿童在建立最初的知识体系很困难,需要一个时间过程,在这个过程中她一个词都不会说出只是在努力积累最基本的知识和逻辑并尝试组织成体系,但某一天说出一句包含几个词的简短话语时,就表明她的大脑里边最基本的体系已经建立起来了,后边的知识增长就非常迅速,体现的就是这个“滚雪球”效应。

这个技术很容易进一步完善,计算机系统不用睡觉,所以闲暇时可以到网络上寻找网页主动学习知识,系统的知识和能力将迅速膨胀-就如人类平时主动的专门学习一样。而和目前的搜索引擎技术的爬网页收集信息不同的是,这种学习不是针对字符串关键字的索引,而是真正消化吸收的,有主次,有条理、有取舍,去除重复的或者不重要的,保留下关键的成体系的信息!效率和价值要大得多。传统的搜索引擎技术可能会保留,但会蜕变为这个“大脑”操作的一个工具。

3.2.6.         信息推导和推理

已验证。

能完成信息推导和推理是语义和知识处理里边真正的开始接近人思考的阶段。

LSK在这方面有很不错的研究进展,实际上,各种问题的解答和业务处理都是依靠推导和推理来完成的。

3.2.7.         语义搜索

现有主流的搜索引擎都是基于文本关键字的,根据一个或者多个关键字查询出网页给出链接。然后让用户在网页中去自行查找真正的答案。

语义搜索是搜索引擎巨头们都在努力研究的未来方向。理想的目标是不再是简单的关键字匹配和给出网页,而是用完整的自然语言对话来提出问题和给出归纳概括后的精准答案。

如前所述,LSK的很多技术将在这个领域发挥重要作用。

3.2.8.         问题求解

已初步验证。

比如问题:

【北京到上海1200公里,飞机时速800公里,早上8点起飞,几点能到?】。

系统直接回答:9点30分。

技术原理:

实际上,在LSK体系中数学方程式的模型表达、解析和计算和普通的自然语言应用是相同的。从理解问题、到处理成数学方程式,以及对方程式求解的过程是一体的!所以,对类似上述问题进行理解和分析计算已能从根本上解决并已验证实现。

3.2.9.         交互对话问答

待实现。

现有的以siri为代表的目前的语音应用聊天机器人等在交互对话的任务、流程处理方面的架构都比较成熟了。瓶颈还是在语义理解转换上,因为并不真正全面理解语义,还是用【关键字】【语言模板】的方式处理,所以缺少变化和智能,用户新鲜劲过去后很快就显得“内涵不足”。

LSK将以上述语义模型为核心,结合这些成熟架构,在可见的未来将推出更震撼的语言、语音对话应用。

3.2.10.       客户服务

具体应用待实现。

比如:订机票、银行助理、智能百事通等。实际上每个行业都有这样的【取代】或者【减轻】人的工作的需求。大多数物质产品的价值都会慢慢贬值,而人的价值永远都是在增值。

LSK是语义、知识一体的模型,对每句自然语言理解形成的语义和系统里边存储的场景知识是同构的。在基本逻辑、基本信息表达的基础上扩展将行业特定的信息知识、场景知识构建起来,将能完成这些“专业领域”的自动理解、匹配、演算、执行、回答。

例如银行助理的场景:

【人】:我的活期余额还有多少?

【机】:3万多点。

【人】:如果存成5年定期,到时有多少利息?

【机】:大约7千元。

【人】:那帮我把3万整存成5年定期吧。

【机】:你确定把大约3万的活期存成5年定期吗?

【人】:是的。

【机】:好的...正在办理…已经完成。

这样的场景在可见的未来时间(初略估计3、4年)里,一定会变成事实。

3.2.11.       智能助手

因为LSK所有的应用都是用同样的知识、数据和核心来实现。上述枚举的应用只是一方面,还可以发掘其它应用。这些应用分别成熟起来后最终还可以整合在一起,形成一个对各种知识和应用都了解甚至是比特定个人更精通的全能型智能人,成为真正的人类助手。

长远的实现目标是,最终每个人都会有这样的智能助手,陪伴一生,为主人提供各种信息查询、管家服务。虽然主人个人私密的信息需要保密,但可以公开的信息在后台可以大家共享的。各个智能助手再联通互动起来,能创造的价值是难以想象的。

乐观估计,科幻电影里边描述的接近人脑思维的人工智能应用将在二十年内成为事实,而LSK在这个过程中将发挥重要作用。

LSK理论、系统及应用目标规划简介相关推荐

  1. DL之yolov3:使用yolov3算法时需要对Ubuntu系统进行配置的简介、过程步骤之详细攻略

    DL之yolov3:使用yolov3算法时需要对Ubuntu系统进行配置的简介.过程步骤之详细攻略 目录 yolov3算法时需要对Ubuntu系统进行配置的简介 Ubuntu系统进行配置的过程步骤 第 ...

  2. 常见路由器开源系统(固件)简介

    前段时间在折腾如何通过 SD-WAN 组网方式打通办公室和家里的异地局域网.需要用到路由器的静态路由表功能,但是遍历整个家用路由器市场几乎没有支持这个功能的路由器(只有华硕 RT-AX57 有这个功能 ...

  3. Windows通用克隆系统入门基础知识简介

    Windows通用克隆系统入门基础知识简介 这里的Windows是指微软的Windows 2000/XP/2003(后文中未经说明的,凡是Windows均指这三种系统):所谓的通用克隆,俗名万能克隆, ...

  4. 各种系统架构图及其简介

    各种系统架构图及其简介 )z @3vvG,W5p'[n0 转载请保留出处,不胜人生一场醉汇总. 以下文字和架构图均在本人相关系统设计和架构方案中有所应用. 2ht4T[i}6_0 原文出处:http: ...

  5. RTOS 系统篇-Tickless 模式简介与测试

    RTOS 系统篇-Tickless 模式简介与测试 概述 上节讲述了统计RTOS 系统中 CPU 利用率的方法.在 CPU 空闲时,将进入空闲任务.在一些简单的应用中,设备的大部分时间都在执行空闲任务 ...

  6. 大数据离线---网站日志流量分析系统(1)---简介及框架

    本次介绍网站日志流量分析系统,首先是简介和架构.后面会对架构中需要的每个模块的进行逐个介绍.本篇主要分为两个部分 网站日志流量分析系统简介 整体技术流程和架构 1. 网站日志流量分析系统简介 1.1点 ...

  7. 第二章 机器人系统与控制需求简介

    第二章 机器人系统与控制需求简介 2.1 工业机器人的系统组成 机械本体:精密减速机.伺服电机.伺服驱动器.控制系统(核心零部件) 控制柜 示教盒 2.2 机器人本体结构与传动方式简介 四大家族:AB ...

  8. 友友新创系统技术股份有限公司简介

    本文讲的是友友新创系统技术股份有限公司简介,友友新创,下一代商务软件平台的领先供应商. 友友新创系统技术股份有限公司由美国硅谷归国的姚宏宇博士在北京中关村科技园创立,其目标定位于打造国人自己的企业信息 ...

  9. 金融系统中加密机的简介

    金融系统中加密机的简介 加密机是一台大小和台式PC机箱差不多大小的一台设备,价格较贵,约6-8万/台,在银行.银联.第三方支付等金融机构广泛使用,主要用来加解密银行卡密码,计算交易MAC,保证交易中敏 ...

最新文章

  1. 微信小程序实时聊天之WebSocket
  2. oracle 实现基于函数的索引
  3. Docker 集群 图形化显示 Visualizer
  4. CS231n课程笔记翻译:图像分类笔记(下)
  5. java导出pdf集合_java实现导出pdf-Go语言中文社区
  6. 站在公司和员工的角度看实习员工
  7. EFCore动态切换Schema
  8. linux usb 驱动漏洞,不测不知道 这么多的USB漏洞要从何“补”起?
  9. 北风设计模式课程---代理模式
  10. Java JSON转换为map
  11. 计算机网络管理一07872自考知识点,电子信息工程专业2019年10月四川自考科目及考试时间[本科]...
  12. 给大佬递java表情_给大佬递茶表情包
  13. MongoDB的一些基本使用
  14. 通过计算机主机数来划分子网,计算机网络知识梳理(2)——子网掩码及网络划分...
  15. sql语句查询A表有而B表没有的数据
  16. 2021年金融科技书单推荐
  17. Bailian1664 Placing apples【递推+记忆化递归】
  18. IOS开发之——QQ主流框架(64)
  19. 打包SWF和HTML,将多个swf打包成一个EXE文件
  20. php imagick加GD实现gif图换脸动画生成表情包制作功能

热门文章

  1. 不忘初心,不负韶华,17款迈巴赫S400升级20款迈巴赫S680包围
  2. C++11绑定器bind及function机制
  3. Android震动和自定义铃声
  4. matlab小船渡河物理模型,【物理】小船渡河模型及关联速度问题
  5. 得到app文稿导出_得到-app分析
  6. Lagrange multiplier method (拉格朗日乘数法)
  7. 在win7 上安装 Visual Studio 2019 步骤 及 vs2019离线安装包
  8. 计算机毕业设计网吧管理,【毕业设计】计算机毕业设计网吧管理系统
  9. 前端项目:从0开始实现一个合成大西瓜
  10. linux mysql 命令行查询 乱码_mysql命令提示行连接乱码的解决