机器学习黑盒,缺乏可解释性

机器学习特别是深度学习,以神经网络为代表,发展至今,在很多任务上获得了很大的成功。在有足够多标注数据的情况下,神经网络往往效果惊人。但是,当标注数据匮乏时,神经网络的性能就会大打折扣。此外,神经网络作为黑盒缺少可解释性以及难以融入外部知识的问题也一直为人所诟病。与之对应的,规则(rule)通常是指语义明确、能描述数据分布所隐含的客观规律或领域概念、可写成“若…,则…”形式的逻辑规则。

规则可从训练数据中学习出一组能用于对未见示例进行判别的规则,也可以是由人类专家基于领域知识构建,具备着良好的可解释性,可用于没有任何数据的冷启动场景,并且可以通过规则的增删和修改来快速应对目标任务的变化。与神经网络这样的“黑盒模型”相比,规则学习具有更好的可解释性,能使用户更直观地对判别过程有所了解。

另一方面,数理逻辑具有极强的表达能力,绝大多数人类知识都能通过数理逻辑进行简洁的刻画和表达。因此,规则学习能更自然的在学习过程中引入领域知识。但不可否认的是,规则在任务中达到和神经网络等黑盒模型同等的泛化能力。因而在数据资源丰富的场景下难以达到和神经网络相近的效果。为了结合两者的优点,近年来如何将规则更好地融入神经网络成为了一个重要的研究方向

对于智能决策领域而言,机器学习、深度学习可以带来一定增长点,不过要成为突破口比较难,毕竟模型对业务来说是个黑盒子,无法解释。就目前现状而言,模型更多用于辅助决策,还无法放心地仅通过模型预测值就真正否决掉一个用户或判断是否欺诈、是否逾期等。人们往往更相信直观可见的“证据”、人为积淀的经验、亦或通过现有知识基础推理衍生出的可解释性结论。从这个角度上看,一个融入逻辑规则的可解释的机器学习决策引擎很有可能是智能决策领域的突破口。逻辑规则与机器学习可以在以下3个方面结合形成突破。

**1、通过逻辑规则提取相关特征,从关系角度丰富特征工程,提升模型效果,使决策更精准高效。**数据决定了模型的上限,特征宽表则从各个纬度去刻画数据特征,在机器学习过程中,特征工程的构建是建模最重要的环节之一。常规的行为类、交易类、时序类、高频类等特征很容易从数据中挖掘,而关联类特征则需要数据分析师在脑海中推演可能的关联情况和关系网络构成,且需要通过多次join来验证,涉及三度及其以上的多度关联时,无论是脑海推演过程抑或join逻辑都比较复杂。如果有精确的逻辑规则,可以通过其直接抽取关联特征,可以一定程度上提高模型的表现。

**2、机器学习模型提供学习结果,丰富和增强逻辑规则,使逻辑规则更精确。**机器学习的本质是通过学习历史数据和经验得到未来的预测结果,通过学习而得到的预测结果本质也是一种“知识”,只是这类知识的准确性是个概率值。当我们将机器通过学习而得来的知识输入到规则中,与已有的规则重新结合,在一定程度上丰富和增强已有的逻辑规则,可以使逻辑规则泛化性更强。

**3、机器学习与逻辑规则进行交叉验证,互相提高效果,最后得到一个可解释性的泛化能力强的结果。**具体做法是通过机器学习模型得到正负样本,并将正负样本的样本再输入到规则中进行验证,调整规则。或者是训练数据通过规则验证,为机器学习模型训练产生足够多标注数据节省标注成本,从而提高模型的能力。同时,也可以规则产生的结果,机器学习模型来验证;反之,机器学习模型的预测结果,规则验证。

关河因果分析系统将机器学习融合逻辑规则,支持从数据中自动发现规则,并可以将规则应用于新的数据产生实例,用户可在关河因果官网申请试用。

关河因果支持将多源异构数据抽取转化为图数据,根据行业特性进行自动特征工程,实现对实体间隐含关系、异常关系等深度挖掘,高效、灵活、智能地从数据中推测出事件因果,实现对预测、推荐和决策的支撑。目前已经在传统工业制造、新能源、生物制药、金融、电信运营商、电商等多个行业领域形成商业化应用。

关河因果将逻辑规则与机器学习融合,将带来哪些技术突破?相关推荐

  1. 浅析关河因果“逻辑规则+机器学习”

    逻辑规则融合机器学习是必然趋势 1."逻辑规则"在业务决策中的应用 在商业场景中,管理者一般如何进行决策?在数据分析并未普及时,人们通常会依赖于行业专家们将行业经验融合逻辑思维,形 ...

  2. 关河因果:钓鱼城引擎技术概述

    钓鱼城引擎是关河因果分析系统的核心引擎,由深圳计算科学研究院钓鱼城团队基于图函数依赖理论研发.作为全球首款支持自动发现.自动筛选.可增量.可解释的图数据关联关系分析引擎,目标是挖掘出数据中的关联关系. ...

  3. 谷歌机器学习规则:机器学习工程的43条最佳实践经验

    文章选自Google Developers,作者:Martin Zinkevich. 机器学习目前已经有非常多的应用,它相比于传统的软件工程,最大的特点即我们编写的是学习过程,因此系统能根据数据改善性 ...

  4. 机器学习项目中遇到的难题_现代难题:何时使用规则与机器学习

    机器学习项目中遇到的难题 Machine learning is taking the world by storm, and many companies that use rules engine ...

  5. 【AAAI2022】TLogic:时序知识图谱上可解释链接预测的时间逻辑规则

    清华大数据软件团队官方微信公众号来源:专知 本文附论文,建议阅读5分钟我们解决了时序知识图谱上的链接预测任务. 传统的静态知识图谱将关系数据中的实体作为节点,由特定关系类型的边连接.然而,信息和知识不 ...

  6. IM开发宝典:史上最全,微信各种功能参数和逻辑规则资料汇总

    1.引言 IM应用的初学者们,在补全了各种基础技术知识后(如果您仍不具备这些知识,建议马上阅读<新手入门一篇就够:从零开发移动端IM>),在动手编码实践时,很多时候纠结的并不是功能该如何实 ...

  7. 关河无尽处,风雪有行人 - 我的2016年总结

    关河无尽处,风雪有行人 - 我的2016年总结 2016年我做为个人独立开发者渡过的完整一年,用一句话说理想是丰满的,现实是骨感的,本来计划在2016年想自己做个图像处理方面的产品,但是迫于生活压力, ...

  8. 转载关河兄的一篇文章《探索性测试(Exploratory Testing)概述》

    2006年07月15日 15:05:00 作者:关河 <探索性测试(Exploratory Testing)概述> 在敏捷测试(Agile testing)中,探索性测试是作为一个重要组成 ...

  9. 基于逻辑规则的图谱推理

    导读: 近年来,知识图谱在众多行业场景被大量应用,例如推荐.医疗.为了构造尽可能完备的图谱,知识图谱的推理工作也成为学术届和工业界的一个重要研究课题.来自Mila人工智能实验室的瞿锰博士,给大家分享了 ...

最新文章

  1. 如何看待导师直接说你写的论文就是垃圾?
  2. JSR303自定义校验注解
  3. Swift中为什么输入“..”报错
  4. python如何保持数据类型不变_python 可变和不可变数据类型、格式化输出和基础运算符...
  5. Zookeeper应用:服务端上下线
  6. Mysql的高可用方案及主从详细配置
  7. vnc非授权访问漏洞
  8. 给程序员的忠告:九种不值得你追随的老板
  9. div 显示滚动条的CSS代码
  10. [JAVA]全新java初学者实践教程(全)
  11. 手动搭建vue+node单页面(一)
  12. 【工具使用】Modscan32软件使用详解
  13. 【开箱】索尼A6000微单入手
  14. 缩写月份单词python_月份的英语单词
  15. 2021年化工自动化控制仪表考试题及化工自动化控制仪表考试试卷
  16. 人生路上前进的方向----有几条线贯穿自己的人生
  17. PHP赛事贝格尔编排法--单循环
  18. 37、免驱动USB双目同步测距3D活体深度检测和RV1126结合V4L开发USB摄像头使用
  19. 计算机科学技术考研内容,计算机科学与技术考研考哪些科目?
  20. Macos 访达边栏显示英文

热门文章

  1. ansys仿真论文描述
  2. c语言正方形和三角形面积,【c语言】计算长方形,三角形和圆形的面积,根据用户的选择求不同形状的面积。...
  3. 企业搭建网站用哪种服务器
  4. 如何调试程序及调试程序基本步骤、方法详解
  5. android 设置边框圆角
  6. 用c语言编写简单的餐厅点餐系统(带后台)
  7. AI研究院巡礼——小米AI研究院
  8. ASID 与 MIPS 中 TLB 相关
  9. S3C6410开发板adc驱动代码分析及测试代码分析
  10. 【论文】——Once-for-All: Train One Network and Specialize it for Efficient Deployment阅读