读书笔记(三)工作票数据挖掘
前言:本文是【读书笔记|大数据时代的数据挖掘】系列的第三篇,是关乎第三章工作票数据挖掘的读书笔记。
目录
- 一、工作票简介
- 二、工作票产生机制和亟待解决的问题
- 三、研究现状
- 1、工作票分类
- 2、工作票推荐
- 四、工作票漏报和误报检测
- 五、层次多标签工作票分类
- 六、工作票解决方案推荐
一、工作票简介
工作票是工单,是指一种用于记录、处理、跟踪特定时间完成情况的数据载体。
- 比如:电力工作票被用于记录对电力故障的描述,对故障解决过程的描述等信息;移动通信领域的工作票被用于记录客户对业务相关问题的描述,对解决相关问题的描述。
- 工作票挖掘是指能够从历史的工作票数据中自动地、高校地抽取有价值的知识的一种方法。
二、工作票产生机制和亟待解决的问题
云计算技术的飞速发展,使得大型复杂的计算系统日益趋多,虽然事前性的管理技术很全面,但是仍不可避免地会出现失误,所以面向工作票的事后管理是有必要的。
两种工作票生成机制
系统产生SGT(system generated ticket)
系统运行中的告警事件都会产生一个工作票
SGT可以通过优化监控条件得到。如何从历史工作票数据中发现不合理的监控条件以降低误警和漏报的工作票数量,是亟待解决的问题。用户产生UGT(user generated ticket)
用户发现的问题
工作票处理机制
需要专家处理,若解决,工作票变为闭合状态,否则转发给下一个专家处理。这个过程被叫做路由序列(routing sequence)或者求解序列(resolution sequence)。
因此,提升工作偏偏处理效率也是一个重要的问题,包括:快速准确描述工作票的问题,减少路由的步数等。对应的工作票自动分类、专家及路由推荐过程和问题解决方案推荐也是亟待解决的问题。
三、研究现状
1、工作票分类
工作票分类即是给特定的工作票标注问题类型,用以简短的概括故障描述。
常见的工作票表示模型
- 词袋模型
由于工作票中存在大量同义但采用不同词汇表示的情形,因此往往需要借助大量语料才能计算词与词之间的相似度,这样增加了时间开销。 - 向量空间模型vector space model
问题是工作票描述过于简单,存在高维稀疏的问题,解决办法是通过借助搜索引擎丰富原始文本信息;第二种方法是词矢量(word2vec):将词语映射成茨维空间的一个低维实数向量,向量之间的距离描述了词与词之间的关系。 - 文档主题生成模型
解决工作票分类问题的方法
- 基于规则的分类方法
从历史工作票中发现问题描述模式,而后构建一组不相交的IF-THEN规则,进行分类;
如何准确地发i西安问题描述模式是规则构造的难点,在确定规则时常常需要人工干预,由于运维系统的变化是与时俱进的,所以这种基于规则的方法难免适应性较差。 - 基于机器学习的分类方法
这个挺好,但也存在分类结果受道句法分析精度的影响,需要人工确定不同类型特征的权重的问题。
2、工作票推荐
路由推荐
基于内容的路由推荐方法
基于工作票中的问题描述信息建立专家模型 依赖于工作票问题描述质量,专家模型准确性以及匹配算法 对于从未出现过的问题,推荐效果不佳 默认专家之间是独立的,忽略了专家之间的交互信息,忽略了已经发生过的路由序列。
基于序列的路由推荐方法
仅利用专家交互信息构建模型;
运用马尔可夫模型对工作票问题再专家之间的传递过程进行建模,每个状态代表一个专家,每一个变迁都表示当前专家不能处理该问题而传递给下一个的概率,变迁率越高意味着该变迁的目的专家解决问题的可能性越高;
优点就是可以基于已经产生的序列来决定下一个候选专家,文献证明就可以显著提高效率。基于序列和内容的路由推荐方法
试图构建一个基于有向图的专家协作模型为路由模型
优点是充分利用了信息
缺点是这样再构建过程中需要很多的统计信息,一旦完成模型,那么模型就是在离线的状态下运行的,导致模型缺乏更新能力,难以事应动态变化
还有缺乏反馈机制对节点专家的能力权重进行调整
解决方案推荐
现有的方法就综合了问题描述和历史解决方案的分析,其实还分为粗粒度和细粒度推荐;
粗粒度的解决方案直接来源于相似工作票中解决方案的描述,细粒度解决方案来源于相似工作票解决方案的提炼。
四、工作票漏报和误报检测
1、**研究原因:**告警装置设置不合理导致漏报和误报。
2、 基于规则的误报识别方法
一些误报随着时间的延长,会自动清楚掉,所以只需要等待,把不能自动清楚的设置为工作票
- 告警预测
- 预测规则产生
- 预测规则选择
- 等待时间设定
3、半监督的工作票漏报发现方法
背景:现实中过度检测使漏报远远小于误报,漏报的票以人工工作票的方式记录。人工工作票大量的数据来源于很多其他客户的请求,漏报的票很少,所以需要构建一个分类器,挑出与检测有关的问题*.
4、评价
- 误警评估指标:TP&FD
系统应该具有更高的FP(被避免生成的假工作票个数),更低的FD(被推迟生成的真工作票个数) - 漏报评估:precision、recall、F1-SCORE
比如:F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。
五、层次多标签工作票分类
工作票可以被分为一类,但也可更近一步地被细分为另一类,那么,这两次划分之间就存在一个层析关系。
层次多标签的分类问题的解决方法
- 一是采用现有算法为每一个类标签分配构造一个分类器,而不考虑标签之间的层次依赖性。但此方法可能会导致分类结果再子标签上被标记为正例,在父标签上被标记为负例的情况。
- 二是采用现有的单标签分类算法,例如决策树。
- 三是在第一种方法基础上增加一些处理步骤
层次损失
若子树根节点标签分类错误,则在子树中出现的其他错误不再重要。
六、工作票解决方案推荐
书中介绍的是基于KNN的推荐方法。
之后,书中其实是亲自讲述了论文中是如何实现工作票的数据挖掘的。
读书笔记(三)工作票数据挖掘相关推荐
- mysql数据库权威指南_MySQL_MySQL权威指南读书笔记(三),第二章:MYSQL数据库里面的数 - phpStudy...
MySQL权威指南读书笔记(三) 第二章:MYSQL数据库里面的数据 用想用好MYSQL,就必须透彻理解MYSQL是如何看待和处理数据的.本章主要讨论了两个问题:一是SQL所能处理的数据值的类型:二是 ...
- 《编程之美》读书笔记(三):烙饼问题与搜索树
<编程之美>读书笔记三:烙饼问题与搜索树 薛笛 EMail:jxuedi#gmail.com 前面已经写了一些关于烙饼问题的简单分析,但因为那天太累有些意犹未尽,今天再充实一些内容那这个问 ...
- 《How Tomcat Works》读书笔记(三)--Connector(连接器)
<How Tomcat Works>读书笔记(三)--Connector(连接器) 这是<How Tomcat Works>第三四章的读书笔记.主要写了Tomcat4.0默认的 ...
- TCPIP详解Protocol 读书笔记(三) IP协议讲解
TCP/IP详解:Protocol 读书笔记(三) Chapter3 IP:网际协议 文章目录 TCP/IP详解:Protocol 读书笔记(三) Chapter3 IP:网际协议 IP协议 IP数据 ...
- 《淘宝技术这十年》读书笔记 (三). 创造技术TFS和Tair
前面两篇文章介绍了淘宝的发展历程和Java时代的变迁: <淘宝技术这十年>读书笔记 (一).淘宝网技术简介及来源 <淘宝技术这十年&g ...
- 《大型网站技术架构》读书笔记三:大型网站核心架构要素
来源:http://www.cnblogs.com/edisonchou/p/3806348.html 此篇已收录至<大型网站技术架构>读书笔记系列目录贴,点击访问该目录可获取更多内容. ...
- 需求工程:软件建模与分析 读书笔记三
第四章 需求获取概述 读书笔记 在我们获取需求过程中会遇到很多困难,例如用户和开发人员的背景不同.立场不同,对统一信息的理解就会不同:普通用户缺乏概括性.综合性的表述能力:用户存在认知困境:用户越俎代 ...
- Spring揭秘 读书笔记 三 bean的scope与FactoryBean
本书可作为王富强所著<<Spring揭秘>>一书的读书笔记 第四章 BeanFactory的xml之旅 bean的scope scope有时被翻译为"作用域&quo ...
- 【读书笔记】工作技巧-科学笔记,如何有效阅读一本书:超实用笔记读书法(日本.奥野宣之)_20190608
[概述] 书名:如何有效阅读一本书:超实用笔记读书法 作者:日本.奥野宣之 日期:2019年6月8日 大事件记录:前天,台湾名模林志玲嫁给了日本男艺人. 读书用时:5小时,347页. [读书笔记] 我 ...
最新文章
- 《C与指针》第四章练习
- 10年前,三星差点收购了安卓
- BitArray虽好,但请不要滥用,又一次线上内存暴增排查
- 自定义安装mysql linux_linux下 安装mysql 问题
- 阻尼衰减曲线用python_高阻尼橡胶支座隔震原理
- python在字符串结尾加反斜杠_Python原始字符串和尾部反斜杠
- 过程改进的疑惑 - 习惯能改么?
- View#post与Handler#post的区别,以及导致的内存泄漏分析
- 原生新版仿微信 即时通讯聊天源码(附教程)
- 线性代数07 克拉默法则(Cramer)
- 小程序微信登陆及账号绑定功能开发笔记
- VS Code 安装 VSIX 插件
- 基于SSM的设备租赁管理系统
- 合力亿捷发布云客服3.0,开启全员客服新时代
- 一般处理程序的局限性
- python编程工具-7款Python开发工具介绍,你最中意哪一款
- C语言实现文件的局部修改,C语言:在文件的指定位置实现局部修改,而无需重写文件的其他部分...
- 经典 90 坦克大战 Python 版实现(支持单双人模式)
- 工科生安装Ubuntu18.04后干的事情
- 可扩展面向对象的canvas画图程序