《庆余年》是由孙皓执导,张若昀、李沁、陈道明、吴刚、辛芷蕾、宋轶、郭麒麟等主演的古装剧。该剧改编自猫腻的同名小说,讲述了一个有着神秘身世的少年,自海边小城初出茅庐,历经家族、江湖、庙堂的种种考验、锤炼的故事。于2019年11月26日在腾讯视频、爱奇艺首播……

系列文章:

技术角度解读《庆余年》,深度挖掘小说语料 -01

今天继续更这个系列,这篇主要从挖掘人物相关的身份、行为等角度来试验,作为初次试验,我们只取小说其中几章的数据试验下:

STEP01 首先收集小说中人物的人名

例如:

范闲 林婉儿 庆帝 陈萍萍 海棠朵朵 战豆豆 范若若 司理理 叶灵儿 肖恩 费介

数据从哪里来呢?这个比较容易收集,从豆瓣或者百科就可以获得。

STEP02 把人名添加到分词算法里,并提高权重

我这边设定的方式是:

范闲 actor 99999

这样分词,就可以优先把人物给切出来啦,看下结果:

STEP03  二阶共性分析VS三阶共性分析

这里先尝试 二阶共性分析,主要基于互信息提取出人物的相关词。

什么是互信息?

互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性 。

简单来说,互信息用于度量两个对象之间的相关性。互信息的值越大,两个对象的相关性越高。

目前,人工智能大部分的应用都是基于关联性的,缺少了因果关系。

计算结果例如:

{

"范闲":{

'相信': {'value': 3230, 'nature': 'v'},

'酗酒': {'value': 2830, 'nature': 'vi'},

'忍不住': {'value': 3073, 'nature': 'v'}

}

...

}

STEP04 根据词性,把行为相关的词汇总出来

这里只取前3的结果,例如这里以动词为主,结果如下:

二皇子

['拉拢', '赏赐', '拉扯']

五竹

['坚持', '看着']

司理理

['看着', '带着', '觉得']

李弘成

['知道', '一怔']

林婉儿

['忍不住', '发现', '知道']

林若甫

['望着', '苦笑',]

王启年

['介绍', '走到']

范建

['微笑']

范思辙

['摇头', '咕哝']

范若若

['低头', '叹息']

范闲

['知道', '看着']

费介

['看着', '笑着']

长公主

['决裂', '立起', '破涕为笑']

除了了解人物的主要行为,我们还可以了解到人物的身份。比如把 共现词的词性限制为名词,可以得到以下这些词:

皇帝 大人 院长 殿下 老师 先生 怪老头 少爷 小姐 姑娘 叔

重复下STEP04步,结果如下:

五竹

['叔', '老师']

司理理

['姑娘']

王启年

['大人']

范思辙

['少爷']

范若若

['小姐']

范闲

['少爷', '大人']

费介

['老师', '先生']

长公主

['殿下']

以上是今天主要的试验,可以应用的场景有哪些呢?

比如,了解小说人物在每个章节主要的行为,

进而可以了解到小说的情节变化

还有很多有意思的,

待续……

欢迎添加我的微信

进一步交流讨论。

相关文章推荐:

技术角度解读《庆余年》,深度挖掘小说语料 -01

当AI学会了咪蒙的文风之后……

延禧攻略之中国传统图谱

小说人物的身份、行为挖掘,技术角度解读《庆余年》,深度挖掘小说语料 -02...相关推荐

  1. 技术角度解读《庆余年》,深度挖掘小说语料 -01

    <庆余年>是由孙皓执导,张若昀.李沁.陈道明.吴刚.辛芷蕾.宋轶.郭麒麟等主演的古装剧.该剧改编自猫腻的同名小说,讲述了一个有着神秘身世的少年,自海边小城初出茅庐,历经家族.江湖.庙堂的种 ...

  2. 对目前物联网设备的漏洞挖掘技术的学习记录

    物联网设备漏洞挖掘技术 目前物联网设备的使用越来越普遍,而对应的漏洞攻击现象也越来越频繁,究其原因主要有两点: ① 物联网设备开发过程中, 在设计上忽略了安全性的考虑; ② 由于设备硬件资源受限, 难 ...

  3. 大数据分析处理及挖掘技术

    数据处理是对纷繁复杂的海量数据价值的提炼,而其中最有价值的地方在于预测性分析,即可以通过数据可视化.统计模式识别.数据描述等数据挖掘形式帮助数据科学家更好的理解数据,根据数据挖掘的结果得出预测性决策. ...

  4. Web 挖掘技术总结 (参考太多,都没列出来)

    Web挖掘技术 一.数据挖掘 数据挖掘是运用计算机及信息技术,从大量的.不完全的数据集中获取隐含在其中的有用知识的高级过程.Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用. ...

  5. 数据挖掘:网络挖掘技术——微博文本特征提取

    经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统.VSM概念简单,把对文本内容的处理简化为向量空间中的向 ...

  6. 网络挖掘技术——微博文本特征提取

    文本特征向量 经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统.VSM概念简单,把对文本内容的处理简化为 ...

  7. Web 挖掘技术总结

    Web挖掘技术 一.数据挖掘 数据挖掘是运用计算机及信息技术,从大量的.不完全的数据集中获取隐含在其中的有用知识的高级过程.Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用. ...

  8. 关联规则挖掘技术——主流推荐算法评述

    链接:http://www.csdn.net/article/a/2011-07-11/301462 啤酒和尿布的购买有关系吗?答案是,跟尿布一起购买最多的商品就是啤酒.据沃尔玛的分析调查,美国的太太 ...

  9. python统计小说人物_Python数据分析之基情的择天记

    人一生都可能无法逆天改命,但你却是要去奋斗一把 本文章主要通过最简单的共线性关系,利用gephi工具绘制择天记的人物关系图. 准备工作在网上下载<择天记>小说以及创建小说人物的txt. j ...

最新文章

  1. 106页的《Python进阶》中文版(附下载)!
  2. [unreal4入门系列之八] 使用VS编译UE4编辑器并添加物体到场景中
  3. svn在commit后报错:is scheduled for addition, but is missing
  4. 大四 PHP《上传文件》
  5. 一个奇葩的网络问题,把技术砖家搞蒙了
  6. python01_python简介
  7. spring 获取url参数
  8. 居然被韩雪的英语原地圈粉了!更意外的是,她不背语法不请老师,光靠每天10分钟就能练出流利口语!
  9. c语言双精度百分号,C语言输出百分号%的方法和示例
  10. python新特性_Python3.6正式版新特性预览
  11. 计算机网络 第六章 应用层
  12. 51Nod-1015 水仙花数【进制+查表搜索】
  13. 17.看板方法——瓶颈和非即时可用资源笔记
  14. 百度 php 图片文字识别,使用百度接口实现图片识别文字
  15. php定义一个矩形类rectangle,c#定义一个类圆Circle或者定义一个矩形类Rectangle,分别计算它们的周长和面积....
  16. Win7 定时关机,重启命令
  17. C++11新特性 - 侯捷
  18. Lacking counting POJ.NO 2386
  19. OTA前装搭载率逼近50%,哪些供应商正在领跑细分赛道
  20. webstorm html代码提示设置,Webstorm设置代码提示

热门文章

  1. MTK6236 venus提供那些控件
  2. 通达信MACD红绿柱面积公式,金叉死叉时标注面积
  3. Kotlin DSL
  4. 双目视觉测距系统软硬件设计
  5. Python中4种进度条的使用方法
  6. GEE:生成20年NDVI动图和下载(彩色,使用MODIS数据集)
  7. iOS:沙盒之 Documents、Library、tmp、SystemData
  8. 蓝桥杯C++组怒刷50道真题(填空题)
  9. 百度地图 js api 修改中心点或移动到另一个中心点
  10. 使用stacktrace查看函数调用栈