中国古代诗词文本挖掘项目
PoemMining
项目地址:https://github.com/liuhuanyong/PoemMining
Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基于爬虫与nlp的中国古代诗词文本挖掘项目
项目介绍
中国古代诗词文化无疑是文化瑰宝,如何运用计量语言学方法对古代诗词进行挖掘,将有重要意义,本项目将从以下几个方面进行尝试:
1)基于诗词集合的诗人画像生成
2)基于诗词集合的诗人地点足迹识别
3)基于诗词集合的相似诗人聚类, 基于ATM模型,user2vec模型
4)基于诗词集合的情绪分类,标签自动生成
5)基于诗词集合的意象挖掘
项目结构
项目主要包括两个任务:
- 古代诗词语料库的构建
- 基于古代诗词语料库的挖掘
脚本结构
1, poem_spider.py:主要完成古代诗词语料库的构建,选取的是古诗文网 (https://so.gushiwen.org),结果已经保存至corpus_poem.zip文件当中
2, poem_process.py:主要基于构建起来的古诗词语料库,进行基础的文本分析,根据网站上的用户交互信息,得到古诗词文本本身的外部信息
3, atm_model.py:利用作者-主题模型,对古诗词进行主题分析,最终目的是实现作者主题分布与风格聚类
4, location_mining.py:基于诗人百科生平记事的地点挖掘与可视化,最终最终实现对诗人关联地点的一键生成.
阶段性成果
1, 古代诗词语料库,一共采集到92127首古代诗词
2, 古代诗词外部计量分析结果,结果保存至result文件夹
3, 诗人足迹一键生成,使用方式如下,结果会直接生成以搜索诗人名字命名的html文件:
from location_mining import *
name = '李白'
handler = PoetWalk()
handler.mining_main(name)
以下是举例结果:
李白足迹
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0HlEtZcN-1620385857536)(https://github.com/liuhuanyong/PoemMining/blob/master/image/libai.png)]
李清照足迹
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-crznPo41-1620385857538)(https://github.com/liuhuanyong/PoemMining/blob/master/image/lqz.png)]
苏轼足迹
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oaI4cX4T-1620385857539)(https://github.com/liuhuanyong/PoemMining/blob/master/image/sushi.png)]
文天祥足迹
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hcrw7y5S-1620385857540)(https://github.com/liuhuanyong/PoemMining/blob/master/image/wtx.png)]
项目地址:https://github.com/liuhuanyong/PoemMining
If any question about the project or me ,see https://liuhuanyong.github.io/
我的公众号:
中国古代诗词文本挖掘项目相关推荐
- 基于裁判文书与犯罪案例文本挖掘项目
LawCrimeMining Law Crime Mining Based on Corpus build and content analysis by NLP methods. 基于领域语料库构建 ...
- 【渝粤题库】陕西师范大学202521中国古代文学(三) 作业(高起专)
<中国古代文学三>作业 第一章 元曲的形成和兴盛 一.填空题: 1.我国的戏剧,其起源.形成,经历了漫长的时期.从先秦( ).汉魏( ).隋唐( )发展到宋代院本,表演要素日臻完善. 2. ...
- 经典古诗词名句 mysql,中国古代经典古诗词名句
古人给我们留下了许多的财富,那些诗词名句家喻户晓,流传至今.下面是小编为大家整理的中国古代经典古诗词名句,欢迎参考~ 中国古代经典的古诗词名句一 摩挲着眼从头看,只有青山无古今今.戴复古 踏破铁鞋无觅 ...
- 中国古代才女苏蕙和她的织锦《璇玑图》
引子:在中外语言中,回文向来是显示语言魅力之一面和使用者智力之一斑的一种文字游戏,在不同背景下,历代产生了许多这样的作品.通过分析回文可以展示一个民族语言的多面性.准确性和灵活性,以及所隐含素养之深奥 ...
- 中国古代哲学书籍目录
中国古代哲学书籍 儒学经典 <大学><法言><衡论><礼记><忍经><孟子><论语><论衡><孝经 ...
- 公司生活备忘录——兼乱弹中国古代思想
记得小时候的时候,中国古代思想是最不受人待见的,现在很多跟我一样的左愤有时候经常说,"现在这人怎么这么样?!一点也不重视自己的传统文化".我开玩笑一般地说:那是因为,他们还没有离开 ...
- 中国古代历史的十大破坏专家
1.孟姜女:中国历史上最具影响的"女恐怖分子":世界十大女高音歌唱家之一,为了给自己的husband报仇,不惜用哭声摧毁了中国历史上著名国防工程.世界十大奇迹之一 ――万里 ...
- 谁是中国古代第一“风流才子”(转)
所谓"风流才子",大抵应该具备三条:一曰容貌俊美,堪称美男子,颇能吸引异性,如西晋之潘安等:二曰才高八斗,有赞美女性的艳情诗文佳作流传于世,如汉之司马相如,宋之柳永.周邦彦等:三曰 ...
- 渝粤题库 陕西师范大学 《中国古代文学(五)》作业
<中国古代文学(五)>作业 一.选择题 1.元代出现了一大批杂剧的优秀作家,<析律志>说:"生而倜傥,博学能文,滑稽多智,蕴藉风流,为一时之冠"的 ...
- Hadoop大数据零基础高端实战培训系列配文本挖掘项目
<Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉 ...
最新文章
- 基站的结构、种类、发展介绍
- WINCE基于hive注册表的实现
- 中国SaaS人力资源管理系统市场发展模式分析与前景深度研究报告2022年版
- Android中使用Notification在通知栏中显示通知
- 学习 WCF (6)--学习调用WCF服务的各种方法
- Android:解决Button中的文字全部大写
- 两个oracle数据库外网同步,利用DBLink+JOB实现两个Oracle数据库之间的数据同步
- Ubuntu PIL 安装
- sqlserver连接及设置
- sharepoint中使用xslt构建Spotlight(焦点图效果)
- 百度支持nofollow是百度的进步
- 西南交大数据结构c语言版集合的并,交实验报告答案,数据结构(C语言版)实验报告 集合的交并差...
- AD7124驱动代码(基于GD32F103 SPI)
- 「 LaTex 」写论文,natbib宏的参考文献引用格式详解
- rpc调用过程原理分析以及Dubbo、Feign调用过程
- Insyde H2OFFT cannot load the driver 解决办法
- [TJOI2019]唱、跳、rap和篮球_生成函数_容斥原理_ntt
- scratch少儿编程航天主题:认识太阳系-八大行星连连看
- 前端上传超大文件解决方案
- Java声效计算器(带有十进制转二进制和十六进制的功能)