编辑的福音——一款用python编写的文字素材采集分析工具
笔者渔鱼之前做文字编辑,写稿时总感觉文字素材的收集整理会占用大量时间。往往确定一个主题后,先后会在百度、各种门户甚至app内容平台去找相关材料。找不到很多又很疲劳,就想如果能有个工具,在网上各个地方快速收集文字素材,还能下载到本地做批量分析,那该多好。写稿时如果有大量相关文字素材可供选择,岂不事半功倍!
百度很久都没找到类似的工具,由于之前对python有些了解,想想用python应该可以实现我要的功能,于是就下决心现学现卖,自己动手搞一个文字采集分析工具。
经过一番分析,大致的用例描述如下:
- 编辑先去找内容源,比如渔鱼想做财经方面的内容,就可以去一些财经门户或者财经类的微信公众号去找内容。
- 最终需要采集的是详情页的内容,但之前先要从列表页批量搞到详情页的url
- 每个详情页的内容能单独采集到本地的一个word文件中,采集的内容包括:标题、内容、发布时间
- 采集的同时,还能提取每篇文章的高频词,以及文章中最有代表性的三个句子,同样保存在word文件中
- 最终Word文件的内容格式是这样:
- 字段解释:
- 批量采集的文章放在一个文件夹(article)中,word文件标题形式为{articleId}_{title}:
- 以上算是完成了采集,采集完之后要将word中的内容写入MySQL数据库article表中。同时将已被写入数据库的word文件移到另一个文件夹(articleAtDB)中。article表结构如下:
9.article表并没有content字段,因为这个表主要用来分析和查找所需的内容,找到需要的内容后再根据articleId从articleAtDB文件夹中打开word文件来查看。
10.存在数据库article表中的数据可直接写SQL来查,或者用phpMyAdmin导出CSV文件来筛选,从keyword字段基本就能看出一篇文章主要写的什么内容。导出的CSV如下:
11.可能会有小伙伴问,为何采集完内容不直接存数据库,还要中间先存word文件,再从word文件写进数据库?需要word文件保存文章正文是其一,更重要的另一个原因是还有一个打标签的功能。
12.打标签是什么?就是采集到word中的文章,有时我们希望对某一段内容添加一些注释,并希望所有word中的注释最终也能写入到数据库中。在word中的标签格式:<% t = xxxxxxx c = xxxxxxx %>,t是标签名,也就是注释,c是标签对应的内容。
13.标签存入tags表,表的结构及写入数据后效果如下:
14.有了打标签功能,就可以在浏览采集到的内容时,对有用的内容进行标注,最终所有的标注内容都会存在数据库中。在写稿时,就可以将之前标注的内容全部导出来参考。当然如果嫌打标签麻烦也可以不用这个功能,直接从采集的内容中复制也行,但这样在以后就享受不到长期积累标签内容带来的好处了。
15.以上流程画成图大致是这样的:
上面就是工具的大概用法,下面是设计
系统使用面向对象方式编写,各模块分开,从使用上看,主要分两部分功能:
- 采集,将网页内容采到word中
- 解析,将word内容分字段解析,并写入数据库
采集部分的类图:
采集部分顺序图:
解析部分类图:
解析部分顺序图:
编辑的福音——一款用python编写的文字素材采集分析工具相关推荐
- 一款以Python编码的自动化大规模漏洞测试工具
可能大家之前已经使用过AutpSploit这款自动化漏洞利用工具了,但是这款工具现在又进行了大幅度改进. AutoSploit= Shodan/Censys/Zoomeye + Metasploit ...
- 一款非常好用的网站访问日志分析工具,360星图
原文转载自:豫章小站 » <[分享]360星图,一款非常好用的网站访问日志分析工具> 广大站长有没有这样一个体验,网站流量异常,要通过网站日志来分析的时候非常头疼,日志文件很大,一条一条来 ...
- 超给力,一款程序员必备的 996 代码工作量分析工具
公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! 程序员是一个创作型的职业,频繁的加班并不能增加产出,而国内 996 的公司文化,真的一言难尽.但是如果你进到一家公 ...
- python审计ssh_代码分享:用Python编写的多协议弱密码审计工具集
前几天与大家分享了我自己用C++实现的用于企业内部环境的ssh弱密码审计工具.在实际的工作中,我们还需要对多种常见的协议定期进行弱密码审计.为了灵活地适应企业内部复杂的网络环境,以及领导希望稳定可控的 ...
- python做一个本地搜索工具_SecretFinder:一款基于Python脚本的JavaScript敏感信息搜索工具...
SecretFinder工具介绍 SecretFinder是一款基于LinkFinder实现的Python脚本(如需BrupSuite版本,请点击这里),该工具的主要功能是帮助研究人员发现JavaSc ...
- python指纹识别_分享Python编写的网站组件指纹扫描工具.
这是一个使用Python语言编写的开源网站组件指纹扫描工具,该工具运行在Python2.73环境下,Windows平台,它支持如下功能: 1.自动提取互联网URL,根据GoDumpDomainSele ...
- golang 编写的在线redis 内存分析工具 rma4go
redis 内存分析工具 rma4go redis是一个很有名的内存型数据库,这里不做详细介绍.而rma4go (redis memory analyzer for golang) 是一个redis的 ...
- python语音转文字软件_python编写语音转文字软件|语音转文字工具免费版下载(语音批量转换文字) v2.0 最新版_数码资源网...
没有专业的工具怎么能够将语音转换为文字呢?小编为大家提供了语音转文字工具免费版,一款通过Python编写语音转文字软件.用户通过使用语音转文字工具免费版,可以将语音批量转换文字,而且操作也是非常的简单 ...
- 【CyberSecurityLearning 68】python 编写exp
目录 python 编写exp 用python脚本实现布尔盲注 用python脚本实现延时注入 文件上传 python 编写exp exp:漏洞利用工具 以Web 漏洞为主 要求: 1.能够看懂别人写 ...
最新文章
- php显示服务器文件,php-无法显示从新服务器下载文件的进度(在以前的服务器上工作)...
- 总结:ps aux指令
- Homebrew软件包管理器中发现RCE漏洞,小心你的Mac和Linux
- ns2相关学习——tcl脚本编写(1)
- 扫地机器人单扫和双扫_评测 | 千元以下的扫拖一体机器人,到底值不值得买?...
- 继续!从顶会论文看对比学习的应用!
- java9学习之模块化
- XML PUBLISHER输出excel存在科学计数
- 优秀程序员必备技能大全
- [职场]白领常见的18个职场困惑
- hyperparameter_hunter 超参数优化模块实践
- Coffice协同办公管理系统(C#)(
- 渗透测试教程(基础篇)-3
- 微博营销的价值与注意点
- 英特尔Atom处理器出货一亿,庆祝上网本CPU三周岁
- Python int()使用小结
- 中国月球探测标识确定 寓龙的传人登月梦
- 网易邮箱大师中添加qq邮箱时,需要开启IMAP,一直卡在验证密保的界面
- openssh卸载了怎么连接linux,源码安装的openssh肿么卸载
- PCB设计中屏蔽罩夹子的使用
热门文章
- windchill 11.0 ComponentBuilder原理
- 异步html的效果,异步加载非核心CSS_html/css_WEB-ITnose
- 提高采购效率,采购管理的五大原则及实现方法
- 产品必须创新?大多数情况我们只需要模仿就能赚钱了
- CentOS系统SSH无法连接
- 从年仅12岁的AI开发者身上你学到了什么?
- 闺蜜要抛弃凤凰男男友,我真替他不值
- 欲摘掉“代工者”的帽子,富士康斥资8.66亿美元收购贝尔金
- 2012 SunGard China HE 裁员大事记 ---持续跟新中
- Linux开发环境配置