笔者渔鱼之前做文字编辑,写稿时总感觉文字素材的收集整理会占用大量时间。往往确定一个主题后,先后会在百度、各种门户甚至app内容平台去找相关材料。找不到很多又很疲劳,就想如果能有个工具,在网上各个地方快速收集文字素材,还能下载到本地做批量分析,那该多好。写稿时如果有大量相关文字素材可供选择,岂不事半功倍!

百度很久都没找到类似的工具,由于之前对python有些了解,想想用python应该可以实现我要的功能,于是就下决心现学现卖,自己动手搞一个文字采集分析工具。

经过一番分析,大致的用例描述如下:

  1. 编辑先去找内容源,比如渔鱼想做财经方面的内容,就可以去一些财经门户或者财经类的微信公众号去找内容。
  2. 最终需要采集的是详情页的内容,但之前先要从列表页批量搞到详情页的url
  3. 每个详情页的内容能单独采集到本地的一个word文件中,采集的内容包括:标题、内容、发布时间
  4. 采集的同时,还能提取每篇文章的高频词,以及文章中最有代表性的三个句子,同样保存在word文件中
  5. 最终Word文件的内容格式是这样:
  6. 字段解释:
  7. 批量采集的文章放在一个文件夹(article)中,word文件标题形式为{articleId}_{title}:
  8. 以上算是完成了采集,采集完之后要将word中的内容写入MySQL数据库article表中。同时将已被写入数据库的word文件移到另一个文件夹(articleAtDB)中。article表结构如下:

9.article表并没有content字段,因为这个表主要用来分析和查找所需的内容,找到需要的内容后再根据articleId从articleAtDB文件夹中打开word文件来查看。

10.存在数据库article表中的数据可直接写SQL来查,或者用phpMyAdmin导出CSV文件来筛选,从keyword字段基本就能看出一篇文章主要写的什么内容。导出的CSV如下:

11.可能会有小伙伴问,为何采集完内容不直接存数据库,还要中间先存word文件,再从word文件写进数据库?需要word文件保存文章正文是其一,更重要的另一个原因是还有一个打标签的功能。

12.打标签是什么?就是采集到word中的文章,有时我们希望对某一段内容添加一些注释,并希望所有word中的注释最终也能写入到数据库中。在word中的标签格式:<% t = xxxxxxx c = xxxxxxx %>,t是标签名,也就是注释,c是标签对应的内容。

13.标签存入tags表,表的结构及写入数据后效果如下:

14.有了打标签功能,就可以在浏览采集到的内容时,对有用的内容进行标注,最终所有的标注内容都会存在数据库中。在写稿时,就可以将之前标注的内容全部导出来参考。当然如果嫌打标签麻烦也可以不用这个功能,直接从采集的内容中复制也行,但这样在以后就享受不到长期积累标签内容带来的好处了。

15.以上流程画成图大致是这样的:

上面就是工具的大概用法,下面是设计

系统使用面向对象方式编写,各模块分开,从使用上看,主要分两部分功能:

  • 采集,将网页内容采到word中
  • 解析,将word内容分字段解析,并写入数据库

采集部分的类图:

采集部分顺序图:

解析部分类图:

解析部分顺序图:

编辑的福音——一款用python编写的文字素材采集分析工具相关推荐

  1. 一款以Python编码的自动化大规模漏洞测试工具

    可能大家之前已经使用过AutpSploit这款自动化漏洞利用工具了,但是这款工具现在又进行了大幅度改进. AutoSploit= Shodan/Censys/Zoomeye + Metasploit ...

  2. 一款非常好用的网站访问日志分析工具,360星图

    原文转载自:豫章小站 » <[分享]360星图,一款非常好用的网站访问日志分析工具> 广大站长有没有这样一个体验,网站流量异常,要通过网站日志来分析的时候非常头疼,日志文件很大,一条一条来 ...

  3. 超给力,一款程序员必备的 996 代码工作量分析工具

    公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! 程序员是一个创作型的职业,频繁的加班并不能增加产出,而国内 996 的公司文化,真的一言难尽.但是如果你进到一家公 ...

  4. python审计ssh_代码分享:用Python编写的多协议弱密码审计工具集

    前几天与大家分享了我自己用C++实现的用于企业内部环境的ssh弱密码审计工具.在实际的工作中,我们还需要对多种常见的协议定期进行弱密码审计.为了灵活地适应企业内部复杂的网络环境,以及领导希望稳定可控的 ...

  5. python做一个本地搜索工具_SecretFinder:一款基于Python脚本的JavaScript敏感信息搜索工具...

    SecretFinder工具介绍 SecretFinder是一款基于LinkFinder实现的Python脚本(如需BrupSuite版本,请点击这里),该工具的主要功能是帮助研究人员发现JavaSc ...

  6. python指纹识别_分享Python编写的网站组件指纹扫描工具.

    这是一个使用Python语言编写的开源网站组件指纹扫描工具,该工具运行在Python2.73环境下,Windows平台,它支持如下功能: 1.自动提取互联网URL,根据GoDumpDomainSele ...

  7. golang 编写的在线redis 内存分析工具 rma4go

    redis 内存分析工具 rma4go redis是一个很有名的内存型数据库,这里不做详细介绍.而rma4go (redis memory analyzer for golang) 是一个redis的 ...

  8. python语音转文字软件_python编写语音转文字软件|语音转文字工具免费版下载(语音批量转换文字) v2.0 最新版_数码资源网...

    没有专业的工具怎么能够将语音转换为文字呢?小编为大家提供了语音转文字工具免费版,一款通过Python编写语音转文字软件.用户通过使用语音转文字工具免费版,可以将语音批量转换文字,而且操作也是非常的简单 ...

  9. 【CyberSecurityLearning 68】python 编写exp

    目录 python 编写exp 用python脚本实现布尔盲注 用python脚本实现延时注入 文件上传 python 编写exp exp:漏洞利用工具 以Web 漏洞为主 要求: 1.能够看懂别人写 ...

最新文章

  1. php显示服务器文件,php-无法显示从新服务器下载文件的进度(在以前的服务器上工作)...
  2. 总结:ps aux指令
  3. Homebrew软件包管理器中发现RCE漏洞,小心你的Mac和Linux
  4. ns2相关学习——tcl脚本编写(1)
  5. 扫地机器人单扫和双扫_评测 | 千元以下的扫拖一体机器人,到底值不值得买?...
  6. 继续!从顶会论文看对比学习的应用!
  7. java9学习之模块化
  8. XML PUBLISHER输出excel存在科学计数
  9. 优秀程序员必备技能大全
  10. [职场]白领常见的18个职场困惑
  11. hyperparameter_hunter 超参数优化模块实践
  12. Coffice协同办公管理系统(C#)(
  13. 渗透测试教程(基础篇)-3
  14. 微博营销的价值与注意点
  15. 英特尔Atom处理器出货一亿,庆祝上网本CPU三周岁
  16. Python int()使用小结
  17. 中国月球探测标识确定 寓龙的传人登月梦
  18. 网易邮箱大师中添加qq邮箱时,需要开启IMAP,一直卡在验证密保的界面
  19. openssh卸载了怎么连接linux,源码安装的openssh肿么卸载
  20. PCB设计中屏蔽罩夹子的使用

热门文章

  1. windchill 11.0 ComponentBuilder原理
  2. 异步html的效果,异步加载非核心CSS_html/css_WEB-ITnose
  3. 提高采购效率,采购管理的五大原则及实现方法
  4. 产品必须创新?大多数情况我们只需要模仿就能赚钱了
  5. CentOS系统SSH无法连接
  6. 从年仅12岁的AI开发者身上你学到了什么?
  7. 闺蜜要抛弃凤凰男男友,我真替他不值
  8. 欲摘掉“代工者”的帽子,富士康斥资8.66亿美元收购贝尔金
  9. 2012 SunGard China HE 裁员大事记 ---持续跟新中
  10. Linux开发环境配置