场景一

小明一如往常打开 Chrome 浏览器逛着论坛,贴吧,一不小心点开了网页上的广告,跳转到了京东商城,下意识去关闭窗口时发现 (OS:咦?京东怎么知道我最近心心念念的宝贝呢?刚好我正需要呢!),既然打开了那就看看商品详情吧 (OS:哎哟不错哦),那就下单试试吧!

场景二

小白听着网易云音乐的每日推荐歌单无法自拔 (OS:哇!怎么播放列表里都是我喜欢的音乐风格?网易云音乐太棒了吧!深得我心啊!黑胶会员必须来一个!),逛着知乎里的“如何优雅的XXX?”,“XXX是怎样一种体验?”,“如何评价XXX?” (OS:咦?这个问题就是我刚好想问的,原来早已有人提问!什么???还有几千条回答!!进去逛逛看!

场景三

小达上班时不忘充实自己,逛着各大技术论坛博客园、CSDN、开源中国、简书、掘金等等,发现首页的内容推荐太棒了(OS:这些技术博文太棒了,不用找就出来了),再打开自己的博客主页发现不知不觉地自己也坚持写博文也有三年了,自己的技术栈也越来越丰富(OS:怎么博客后台都不提供一个数据分析系统呢?我想看看我这几年来的发文数量,发文时间,想知道哪些博文比较热门,想看看我在哪些技术上花费的时间更多,想看看我过去的创作高峰期时在晚上呢?还是凌晨?我希望系统能给我更多指引数据让我更好的创作!

看到以上几个场景你可能会感叹科技在进步,技术在发展,极大地改善了我们的生活方式。

但当你深入思考,你浏览的每个网站,注册的每个网站,他们都记录着你的信息你的足迹。

细思恐极的背后是自己的个人数据被赤裸裸的暴露在互联网上并且被众多的公司利用用户数据获得巨额利益,如对用户的数据收集分析后进行定制的广告推送,收取高额广告费。但作为数据的生产者却没能分享属于自己的数据收益。

想法

如果有一个这样的工具,它能帮你拿回你的个人信息,它能帮你把分散在各种站点的个人信息聚合起来,它能帮你分析你的个人数据并给你提供建议,它能帮你把个人数据可视化让你更清楚地了解自己。

你是否会需要这样的工具呢? 你是否会喜欢这样的工具呢?

实现

基于以上,我最近着手开发了 INFO-SPIDER

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具箱代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。

目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书等等。

Features

  • 安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠。
  • 使用简单:提供 GUI 界面,只需点击所需获取的数据源并根据提示操作即可。
  • 结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的Spiders文件下。
  • 数据源丰富:本项目目前支持多达24+个数据源,持续更新。
  • 数据格式统一:爬取的所有数据都将存储为json格式。
  • 个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减。
  • 数据分析:本项目提供个人数据的可视化分析,目前仅部分支持。
  • 文档丰富:本项目包含完整全面的使用说明文档和视频教程

Screenshot

写在最后

  1. 该项目解决了个人数据分散在各种各样的公司之间,经常形成数据孤岛,多维数据无法融合的痛点。
  2. 作者认为该项目的最大潜力在于能把多维数据进行融合并对个人数据进行分析,是个人数据效益最大化。
  3. 该项目使用爬虫手段获取数据,所以程序存在时效问题(需要持续维护,根据网站的更新做出修改)。
  4. 该项目的结构清晰,所有数据源相互独立,可移植性高,所有爬虫脚本在项目的Spiders文件下,可移植到你的程序中。
  5. 目前该项目v1.0版本仅在Windows平台上测试,Python 3.7,未适配多平台。
  6. 计划在v2.0版本对项目进行重构,提供web端操作与数据可视化,以适配多平台。
  7. 本项目INFO-SPIDER代码已开源,欢迎 star 支持。

相关链接

  • 项目代码:https://github.com/kangvcar/InfoSpider
  • 项目使用文档: https://infospider.vercel.app
  • 项目视频演示: https://www.bilibili.com/video/BV14f4y1R7oF/

INFO-SPIDER —— 集众多数据源于一身的爬虫工具箱相关推荐

  1. GitHub最最最火的开源爬虫工具箱,一爬就取

    作者 | 夕小瑶的卖萌屋 编辑 | SF 来源 | GitHub爱好者社区 现在一般网站都有反爬虫机制,对于爱爬虫的朋友来说,想爬虫些数据,做下数据分析.是越来越难了.不过最近我们,发现一个超宝藏的爬 ...

  2. GitHub超级火!任意爬取,超全开源爬虫工具箱

    文 | 程序员GitHub 最近国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱--InfoSpider,一不小心就火了!!! 有多火呢?开源没几天就登上GitHub周榜第四, ...

  3. 超全开源 Python 爬虫工具箱,走到哪里爬到哪里

    开源最前线 .数据管道综合整理 最近国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱--InfoSpider,一不小心就火了!!! 有多火呢?开源没几天就登上GitHub周榜第 ...

  4. 任意爬取!超全开源爬虫工具箱

    点击上方"一行数据",选择"置顶星标"公众号 干货福利,第一时间送达 大家好,我是一行! 今天分享的文章是一位一位开发者在 GitHub 上开源了个集众多数据源 ...

  5. 推荐一款神奇的爬虫工具箱

    [公众号回复 "1024",免费领取程序员赚钱实操经验] 大家好,我是章鱼猫. 之前我们推荐过一篇爬虫集合:简单暴力的爬虫集合 今天推荐的这个项目是「INFO-SPIDER」,是一 ...

  6. 一款爆红的开源爬虫工具箱

    来自:开源最前线(ID:OpenSourceTop) 国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱--InfoSpider,一不小心就火了!!! 有多火呢?开源没几天就登上 ...

  7. 国内开发者开源爬虫工具箱爆红 GitHub

    点击上方"逆锋起笔",公众号回复 PDF 领取大佬们推荐的学习资料 开源最前线(ID:OpenSourceTop) 猿妹整编 转载请注明来源作者 国内一位开发者在 GitHub 上 ...

  8. GitHub 超级火:超全开源爬虫工具箱!

    " 阅读本文大概需要 3 分钟. " 转载来源 公众号:GitHub中文社区  作者:huber 最近国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱--I ...

  9. php spider 开发文档,开发PHPSpider爬虫的常用工具

    # 开发PHPSpider爬虫的常用工具 # 开发PHPSpider爬虫的常用工具 > "工欲善其事,必先利其器",开发PHPSpider爬虫,起码得有几件顺手的工具才行吧, ...

最新文章

  1. 波士顿动力发布新版人形机器人:能跳跃旋转、后空翻
  2. stm32使用 ST-LINK Utility量产,程序读保护、写保护
  3. 2012年欧洲杯德国战车止步四强赛
  4. php中finally不能用,php-什么时候以及为什么`finally`有用?
  5. OD汇编指令集(不断更新)
  6. Linux_学习_Day3_bash
  7. C语言入门I love China,C语言从入门到精通
  8. c语言三个杠的等号是什么,数学3个横杠的等号表示什么意思?比如这个定 – 手机爱问...
  9. php去掉关联数组,大家都应该掌握的PHP关联数组使用技巧
  10. 李彦宏卸任百度投资管理有限公司董事 马东敏上任
  11. stm32串口通信_STM32之串口通信
  12. VMware安装Windows Server 2003提示Operating System not found
  13. AD21怎么打印丝印层的PDF
  14. 网易云课堂C++开发工程师案例-网吧收银系统(MFC+ADO) C++收银...
  15. 边城工具集:绘图及标注工具
  16. python开源项目及示例代码(转)
  17. 如何将dwg转换为kml
  18. 社交产品分析:共同看片,微光
  19. 转载:汇总详解:矩阵的迹以及迹对矩阵求导
  20. outlook登录QQ邮箱

热门文章

  1. 2021-2027全球及中国车轮检测系统行业研究及十四五规划分析报告
  2. Android设备电量监控
  3. Google pixel 原生安卓出现 WiFi 网络受限
  4. CSerialPort教程(3) - MFC中使用CSerialPort
  5. MEGA-X 3D打印机教程: 04_建模、切片、打印
  6. 特斯拉第三季度扭亏为盈;小米今年出货一亿部手机;苹果降速门罚款1140万美元 | 雷锋早报...
  7. 计量经济学 分布滞后模型案例
  8. 运维转型之路—手工运维到无人值守的自动化运维,从根本实现降本增效
  9. 网上青春:小林.COM
  10. 4.3 数据表中的行汇总统计