LiveTV Mining


介绍

项目实现爬虫数据挖掘/分析等功能。目前主要是扫描直播站点收集数据,后续会开发相关数据分析模块。

架构采用前后端分离,通过RESTFul API通信。前端Vue+Webpack,后端Flask。

文件结构分为三部分,每个部分可以单独提供服务:

  • frontend 前端代码,使用Vue+Webpack开发管理。
  • server 后端RESTFul服务,使用Flask搭建提供API。
  • crawler 爬虫服务,使用框架scrapy对直播站点爬取数据。

使用中有问题或更新建议,欢迎提issue或用以下联系方式跟我交流:

  • 邮件: zwtzjd@gmail.com
  • QQ: 3084582097

历程

  • 2017-05-10 开发新爬虫火猫。
  • 2017-04-24 全民收集开发完成。
  • 2017-04-22 熊猫收集开发完成。
  • 2017-04-20 斗鱼收集开发完成。
  • 2017-04-15 准备开发收集站点房间:关注数、公告、上一次开播时间、打赏值、开播当天人气中位数。
  • 2017-04-01 变更LICENSE:GPL -> Apache。
  • 2017-03-20 开发新爬虫全民。
  • 2017-03-03 开发新爬虫龙珠。
  • 2017-03-01 恢复爬虫熊猫、战旗。
  • 2017-01-07 完成全部功能迁移,前后端分离完成。
  • 2016-12-24 引入vuex进行state和权限管理。
  • 2016-12-15 引入vue-resource,主模块(Main)完成分离。
  • 2016-11-25 研究流行前端框架和开发方式,确定使用webpack开发。
  • 2016-11-20 重新设计结构,进行前后端分离。
  • 2016-11-01 修正改造搜索功能,需要登录后才能使用。
  • 2016-10-29 完成渲染初步改造,已实现调用REST API进行访问读取。爬虫运行间隔20分钟。
  • 2016-10-20 引入Vue.js,改造前端渲染方式,减轻服务器压力。开发完成简单 Flask-Vue 插件。
  • 2016-10-15 引入Scrapy重构爬虫,精简爬虫步骤。仅保留斗鱼、BiliBli爬虫。
2016-08-15 v1.0版本开发结束,代码保存在分支v1.0

感激


感谢以下项目的支持,排名不分先后

  • Flask
  • Bootstrap
  • Selenium
  • Celery

直播网站LiveTV Mining,爬虫抓取数据 python3+scrapy相关推荐

  1. 基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api

    TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口 统一输出接口数据api.适合正在学习Vue,AngularJs框架学习 开发demo,需要接口并保证接口不跨 ...

  2. 如何使用Python爬虫抓取数据?

    Python爬虫应用十分广泛,无论是各类搜索引擎,还是日常数据采集,都需要爬虫的参与.其实爬虫的基本原理很简单,今天小编就教大家如何使用Python爬虫抓取数据,感兴趣的小伙伴赶紧看下去吧! 工具安装 ...

  3. python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...

    python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07

  4. 【入门-R爬虫抓取数据】文本挖掘之数据爬虫

    今天主要介绍一下,文本挖掘的数据获取方式,上一篇很多人在问数据如何获取,今天给大家介绍下数据获取的方式,主要利用爬虫抓取数据.基于,之前对python爬虫没接触过,尝试过用R爬虫,今天就来介绍下,如何 ...

  5. python爬虫抓取数据的步骤-Python爬虫抓取手机APP的传输数据

    大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包 得到超级课程表登录的地址:http://120.55 ...

  6. flask专题-小说网站开发二(抓取数据)

    上一篇准备好了数据库,现在开始填充数据库,数据来源为小说网站,爬虫库为requests库,多线程爬取,总共爬取数据5万多条.开始干吧! 框架分析 1.网站组成,手机版 3.分页组成,共页,每页50条数 ...

  7. Python爬虫抓取数据时怎么防止ip被封

    大数据公司在做数据分析的时候,对目标网站频繁访问很容易触发网站的反爬机制,因此如果想要突破限制只能使用动态ip频繁切换地址模拟真实客户访问网站才能起到防封效果.比如在做数据抓取的时候报错403等限制访 ...

  8. 【爬虫实战】国家企业公示网-crawler爬虫抓取数据

    crawler爬虫实现 1. crawler功能 2. crawler代码实现 3. 完成后的项目文件结构 4. 后续可以继续完善 学习目标 了解 crawler爬虫运行流程 了解 crawler爬虫 ...

  9. crawler爬虫抓取数据

    crawler爬虫实现 学习目标: 了解 crawler爬虫运行流程 了解 crawler爬虫模块实现 1. crawler功能 初始化driver 输入公司名称,并点击 判断是否需要验证 如果需要验 ...

最新文章

  1. 打开流 fopen 、freopen和fdopen函数
  2. 强化学习中的调参经验与编程技巧(on policy篇)
  3. mysql sql select_mysql SQL Select 语句 简单应用
  4. QuartusII下verilog设计使用OC8051和VGA两个IP核组成片上系统
  5. C#常见编码方式总结
  6. android自动退出对话框,Android开发 在用EditText对话框Dialog退出后实现输入盘的退出...
  7. jmeter五种参数化方式之CSV Data Set Config参数化
  8. C# 对垒 VB.NET C#不行了?
  9. php怎么处理一对多,php - 如何处理内部连接以及与OOP的一对多关系? - SO中文参考 - www.soinside.com...
  10. 2008-03-18 中午日出傍晚雨
  11. WF4.0 RC 对比 Beta2 的变化
  12. 2021年剑桥高考成绩查询,2021年剑桥英语KET/PET成绩查询指南
  13. easyui filebox+ajaxfileupload实现异步上传
  14. 我的世界java无限水_我的世界基岩版:如何获得无限水?这里有5种方法,最后一种无中生有...
  15. 计算机开机反复启动,电脑开机一直无限重启怎么解决
  16. 2019人工智能大数据精英大会圆满落幕(内附大会PPT干货资源)
  17. 龙腾世纪:起源–最后的古代墓碑和剑圣盔甲
  18. java poi 填充单元格_POI操作excel表格(建立工作薄、创建工作表、将数据填充到单元格中)...
  19. 【计划表合集】学习计划表/时间表/打卡表/理财表/读书记录/生活计划表等合集
  20. 【Laravel】Laravel使用总结(一)

热门文章

  1. 基于大数据的智能网络分析
  2. WA4320-ACN-E刷胖AP固件过程及问题
  3. 机器学习算法——聚类1(性能度量——外部指标Jaccard系统,FM指数,Rand指数;内部指标:DB指数,Dunn指数)
  4. uniapp ios启动页自定义
  5. 分享一个自行开发的加强版swagger-ui,提供一个全新的api文档生成思路
  6. H5扫码解决-限https
  7. Java,SQL 截取字符串substring
  8. GNU-Radio简介
  9. java反射访问室友属性_如何与家人,室友和客人共享HomeKit访问权限
  10. [python]微信公众号+python+新浪SAE实现实时天气预报功能