直播网站LiveTV Mining，爬虫抓取数据 python3+scrapy

LiveTV Mining

介绍

项目实现爬虫、数据挖掘/分析等功能。目前主要是扫描直播站点收集数据，后续会开发相关数据分析模块。

架构采用前后端分离，通过RESTFul API通信。前端Vue+Webpack，后端Flask。

文件结构分为三部分，每个部分可以单独提供服务：

frontend 前端代码，使用Vue+Webpack开发管理。
server 后端RESTFul服务，使用Flask搭建提供API。
crawler 爬虫服务，使用框架scrapy对直播站点爬取数据。

使用中有问题或更新建议，欢迎提issue或用以下联系方式跟我交流：

邮件: zwtzjd@gmail.com
QQ: 3084582097

历程

2017-05-10 开发新爬虫火猫。
2017-04-24 全民收集开发完成。
2017-04-22 熊猫收集开发完成。
2017-04-20 斗鱼收集开发完成。
2017-04-15 准备开发收集站点房间：关注数、公告、上一次开播时间、打赏值、开播当天人气中位数。
2017-04-01 变更LICENSE：GPL -> Apache。
2017-03-20 开发新爬虫全民。
2017-03-03 开发新爬虫龙珠。
2017-03-01 恢复爬虫熊猫、战旗。
2017-01-07 完成全部功能迁移，前后端分离完成。
2016-12-24 引入vuex进行state和权限管理。
2016-12-15 引入vue-resource，主模块(Main)完成分离。
2016-11-25 研究流行前端框架和开发方式，确定使用webpack开发。
2016-11-20 重新设计结构，进行前后端分离。
2016-11-01 修正改造搜索功能，需要登录后才能使用。
2016-10-29 完成渲染初步改造，已实现调用REST API进行访问读取。爬虫运行间隔20分钟。
2016-10-20 引入Vue.js，改造前端渲染方式，减轻服务器压力。开发完成简单 Flask-Vue 插件。
2016-10-15 引入Scrapy重构爬虫，精简爬虫步骤。仅保留斗鱼、BiliBli爬虫。

2016-08-15 v1.0版本开发结束，代码保存在分支v1.0

感激

感谢以下项目的支持，排名不分先后

Flask
Bootstrap
Selenium
Celery

直播网站LiveTV Mining，爬虫抓取数据 python3+scrapy相关推荐

基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api
TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口统一输出接口数据api.适合正在学习Vue,AngularJs框架学习开发demo,需要接口并保证接口不跨 ...
如何使用Python爬虫抓取数据？
Python爬虫应用十分广泛,无论是各类搜索引擎,还是日常数据采集,都需要爬虫的参与.其实爬虫的基本原理很简单,今天小编就教大家如何使用Python爬虫抓取数据,感兴趣的小伙伴赶紧看下去吧! 工具安装 ...
python爬取大众点评评论_python爬虫抓取数据小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...
python爬虫抓取数据小试Python--爬虫抓取大众点评上的数据发布时间:2017-04-07
【入门-R爬虫抓取数据】文本挖掘之数据爬虫
今天主要介绍一下,文本挖掘的数据获取方式,上一篇很多人在问数据如何获取,今天给大家介绍下数据获取的方式,主要利用爬虫抓取数据.基于,之前对python爬虫没接触过,尝试过用R爬虫,今天就来介绍下,如何 ...
python爬虫抓取数据的步骤-Python爬虫抓取手机APP的传输数据
大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包得到超级课程表登录的地址:http://120.55 ...
flask专题-小说网站开发二（抓取数据）
上一篇准备好了数据库,现在开始填充数据库,数据来源为小说网站,爬虫库为requests库,多线程爬取,总共爬取数据5万多条.开始干吧! 框架分析 1.网站组成,手机版 3.分页组成,共页,每页50条数 ...
Python爬虫抓取数据时怎么防止ip被封
大数据公司在做数据分析的时候,对目标网站频繁访问很容易触发网站的反爬机制,因此如果想要突破限制只能使用动态ip频繁切换地址模拟真实客户访问网站才能起到防封效果.比如在做数据抓取的时候报错403等限制访 ...
【爬虫实战】国家企业公示网-crawler爬虫抓取数据
crawler爬虫实现 1. crawler功能 2. crawler代码实现 3. 完成后的项目文件结构 4. 后续可以继续完善学习目标了解 crawler爬虫运行流程了解 crawler爬虫 ...
crawler爬虫抓取数据
crawler爬虫实现学习目标: 了解 crawler爬虫运行流程了解 crawler爬虫模块实现 1. crawler功能初始化driver 输入公司名称,并点击判断是否需要验证如果需要验 ...

直播网站LiveTV Mining，爬虫抓取数据 python3+scrapy

LiveTV Mining

介绍

历程

2016-08-15 v1.0版本开发结束，代码保存在分支v1.0

感激

直播网站LiveTV Mining，爬虫抓取数据 python3+scrapy相关推荐

最新文章

热门文章