用pyspider爬斗鱼主播信息
之前用request+bs4+Mongodb爬斗鱼主播信息,需要自己写很长一大段, 现在用pyspider试试。开始安装pyspider。
python3.7还不支持,3.6版本直接pip install pyspider就好了。
浏览器输入http://localhost:5000
Creaet按钮创建新项目,并输入起始网址,这里选择斗鱼分类网址,在这里爬出所有类目。
三个步骤:
1.起始页(获取下个操作步骤的url)
2.得到的url下(爬取信息)
3.save_to_mongo(存入数据库)
#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2018-10-23 21:01:23 # Project: douyufrom pyspider.libs.base_handler import * import pymongoclass Handler(BaseHandler):crawl_config = {}client = pymongo.MongoClient('localhost')db = client['spider_douyu']@every(minutes=24 * 60)def on_start(self):self.crawl('https://www.douyu.com/directory', callback=self.index_page, validate_cert=False)@config(age=10 * 24 * 60 * 60)def index_page(self, response):# 在浏览器里面获取的选择器for each in response.doc('#live-list-contentbox a[href^="http"]').items():self.crawl(each.attr.href, callback=self.detail_page, validate_cert=False) @config(priority=2)def detail_page(self, response):host_names = response.doc('.ellipsis.fl').items()nums = response.doc('.dy-num.fr').items()titles = response.doc('.mes h3').items()urls = response.doc('#live-list-contentbox li a').items()for host_name, num, title, url in zip(host_names,nums,titles,urls):data = {"网址": 'https://www.douyu.com/' + url.attr.href,"主播": host_name.text(),"标题": title.text().split('\n')[-1].strip(),"人气": float(num.text()[:-1]) if '万'in num.text() else float(num.text())/10000,}self.db['host'].insert(data)
运行后的结果:
几分钟爬到了8000条信息
代码短了很多,简洁了很多,还不用自己写进程池。下一步尝试进入主播房间获取贵族人数,礼物排行等更详细的信息。
转载于:https://www.cnblogs.com/lkd8477604/p/9840448.html
用pyspider爬斗鱼主播信息相关推荐
- scrapy 斗鱼 主播信息爬取
原文链接: scrapy 斗鱼 主播信息爬取 上一篇: scrapy 妹子图网站 全站图片爬取 下一篇: TensorFlow models 的slim 模块 使用预训练模型进行识别 api http ...
- 使用selenium,xpath,线程池爬取斗鱼主播信息
使用xpath,线程池爬取斗鱼主播信息: 主要爬取主播昵称,直播内容分类,房间名称,房间号以及人气,共爬取了大概110多页数据,大概15000条,保存在txt文本中, import timefrom ...
- Python爬虫获取斗鱼主播信息
感谢参考原文-http://bjbsair.com/2020-03-27/tech-info/7150.html 下面我们进入正题 首先 我们进入斗鱼的官网 我发现首页是一些推荐的主播,并不全面,不能 ...
- Python爬虫实现获取斗鱼主播信息
先下载安装Python以及其编写软件 https://www.python.org/downloads/ Python下载官网 选择版本 下面使用的版本为3.6.5 根据自己的操作系统的位数选择 打开 ...
- python爬取主播信息
之前学过python的爬虫技术,现在回顾一下看看还会不会,果然有坑. 先爬取了微博评论网友的id 代码如下 import requests url = 'https://m.weibo.cn/api/ ...
- 使用scrapy爬取手机版斗鱼主播的房间图片及昵称
目的:通过fiddler在电脑上对手机版斗鱼主播进行抓包,爬取所有主播的昵称和图片链接 关于使用fiddler抓取手机包的设置: 把手机和装有fiddler的电脑处在同一个网段(同一个wifi),手机 ...
- Python多线程爬虫,主播信息资料爬取采集
头榜,一个集合主播信息及资讯的网站,内容比较齐全,现今直播火热,想要找寻各种播主信息,这类网站可以搜集到相关热门主播信息. 目标网址: http://www.toubang.tv/baike/list ...
- 斗鱼直播画面怎么弄到自己网页上_“集战!创界山勇者”斗鱼主播招募活动开始啦!...
关注微信公众号:梦幻模拟战手游 Langrisser传说,由你书写! <梦幻模拟战>x<魔神英雄传>联动活动火热来袭!"小救星"战部渡与伙伴剑部武一郎.忍部 ...
- Python获取熊猫TVLOL栏所有主播信息以及人气排名
今天爬取的网页为:熊猫TV LOL栏 一,分析网页: 一共6页,我们要想办法获取所有页的信息,所以F12查看网络请求,点击第二页: 发现了这个请求 这就是我们需要的东西 所以推测 pageno参数为第 ...
最新文章
- 页面中嵌入了Flash时滚动条问题
- ISE简介及其下载 安装 和谐 与 卸载
- myeclipse2019左侧工程目录字体的大小调整
- SpringCloud学习笔记012---CentOs7搭建高速缓存NoSql Redis单机服务_redis_4.0.1_或者redis_6.0.x_可自定义版本
- node.js 使用domain模块捕获异步回调中的异常
- 采用Visual Stuidio 2010 创建网站栏
- T-SQL语言(一)
- linux -- open /acess/ftruncate/lstat 函数
- openwrt增加内核模块的方法
- atmega328 48手动解锁 擦除
- 局域网聊天程序 java MySQL_局域网聊天软件设计与实现(Linux,C++,MySQL)
- 加拿大 大学 计算机硕士学费,加拿大各大学硕士学费的情况介绍
- oppo小布机器人_看这一篇就够了,1分钟带你了解OPPO小布的隐藏玩法!
- vcard 文件数据格式
- 【vijos】1770 大内密探(树形dp+计数)
- linkerd mysql_《Linkerd官方文档》在本地运行Linkerd
- js 统计输入的字数 不包括输入法中的字母
- 金融科技上市公司业绩爆发,三大业务趋势显现
- Unity脚本介绍和常用API
- 河南计算机专业最好的独立学院,河南省排名前十的大学-河南省民办大学排名-河南省独立学院排名...