用pyspider爬斗鱼主播信息

之前用request+bs4+Mongodb爬斗鱼主播信息，需要自己写很长一大段，现在用pyspider试试。开始安装pyspider。

python3.7还不支持，3.6版本直接pip install pyspider就好了。

浏览器输入http://localhost:5000

Creaet按钮创建新项目，并输入起始网址，这里选择斗鱼分类网址，在这里爬出所有类目。

三个步骤：

1.起始页（获取下个操作步骤的url）

2.得到的url下(爬取信息)

3.save_to_mongo(存入数据库)

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2018-10-23 21:01:23
# Project: douyufrom pyspider.libs.base_handler import *
import pymongoclass Handler(BaseHandler):crawl_config = {}client = pymongo.MongoClient('localhost')db = client['spider_douyu']@every(minutes=24 * 60)def on_start(self):self.crawl('https://www.douyu.com/directory', callback=self.index_page, validate_cert=False)@config(age=10 * 24 * 60 * 60)def index_page(self, response):# 在浏览器里面获取的选择器for each in response.doc('#live-list-contentbox a[href^="http"]').items():self.crawl(each.attr.href, callback=self.detail_page, validate_cert=False)
            @config(priority=2)def detail_page(self, response):host_names = response.doc('.ellipsis.fl').items()nums = response.doc('.dy-num.fr').items()titles = response.doc('.mes h3').items()urls = response.doc('#live-list-contentbox  li  a').items()for host_name, num, title, url in zip(host_names,nums,titles,urls):data = {"网址": 'https://www.douyu.com/' + url.attr.href,"主播": host_name.text(),"标题": title.text().split('\n')[-1].strip(),"人气": float(num.text()[:-1]) if '万'in num.text() else float(num.text())/10000,}self.db['host'].insert(data)

运行后的结果：

几分钟爬到了8000条信息

代码短了很多，简洁了很多，还不用自己写进程池。下一步尝试进入主播房间获取贵族人数，礼物排行等更详细的信息。

转载于:https://www.cnblogs.com/lkd8477604/p/9840448.html

用pyspider爬斗鱼主播信息相关推荐

scrapy 斗鱼主播信息爬取
原文链接: scrapy 斗鱼主播信息爬取上一篇: scrapy 妹子图网站全站图片爬取下一篇: TensorFlow models 的slim 模块使用预训练模型进行识别 api http ...
使用selenium,xpath,线程池爬取斗鱼主播信息
使用xpath,线程池爬取斗鱼主播信息: 主要爬取主播昵称,直播内容分类,房间名称,房间号以及人气,共爬取了大概110多页数据,大概15000条,保存在txt文本中, import timefrom ...
Python爬虫获取斗鱼主播信息
感谢参考原文-http://bjbsair.com/2020-03-27/tech-info/7150.html 下面我们进入正题首先我们进入斗鱼的官网我发现首页是一些推荐的主播,并不全面,不能 ...
Python爬虫实现获取斗鱼主播信息
先下载安装Python以及其编写软件 https://www.python.org/downloads/ Python下载官网选择版本下面使用的版本为3.6.5 根据自己的操作系统的位数选择打开 ...
python爬取主播信息
之前学过python的爬虫技术,现在回顾一下看看还会不会,果然有坑. 先爬取了微博评论网友的id 代码如下 import requests url = 'https://m.weibo.cn/api/ ...
使用scrapy爬取手机版斗鱼主播的房间图片及昵称
目的:通过fiddler在电脑上对手机版斗鱼主播进行抓包,爬取所有主播的昵称和图片链接关于使用fiddler抓取手机包的设置: 把手机和装有fiddler的电脑处在同一个网段(同一个wifi),手机 ...
Python多线程爬虫，主播信息资料爬取采集
头榜,一个集合主播信息及资讯的网站,内容比较齐全,现今直播火热,想要找寻各种播主信息,这类网站可以搜集到相关热门主播信息. 目标网址: http://www.toubang.tv/baike/list ...
斗鱼直播画面怎么弄到自己网页上_“集战！创界山勇者”斗鱼主播招募活动开始啦！...
关注微信公众号:梦幻模拟战手游 Langrisser传说,由你书写! <梦幻模拟战>x<魔神英雄传>联动活动火热来袭!"小救星"战部渡与伙伴剑部武一郎.忍部 ...
Python获取熊猫TVLOL栏所有主播信息以及人气排名
今天爬取的网页为:熊猫TV LOL栏一,分析网页: 一共6页,我们要想办法获取所有页的信息,所以F12查看网络请求,点击第二页: 发现了这个请求这就是我们需要的东西所以推测 pageno参数为第 ...

用pyspider爬斗鱼主播信息

用pyspider爬斗鱼主播信息相关推荐

最新文章

热门文章