之前用request+bs4+Mongodb爬斗鱼主播信息,需要自己写很长一大段, 现在用pyspider试试。开始安装pyspider。

python3.7还不支持,3.6版本直接pip install pyspider就好了。

浏览器输入http://localhost:5000

Creaet按钮创建新项目,并输入起始网址,这里选择斗鱼分类网址,在这里爬出所有类目。

三个步骤:

1.起始页(获取下个操作步骤的url)

2.得到的url下(爬取信息)

3.save_to_mongo(存入数据库)

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2018-10-23 21:01:23
# Project: douyufrom pyspider.libs.base_handler import *
import pymongoclass Handler(BaseHandler):crawl_config = {}client = pymongo.MongoClient('localhost')db = client['spider_douyu']@every(minutes=24 * 60)def on_start(self):self.crawl('https://www.douyu.com/directory', callback=self.index_page, validate_cert=False)@config(age=10 * 24 * 60 * 60)def index_page(self, response):# 在浏览器里面获取的选择器for each in response.doc('#live-list-contentbox a[href^="http"]').items():self.crawl(each.attr.href, callback=self.detail_page, validate_cert=False)
            @config(priority=2)def detail_page(self, response):host_names = response.doc('.ellipsis.fl').items()nums = response.doc('.dy-num.fr').items()titles = response.doc('.mes h3').items()urls = response.doc('#live-list-contentbox  li  a').items()for host_name, num, title, url in zip(host_names,nums,titles,urls):data = {"网址": 'https://www.douyu.com/' + url.attr.href,"主播": host_name.text(),"标题": title.text().split('\n')[-1].strip(),"人气": float(num.text()[:-1]) if '万'in num.text() else float(num.text())/10000,}self.db['host'].insert(data)

运行后的结果:

几分钟爬到了8000条信息

代码短了很多,简洁了很多,还不用自己写进程池。下一步尝试进入主播房间获取贵族人数,礼物排行等更详细的信息。

转载于:https://www.cnblogs.com/lkd8477604/p/9840448.html

用pyspider爬斗鱼主播信息相关推荐

  1. scrapy 斗鱼 主播信息爬取

    原文链接: scrapy 斗鱼 主播信息爬取 上一篇: scrapy 妹子图网站 全站图片爬取 下一篇: TensorFlow models 的slim 模块 使用预训练模型进行识别 api http ...

  2. 使用selenium,xpath,线程池爬取斗鱼主播信息

    使用xpath,线程池爬取斗鱼主播信息: 主要爬取主播昵称,直播内容分类,房间名称,房间号以及人气,共爬取了大概110多页数据,大概15000条,保存在txt文本中, import timefrom ...

  3. Python爬虫获取斗鱼主播信息

    感谢参考原文-http://bjbsair.com/2020-03-27/tech-info/7150.html 下面我们进入正题 首先 我们进入斗鱼的官网 我发现首页是一些推荐的主播,并不全面,不能 ...

  4. Python爬虫实现获取斗鱼主播信息

    先下载安装Python以及其编写软件 https://www.python.org/downloads/ Python下载官网 选择版本 下面使用的版本为3.6.5 根据自己的操作系统的位数选择 打开 ...

  5. python爬取主播信息

    之前学过python的爬虫技术,现在回顾一下看看还会不会,果然有坑. 先爬取了微博评论网友的id 代码如下 import requests url = 'https://m.weibo.cn/api/ ...

  6. 使用scrapy爬取手机版斗鱼主播的房间图片及昵称

    目的:通过fiddler在电脑上对手机版斗鱼主播进行抓包,爬取所有主播的昵称和图片链接 关于使用fiddler抓取手机包的设置: 把手机和装有fiddler的电脑处在同一个网段(同一个wifi),手机 ...

  7. Python多线程爬虫,主播信息资料爬取采集

    头榜,一个集合主播信息及资讯的网站,内容比较齐全,现今直播火热,想要找寻各种播主信息,这类网站可以搜集到相关热门主播信息. 目标网址: http://www.toubang.tv/baike/list ...

  8. 斗鱼直播画面怎么弄到自己网页上_“集战!创界山勇者”斗鱼主播招募活动开始啦!...

    关注微信公众号:梦幻模拟战手游 Langrisser传说,由你书写! <梦幻模拟战>x<魔神英雄传>联动活动火热来袭!"小救星"战部渡与伙伴剑部武一郎.忍部 ...

  9. Python获取熊猫TVLOL栏所有主播信息以及人气排名

    今天爬取的网页为:熊猫TV LOL栏 一,分析网页: 一共6页,我们要想办法获取所有页的信息,所以F12查看网络请求,点击第二页: 发现了这个请求 这就是我们需要的东西 所以推测 pageno参数为第 ...

最新文章

  1. 页面中嵌入了Flash时滚动条问题
  2. ISE简介及其下载 安装 和谐 与 卸载
  3. myeclipse2019左侧工程目录字体的大小调整
  4. SpringCloud学习笔记012---CentOs7搭建高速缓存NoSql Redis单机服务_redis_4.0.1_或者redis_6.0.x_可自定义版本
  5. node.js 使用domain模块捕获异步回调中的异常
  6. 采用Visual Stuidio 2010 创建网站栏
  7. T-SQL语言(一)
  8. linux -- open /acess/ftruncate/lstat 函数
  9. openwrt增加内核模块的方法
  10. atmega328 48手动解锁 擦除
  11. 局域网聊天程序 java MySQL_局域网聊天软件设计与实现(Linux,C++,MySQL)
  12. 加拿大 大学 计算机硕士学费,加拿大各大学硕士学费的情况介绍
  13. oppo小布机器人_看这一篇就够了,1分钟带你了解OPPO小布的隐藏玩法!
  14. vcard 文件数据格式
  15. 【vijos】1770 大内密探(树形dp+计数)
  16. linkerd mysql_《Linkerd官方文档》在本地运行Linkerd
  17. js 统计输入的字数 不包括输入法中的字母
  18. 金融科技上市公司业绩爆发,三大业务趋势显现
  19. Unity脚本介绍和常用API
  20. 河南计算机专业最好的独立学院,河南省排名前十的大学-河南省民办大学排名-河南省独立学院排名...

热门文章

  1. efuse 加密文件 linux,开发者分享 | EFuse AES 密钥验证步骤
  2. 视频剪辑必备的三个素材软件
  3. 黑马程序员——C基础之石头剪刀布游戏
  4. 【Mysql】MySql中delimiter的作用
  5. Acer(宏碁)笔记本Windows10一些热键(大小写锁、数字锁、触控板)开关的悬浮提示
  6. 怎样能显示计算机的配置高低,电脑配置怎么看高低,电脑配置知识大全
  7. XP 与 敏捷开发的关系
  8. 史上最全的Java实体类VO,DTO,BO,DO解释
  9. http文件服务器(CentOS)
  10. [英雄星球六月集训LeetCode解题日报] 第五日 双指针