一、查看网页

爬取数据的网页:https://m.qidian.com/rank/yuepiao/male?gender=male&catId=-1&yearmonth=201910

进入到网页我们发现这是一个动态加载的网页,当我们拖动下拉的时候,会有新的数据加载出来,同时网页url地址没有发生变化,如果我们直接爬取的话,只能爬取出几十行数据。这时候就需要别的方式来实现爬取所有的需要我们下拉才能爬取到的数据。

首先打开网页,F12打开开发者模式,拖动网页的下拉框,我们就会发现他动态加载数据的规律

https://m.qidian.com/majax/rank/yuepiaolist?_csrfToken=vwHSDjqNkaUOCWnWhu2mvDKXM9u9ETr58fpq3V9J&gender=male&catId=-1&yearmonth=201910&pageNum=1该地址只是最后的pageNum在变化,我们可以自己传值进去,我们想要多少数据就有多少数据。

二、爬取并解析

利用request爬取html,发现它是由json编码的对象,所以我们用json.loads()来读取数据。

读取数据后提取我们需要的内容并存入文件就ok了。

三、源代码

import json
import requestsurl = 'https://m.qidian.com/majax/rank/yuepiaolist?_csrfToken=vwHSDjqNkaUOCWnWhu2mvDKXM9u9ETr58fpq3V9J&gender=male&catId=-1&yearmonth=201910&pageNum='def getHtmlData(url):responseHtml = requests.get(url)hjson = json.loads(responseHtml.text) #读取页面的json数据,读出来相当于一个dict字典。print(hjson)a = hjson['data']['records']final_data = []for b in a:bName = b['bName']  # 书名bAuth = b['bAuth']  # 作者desc = b['desc']  # 简介cat = b['cat']  # 类型cnt = b['cnt']  # 字数rankCnt = b['rankCnt']  # 月票数singele_data = [bName, bAuth, cat, cnt, rankCnt, desc]final_data.append(singele_data)#把json数据写入到excel中output = open('qidiantop100.xls', 'a', encoding='utf-8')  #打开该文件以追加的方式进行写入#output.write('书名\t作者\t类型\t字数\t月票数\t简介\n')for i in range(len(final_data)):for j in range(len(final_data[i])):output.write(str(final_data[i][j]))  # write函数不能写int类型的参数,所以使用str()转化output.write('\t')  # 相当于Tab一下,换一个单元格output.write('\n')  # 写完一行立马换行final_data.clear()output.close()def main(start, end):for i in range(start, end):if i == 1:output = open('qidiantop100.xls', 'a', encoding='utf-8')output.write('书名\t作者\t类型\t字数\t月票数\t简介\n')output.close()getHtmlData(url + str(1))#print(url + str(1))else:getHtmlData(url + str(i))#print(url + str(i))#time.sleep(2) #执行等待,防止短时间内多次访问被禁。if __name__ == '__main__':main(1, 6)print("爬取完成!")pass

爬取起点中文网站原创风云榜小说排行相关推荐

  1. python爬虫之爬取起点中文原创小说排行榜

    学习python有段时间了,最近做了一个网上爬虫工具爬取起点中文原创小说排行榜数据,作为最近学习python的一个阶段性成果. 工具 对于做网络爬虫工具经常用到的就是chrome浏览器,主要用于抓取网 ...

  2. scrapy爬取起点中文网24小时热销榜单

    系列文章目录 第一章 scrapy爬取起点中文网24小时热销榜单. 文章目录 系列文章目录 前言 一.项目需求 二.项目分析 三.程序编写 1.编写item(数据存储) 2.编写spider(数据抓取 ...

  3. scrapy爬取起点中文网24小时热销榜单(将数据存到数据库)

    系列文章目录 第一章:scrapy爬取起点中文网24小时热销榜单 第二章:scrapy爬取苏州二手房交易信息 第三章:scrapy爬取QQ音乐榜单歌曲及豆瓣电影信息 第四章:scrapy爬取起点中文网 ...

  4. 网络字体反爬之pyspider爬取起点中文小说

    这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所以今天就给大家带来这篇---起点中文网小说爬取.可视化我们放到下一集. 加vx:tanzhouyiwan或qq群813622 ...

  5. 一周搞定scrapy之第一天--爬取起点中文小说网

    快速安装scrapy pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy 安装完成之后在cmd里面输入scrapy 如果出现以 ...

  6. Python爬取起点中文网月票榜前500名网络小说介绍

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  7. python爬取网络小说_Python爬取起点中文网月票榜前500名网络小说介绍

    观察网页结构 进入起点原创风云榜:http://r.qidian.com/yuepiao?chn=-1 老套路,懂我的人都知道我要看看有多少内容和页数需要爬. https://ask.hellobi. ...

  8. 【爬虫实战】Python 爬取起点热榜,再也不怕没有小说看了!

    最近看完一部小说<大奉打更人>,看得我热血沸腾.但是看完后,有选择困难症的我又不知道可以看什么了. 于是,我打算开发一个爬虫,爬取起点热榜. 一.导入所需库 我们使用 requests 来 ...

  9. 新闻爬虫及爬取结果查询网站的搭建(一)

    新闻爬虫及爬取结果查询网站的搭建(一) 实验要求 核心需求 技术要求 爬虫准备工作 Node.js 安装配置 vscode Request Cheerio简介 数据库存储 实验要求 核心需求 1.选取 ...

最新文章

  1. 第四层到第七层的高层交换技术及其应用
  2. 美图秀秀web开发文档
  3. mysql servicebroker_阿里云Kubernetes服务 - Service Broker快速入门指南
  4. Python之并行--基于joblib
  5. 双三次插值图像旋转_4K/8K电视中的超分辨率技术到底是啥?让我来告诉你(二-插值篇)...
  6. kingbase7获取唯一索引和子分区键的view
  7. 在ccs中添加芯片_985博导团队重大成果,涉及隐私保护领域,已在腾讯与京东、快手的业务中应用...
  8. 第八回 新年晚会艺压群芳 文理分科三人聚首[林大帅作品选]
  9. HDU2179--pi(麦金公式)
  10. 装机 --- Windows无法安装到这个磁盘,选中的磁盘具有MBR分区表。在EFI系统上,Windows只能安装到GPT磁盘
  11. C 语言之父,UNIX 系统之父 Dennis Ritchie (丹尼斯 里奇)于 10 月 9 日去世,享年 70 岁
  12. 异数OS 开放式闭源继承人协议
  13. HTML常见标签学习
  14. c语言结构体投票系统,结构体之投票系统
  15. SHU-“盛大游戏杯”第15届上海大学程序设计联赛夏季赛暨上海高校金马五校赛-K-购买装备
  16. Java入门,最全面最简单的Java基础教程
  17. IDEA的Translation翻译插件失效
  18. java学习笔记—java的学习路线
  19. Hive ,Hsql行转列、列转行实现
  20. 微服务应用性能分析实战14 互通有无:如何设计跨语言的 APM 交互协议?

热门文章

  1. vue.js devtools
  2. 【JAVA语言基础】
  3. mysql多对一[自用]
  4. BGP知识手册-华为-华三-思科
  5. imprecise external abort
  6. 20189220 余超《Linux内核原理与分析》第一周作业
  7. linux关闭计算机的命令是,关闭Linux计算机的命令操作
  8. android多线程讲解与实例
  9. ASP木马Webshell安全解决办案
  10. 房产微信小程序该怎么做?