偷偷溜出来写个笔趣阁爬虫
- 爬笔趣阁的,或许有点小bug,权当过过手瘾
- 害,居然打不出代码块,就这样好了
import requests
import random
from lxml import etree
import time
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
def getContent(url):try:req = requests.get(url = url,headers = headers,timeout = 30)req.encoding = req.apparent_encodinghtml = etree.HTML(req.text)content = ""for each in html.xpath("//div[@id ='content']/text()"):temp = "".join(each.split())if temp !="":content +="\n"+temptitle = html.xpath("//div[@class='bookname']/h1")[0].textexcept:print("再次尝试")return getContent(url)return title,contentdef getNovel(url,name):with open("./{}.txt".format(name), "w") as f:req = requests.get(url = url,headers = headers)req.encoding = req.apparent_encodinghtml = etree.HTML(req.text)lis = html.xpath("//div[@id = 'list']/dl/dd/a/@href")length = len(lis)for index in range(length):if index % 100 ==0:time.sleep(5)else:time.sleep(random.uniform(0,1))con_url = "http://www.xbiquge.la"+lis[index]title,content = getContent(con_url)f.write("\n")f.write(title)f.write("\n")f.write(content)print("已完成:"+str(index/length))if __name__ == '__main__':url = "http://www.xbiquge.la/10/10489/"getNovel(url,"三寸人间")
偷偷溜出来写个笔趣阁爬虫相关推荐
- 笔趣阁爬虫(2020重制版),贴心的操作,谁用谁知道
支持正版,一切只为学习 之前写的笔趣阁爬虫有不少同学说不能爬了,我后来发现是网站改版的缘故,前些日子把书里的爬虫项目都整的差不多了,现在又有些不知道爬什么好了,刚好在这段时间把笔趣阁爬虫代码重写一下. ...
- 用python60行代码写一个简单的笔趣阁爬虫!三分一章?
前言 利用python写一个简单的笔趣阁爬虫,根据输入的小说网址爬取整个小说并保存到txt文件.爬虫用到了BeautifulSoup库的select方法 结果如图所示: 本文只用于学习爬虫 一.网页解 ...
- 初学爬虫-笔趣阁爬虫
import requests from lxml import etree base_url=input("请输入小说url:") #如春日宴的url为https://www.x ...
- python爬取小说写入txt_Python BeautifulSoup 爬取笔趣阁所有的小说
这是一个练习作品.用python脚本爬取笔趣阁上面的免费小说. 环境:python3 类库:BeautifulSoup 数据源:http://www.biqukan.cc 原理就是伪装正常http请求 ...
- python爬取笔趣阁
闲来无事,看到别人爬取笔趣阁,我也来试试. 首先打开笔趣阁网站 随便找本书看看 先查看网页源码,发现 这里显示的章节都可以从源码中找到 随便找个链接点进去发现是每一个章节.然后对章节查看源码,发现是静 ...
- 【爬虫专栏18】多线程爬笔趣阁遮天
import threading import time import requests import re from queue import Queue#需要注意这里多线程并没有解决 header ...
- python爬取小说爬取_用python爬取笔趣阁小说
原标题:用python爬取笔趣阁小说 首先打开笔趣阁网址,链接,搜索自己想要的小说. 在网站内单击右键,点击检查,会出现如下界面! 我们需要的章节信息就在我划的这块, 可以将每个标签点一下,它对应的内 ...
- xpath爬取笔趣阁小说
from lxml import etree from fake_useragent import UserAgent import requests import os # import re # ...
- 1.4 爬虫-笔趣阁获取小说例子
#笔趣阁网站 # 1.模拟搜索 # 2.图书查询-章节 # 3.获取章节-内容 # 4.本地存储:txt.mysql.def searchBook():print("************ ...
最新文章
- python【数据结构与算法】一维前缀和与差分
- swing之单选框和复选框
- python管理图片_Django 管理图片
- springmvc.xml 中 url-pattern/url-pattern节点详解
- 学习编程的基础四大件
- 大二第一学期期末课程设计 2015.12.28
- Linux串口编程_termios
- MySQL之View(视图)
- ControllerBrokerRequestBatch分析
- JAVA常用API或编程工具001---ITEXT把html转换成pdf的jar包,使用Java将HTML转换为PDF
- LeetCode_database刷题记录(181. 超过经理收入的员工)
- shell脚本中的逻辑判断、文件目录属性判断、if特殊用法、case判断
- iphone怎么查看wifi密码_怎么查看电脑连接的wifi密码?2种方法分享给大家!
- launchpad乐器_PreSonus 发布 ATOM 打击垫控制器(视频)
- 轻量级高并发物联网服务器接收程序源码(仅仅是接收硬件数据程序 ,没有web端
- 怎样用计算机命令提高网速,老司机教你电脑网速慢怎么办
- MAC OS下免费下载YouTube
- mysqlfrm初步使用
- 【设计模式】2.工厂模式
- iOS使用第三方AppleID账号