使用Python内置的`urlib`去爬取blbl

python内置的数据库，urlib，话不多说，上代码。

import random
import urllib.request
import urllib.parse   #调取三个库
urls = 'https://search.bilibili.com/all?'
#我们先为装成浏览器去爬取blbl，下面这个是浏览器内核
headers_list = [{ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'},{'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'}]
#random.choice随机取出来一个内核
headers = random.choice(headers_list)
name = input('请输入要搜索的b站内容')  #输入需要搜索的
start = int(input('请输入起始页数'))
end = int(input('请输入结束页'))
keyword = {'keyword':name}   # 把我们输入的转化成字典，你可能需要先去分析url#之后我们就可以把输入的内容转化成16进制的代码了,大部分搜索都是把文字转换成16进制的代码块
keyword = urllib.parse.urlencode(keyword)
#拼接url，分析网页把网页里提到的url拼接到一起，当然还需要分析一下每页的url变化
for a in range(start,end+1):   #据我分析blbl搜索的就是每一页都是&page=2这这种，一页对应一个数url = urls + keyword + '&page='+str(a)print(url)   #每循环一次打印一个urlred = urllib.request.Request(url,headers=headers)res = urllib.request.urlopen(red)hell = res.read().decode('utf-8')filename = '第' + str(a) + '页.html' with open(filename,'w',encoding='utf-8') as f:   #循环一次就保存一次网页源代码。print('正在爬取第%d页'%a)   ##显示一下爬取到第几页了f.write(hell)

上图是保存在同目录的网页源码
想要去爬取其他的网页还是先分析一下比较好，我们伪装成浏览器也是为了反爬。
```
                             ==欢迎点赞关注加收藏==
```

urlib爬取哔哩哔哩搜索相关推荐

Java爬虫爬取天猫淘宝京东搜索页和商品详情
Java爬虫爬取天猫淘宝京东搜索页和商品详情先识别商品url,区分平台提取商品编号,再根据平台带着商品编号爬取数据. 1.导包 <d ...
python搜索网页特定区域内容_Python爬取练习：指定百度搜索的内容并提取网页的标题内容...
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章源于白菜学python ,作者小白菜刚接触Python的新手.小白,可以复制下面的链接去 ...
爬取某音乐163平台搜索单曲及专辑音乐
我可太懒了,不想写过程了,直接贴代码吧,我尽量每句代码都写上备注,但是我实在是无心工作啊啊啊啊啊啊啊啊啊啊啊啊哪里有疑惑的地方,可以评论告诉我,大家一起探讨 spider文件 import exe ...
python tkinter界面多进程启动scrapy爬取百度贴吧的回复，显示爬取进度，并可以搜索回帖人，指定时间生成词云图，用pyinstaller打包成exe(七)
爬取单个帖子one_tiezi_spider.py ''' 这个是爬取单个帖子的爬虫大概思路: 1.进入该帖子的第1页,获取帖子的初始信息(标题.发帖人.tid.总页数)等 ...
爬取并下载用360搜索下雪的图片
''' https://image.so.com/i?src=360pic_normal&z=1&i=0&cmg=9cfc409470d5bd63c8b81518528743d ...
python爬取百度域名注册_python爬取百度域名_python爬取百度搜索結果url匯總
寫了兩篇之后,我覺得關於爬蟲,重點還是分析過程分析些什么呢: 1)首先明確自己要爬取的目標比如這次我們需要爬取的是使用百度搜索之后所有出來的url結果 2)分析手動進行的獲取目標的過程,以便以程序 ...
爬取中国知网搜索cnki.net
爬取cnki.net知网搜索页 import requests from lxml.html import etree url = 'https://kns.cnki.net/KNS8/Brief/G ...
新闻网站爬取汇总、搜索及可视化
0. 需要的模块 0.1 http包主要用于搭建HTTP服务端和客户端 0.2 fs包 0.2.1 导入fs模块 var js = require("fs"); 0.2.2 同步 ...
使用nodejs Crawler模块爬取页面dom数据，图片和视频等详解
使用 nodejs Crawler模块爬取页面数据 1. 安装 crawler 模块 2. 创建爬虫对象,开始爬取 3. 爬取文件 3.1 爬取页面结构dom树 3.2 爬取页面的图片 4. 爬取视 ...

urlib爬取哔哩哔哩搜索

使用Python内置的`urlib`去爬取blbl

urlib爬取哔哩哔哩搜索相关推荐

最新文章

热门文章

urlib爬取哔哩哔哩搜索

使用Python内置的urlib去爬取blbl

urlib爬取哔哩哔哩搜索相关推荐

最新文章

热门文章

使用Python内置的`urlib`去爬取blbl