使用Python内置的urlib去爬取blbl

  • python内置的数据库,urlib,话不多说,上代码。
import random
import urllib.request
import urllib.parse   #调取三个库
urls = 'https://search.bilibili.com/all?'
#我们先为装成浏览器去爬取blbl,下面这个是浏览器内核
headers_list = [{ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'},{'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'}]
#random.choice随机取出来一个内核
headers = random.choice(headers_list)
name = input('请输入要搜索的b站内容')  #输入需要搜索的
start = int(input('请输入起始页数'))
end = int(input('请输入结束页'))
keyword = {'keyword':name}   # 把我们输入的转化成字典,你可能需要先去分析url#之后我们就可以把输入的内容转化成16进制的代码了,大部分搜索都是把文字转换成16进制的代码块
keyword = urllib.parse.urlencode(keyword)
#拼接url,分析网页把网页里提到的url拼接到一起,当然还需要分析一下每页的url变化
for a in range(start,end+1):   #据我分析blbl搜索的就是每一页都是&page=2这这种,一页对应一个数url = urls + keyword + '&page='+str(a)print(url)   #每循环一次打印一个urlred = urllib.request.Request(url,headers=headers)res = urllib.request.urlopen(red)hell = res.read().decode('utf-8')filename = '第' + str(a) + '页.html' with open(filename,'w',encoding='utf-8') as f:   #循环一次就保存一次网页源代码。print('正在爬取第%d页'%a)   ##显示一下爬取到第几页了f.write(hell)


  • 上图是保存在同目录的网页源码

  • 想要去爬取其他的网页还是先分析一下比较好,我们伪装成浏览器也是为了反爬。

                                 ==欢迎点赞关注加收藏==
    

urlib爬取哔哩哔哩搜索相关推荐

  1. Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情

    Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情 先识别商品url,区分平台提取商品编号,再根据平台带着商品编号爬取数据. 1.导包 <!-- 爬虫相关Jar包依赖 --><d ...

  2. python搜索网页特定区域内容_Python爬取练习:指定百度搜索的内容并提取网页的标题内容...

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章源于白菜学python ,作者小白菜 刚接触Python的新手.小白,可以复制下面的链接去 ...

  3. 爬取某音乐163平台搜索单曲及专辑音乐

    我可太懒了,不想写过程了,直接贴代码吧,我尽量每句代码都写上备注,但是我实在是无心工作啊啊啊啊啊啊啊啊 啊啊啊啊 哪里有疑惑的地方,可以评论告诉我,大家一起探讨 spider文件 import exe ...

  4. python tkinter界面 多进程启动scrapy爬取百度贴吧的回复,显示爬取进度,并可以搜索回帖人,指定时间生成词云图,用pyinstaller打包成exe(七)

    爬取单个帖子one_tiezi_spider.py ''' 这个是爬取 单个帖子的爬虫 大概思路:          1.进入该帖子的第1页,获取帖子的初始信息(标题.发帖人.tid.总页数)等    ...

  5. 爬取并下载用360搜索下雪的图片

    ''' https://image.so.com/i?src=360pic_normal&z=1&i=0&cmg=9cfc409470d5bd63c8b81518528743d ...

  6. python爬取百度域名注册_python爬取百度域名_python爬取百度搜索結果url匯總

    寫了兩篇之后,我覺得關於爬蟲,重點還是分析過程 分析些什么呢: 1)首先明確自己要爬取的目標 比如這次我們需要爬取的是使用百度搜索之后所有出來的url結果 2)分析手動進行的獲取目標的過程,以便以程序 ...

  7. 爬取中国知网搜索cnki.net

    爬取cnki.net知网搜索页 import requests from lxml.html import etree url = 'https://kns.cnki.net/KNS8/Brief/G ...

  8. 新闻网站爬取汇总、搜索及可视化

    0. 需要的模块 0.1 http包 主要用于搭建HTTP服务端和客户端 0.2 fs包 0.2.1 导入fs模块 var js = require("fs"); 0.2.2 同步 ...

  9. 使用nodejs Crawler模块 爬取页面dom数据,图片和视频等详解

    使用 nodejs Crawler模块 爬取页面数据 1. 安装 crawler 模块 2. 创建爬虫对象,开始爬取 3. 爬取文件 3.1 爬取页面结构dom树 3.2 爬取页面的图片 4. 爬取视 ...

最新文章

  1. C#创建一个Windows Service
  2. HSV RGB颜色空间互转
  3. 【BZOJ1801】【DTOJ2004】 [Ahoi2009]chess 中国象棋 【DP】
  4. 前世今生:蚂蚁金服自研数据库OceanBase的道路与思考
  5. 8月份比亚迪纯电动汽车产销量双双超过3万辆 是去年同期3倍多
  6. php 环境优化,Nginx与PHP-fpm环境在大流量下的优化配置
  7. 5G 芯片的“春秋五霸”
  8. 【智能司法】可解释的Rationale增强罪名预测系统
  9. 山东科技大学计算机基础知识,山东科技大学_计算机操作系统试题
  10. python写入日志文件时日志内容重复写入
  11. WebShell --中国蚁剑,黑客之剑
  12. SJIS_DBC_TO_SBC小例子
  13. BOOST 升压电路调试笔记
  14. php empty是什么意思,php empty 和空字符串区别
  15. xp计算机无法正常启动,修复WindowsXP系统无法正常启动
  16. jQuery--样式操作(addClass()、removeClass()、toggleClass()、css())详解
  17. 6个步骤教你用Python解数独!(含实例代码)
  18. 1217: 青蛙(二)
  19. python 条形图填充疏密_python matplotlib模块: fill_between(填充曲线)
  20. mysql内循环是什么人_mysql循环

热门文章

  1. golang 没有名字参数_在 Golang 中用名字调用函数
  2. android 三段式加密,国密算法技术安全芯:海信推出全新金盾手机,7月7日预约...
  3. oracle 数据库组成部分(数据库(各种文件)+实例(SGA PGA + 后台进程))知识
  4. 数据库事务隔离级别有哪些?
  5. 实现django admin后台到xadmin后台的转变
  6. 自然语言处理库—Gensim之Word2vec
  7. CSDN20190131博客黑板报:萌猪来拜年啦!
  8. php对html加密,PHP&HTML:加密表格
  9. css属性之vertical-align
  10. 计算机网络 逻辑地址,逻辑地址