爬虫小练习01—获取网站源码
第一步
明确自己需要爬取的网页网址URL
https://bbs.zol.com.cn/
第二步
引入requests库,使用request库发起请求
import requests
url = "https://bbs.zol.com.cn/"
r = requests.get(url)
r
此时若显示的状态码不是200,有可能是网站得知用户在使用爬虫程序访问, 禁止你继续访问。故手动添加Headers,在Headers中, User-Agent 项会记录用户的使用系统和浏览器版本,伪装成一个普通的用户
User-Agent查找方式:(查找自己的电脑)
修改后代码:
import requests
url = 'http://bbs.zol.com.cn/'
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
r = requests.get(url, headers = headers)
r
第三步
# 查看网页的源代码
r.text
若我们采集到的网页源码中的中文部分没有正常解析,有可能是网页编码格式不正确
# 这里显示出的编码是我们解析网页使用的编码
r.encoding
# 使用appent_encoding 用软件推测网页编码
r.apparent_encoding
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding
然后重新查看网页源码
完整代码
import requests
# 访问的网址
url = 'http://bbs.zol.com.cn/'
# 字典格式的变量
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
# 固定语法(和请求的网页相关的内容,都封装在了r中)
r = requests.get(url, headers = headers)
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding
#查看网页源代码
r.text
# 访问的消息头
r.headers
# 获取状态码
r.status_code
爬虫小练习01—获取网站源码相关推荐
- 站长便民小工具引流网站源码_站长引流工具箱
介绍: 站长便民小工具引流网站源码,站长引流工具箱,内附各种实用小工具,接口是别人的. 可以使用 网盘下载地址: http://kekewl.cc/atT7j70pUXI 图片:
- javaweb JAVA JSP 流浪狗管理系统(宠物狗管理系统)jsp小宠物在线管理网站源码
JSP 流浪狗管理系统(宠物狗管理系统)jsp小宠物在线管理网站源码 大家好,很高兴和大家分享Java项目和经验.不管同学们是出于什么需求.都希望各位计算机专业的同学有一个提高. 本系统采用eclip ...
- xss实现获取网站源码
当网站cookie设置了httponly,xss获取不到到网站的cookie.但是我们是可以获取到网站后台的url. 这时候我们可以xss得到网站后台源码,从而找到网站后台的一些敏感操作:添加用户,删 ...
- 在线小工具箱引流网站源码
源码介绍: 在线工具箱源码+多款有趣的在线工具+一键安装 测试环境:nginx+php5.6+mysql5.5 网盘下载地址: http://www.bytepan.com/dvnvgK86lUs ...
- 【python】python获取网站源码失败,出现一堆script脚本内容
问题原因 网站开启了防爬虫,爬取的设置,通过头部的cookie和User-Agent判断 解决流程 在头部设置以下内容 def ask_url(url,method):proxies = {" ...
- 好看的随机小姐姐404页面网站源码
介绍: 调用自动获取小姐姐图片,shua新一次更换一次,挺美观的! 网盘下载地址: http://kekewangLuo.net/BjuynFXkdoq 图片:
- 仿站小工具(获取网站源资源)
仿站小工具 仿站小工具是通过网址下载静态网页的工具.从输入的网址下载html代码,提取出JS.Css.Image.Picture.Flash等静态文件网址,再从下载完好的Css代码中提取出Image静 ...
- Android使用webview获取百度百家号网站源码
Android使用webview获取网站源码 最近在使用webview去获取网页的源码,但是对于百度百家号的文章,网页的源代码获取出来只要标题,内容不见了,想问问有没有大佬知道这个问题.去用pytho ...
- CTFhub网站源码
CTFhub网站源码 前言 一.获取网站源码 1.1 使用python获取源码 1.2 使用dirsearch获取源码 二.得到flag 备份文件字典 前言 在网站开发的时候,一般都会把网站源码放到服 ...
最新文章
- Oralce null
- androidEditTextinputType及android:imeOptions=”actionDone”(转)
- Tableau实战系列数据连接及数据准备
- CSS学习03之基本选择器
- 实时获取ccd图像_四元数数控:CCD视觉检测定位系统在玻璃瓶缺陷的检测
- Chipmunk僵尸物理对象的出现和解决(七)
- android截图canvas为空,html2canvas截图空白问题的解决
- 设计模式-Singleton
- Jsoup解析body片段
- unity3d Aniso Level 摄像机近地面清楚,远地面模糊
- VScode单步跟踪Nginx(虚拟机中搭建Nginx)源码
- marlab中主成分得分怎么求_成考数学不可触碰的雷区和得分技巧(纯干货)
- ansys计算机热仿真,[计算机软件及应用]ansys热分析教程.ppt
- 中国天气预报API城市编号
- admin5-用户管理
- 《.NET程序员面试秘籍》读书笔记
- 国际:十种学习新技术的方法
- 极速办公(PPT)如何修改文字为斜体
- 除夕将至,快来定制你的春节头像叭
- 杨宁反思创业痛点:没有将项目和公司坚持下去