第一步

明确自己需要爬取的网页网址URL

https://bbs.zol.com.cn/

第二步

引入requests库,使用request库发起请求

import requests
url = "https://bbs.zol.com.cn/"
r = requests.get(url)
r

此时若显示的状态码不是200,有可能是网站得知用户在使用爬虫程序访问, 禁止你继续访问。故手动添加Headers,在Headers中, User-Agent 项会记录用户的使用系统和浏览器版本,伪装成一个普通的用户
User-Agent查找方式:(查找自己的电脑)

修改后代码:

import requests
url = 'http://bbs.zol.com.cn/'
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
r = requests.get(url, headers = headers)
r

第三步

# 查看网页的源代码
r.text

若我们采集到的网页源码中的中文部分没有正常解析,有可能是网页编码格式不正确

# 这里显示出的编码是我们解析网页使用的编码
r.encoding
# 使用appent_encoding  用软件推测网页编码
r.apparent_encoding
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding

然后重新查看网页源码

完整代码

import requests
# 访问的网址
url = 'http://bbs.zol.com.cn/'
# 字典格式的变量
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
# 固定语法(和请求的网页相关的内容,都封装在了r中)
r = requests.get(url, headers = headers)
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding
#查看网页源代码
r.text
# 访问的消息头
r.headers
# 获取状态码
r.status_code

爬虫小练习01—获取网站源码相关推荐

  1. 站长便民小工具引流网站源码_站长引流工具箱

    介绍: 站长便民小工具引流网站源码,站长引流工具箱,内附各种实用小工具,接口是别人的. 可以使用 网盘下载地址: http://kekewl.cc/atT7j70pUXI 图片:

  2. javaweb JAVA JSP 流浪狗管理系统(宠物狗管理系统)jsp小宠物在线管理网站源码

    JSP 流浪狗管理系统(宠物狗管理系统)jsp小宠物在线管理网站源码 大家好,很高兴和大家分享Java项目和经验.不管同学们是出于什么需求.都希望各位计算机专业的同学有一个提高. 本系统采用eclip ...

  3. xss实现获取网站源码

    当网站cookie设置了httponly,xss获取不到到网站的cookie.但是我们是可以获取到网站后台的url. 这时候我们可以xss得到网站后台源码,从而找到网站后台的一些敏感操作:添加用户,删 ...

  4. 在线小工具箱引流网站源码

    源码介绍: 在线工具箱源码+多款有趣的在线工具+一键安装  测试环境:nginx+php5.6+mysql5.5 网盘下载地址: http://www.bytepan.com/dvnvgK86lUs ...

  5. 【python】python获取网站源码失败,出现一堆script脚本内容

    问题原因 网站开启了防爬虫,爬取的设置,通过头部的cookie和User-Agent判断 解决流程 在头部设置以下内容 def ask_url(url,method):proxies = {" ...

  6. 好看的随机小姐姐404页面网站源码

    介绍: 调用自动获取小姐姐图片,shua新一次更换一次,挺美观的! 网盘下载地址: http://kekewangLuo.net/BjuynFXkdoq 图片:

  7. 仿站小工具(获取网站源资源)

    仿站小工具 仿站小工具是通过网址下载静态网页的工具.从输入的网址下载html代码,提取出JS.Css.Image.Picture.Flash等静态文件网址,再从下载完好的Css代码中提取出Image静 ...

  8. Android使用webview获取百度百家号网站源码

    Android使用webview获取网站源码 最近在使用webview去获取网页的源码,但是对于百度百家号的文章,网页的源代码获取出来只要标题,内容不见了,想问问有没有大佬知道这个问题.去用pytho ...

  9. CTFhub网站源码

    CTFhub网站源码 前言 一.获取网站源码 1.1 使用python获取源码 1.2 使用dirsearch获取源码 二.得到flag 备份文件字典 前言 在网站开发的时候,一般都会把网站源码放到服 ...

最新文章

  1. Oralce null
  2. androidEditTextinputType及android:imeOptions=”actionDone”(转)
  3. Tableau实战系列数据连接及数据准备
  4. CSS学习03之基本选择器
  5. 实时获取ccd图像_四元数数控:CCD视觉检测定位系统在玻璃瓶缺陷的检测
  6. Chipmunk僵尸物理对象的出现和解决(七)
  7. android截图canvas为空,html2canvas截图空白问题的解决
  8. 设计模式-Singleton
  9. Jsoup解析body片段
  10. unity3d Aniso Level 摄像机近地面清楚,远地面模糊
  11. VScode单步跟踪Nginx(虚拟机中搭建Nginx)源码
  12. marlab中主成分得分怎么求_成考数学不可触碰的雷区和得分技巧(纯干货)
  13. ansys计算机热仿真,[计算机软件及应用]ansys热分析教程.ppt
  14. 中国天气预报API城市编号
  15. admin5-用户管理
  16. 《.NET程序员面试秘籍》读书笔记
  17. 国际:十种学习新技术的方法
  18. 极速办公(PPT)如何修改文字为斜体
  19. 除夕将至,快来定制你的春节头像叭
  20. 杨宁反思创业痛点:没有将项目和公司坚持下去

热门文章

  1. 【附源码】Python计算机毕业设计美食推荐系统
  2. 《深度营养》读书笔记
  3. 图像处理之图像像素相加
  4. JavaScript 调用本地exe文件
  5. JavaScript调用Python代码
  6. hp计算机如何重装win7,惠普笔记本重装win7系统教程
  7. QT creator使用(四):布局管理系统
  8. 架构师成长之路(5)--如何获取知识(方法)
  9. Debian Linux的简单网络设置
  10. 程序员如何快速实现财富自由?