手把手教你python--爬取网站首页(学生必看)
安装requests模块
在pycharm中安装requests模块
pytharm -> 文件 -> 设置 -> 项目:“项目名” -> Project Interpreter -> 右上角加号搜索requests -> 左下角Install Package -> 出现 installed successfully 代表模块安装完成
编写代码
- 创建python文件并导入requests模块
import requests
- 定义需要请求的url地址(此处我们以bd首页举例)
url = 'http://www.(需要爬取的网站).com'
- 设置header头对象(每个人的header头内容都不同,这个需要大家去使用自己的)
headers对象为我们在使用pycharm的requests模块发送请求时携带的头文件,根据此头文件服务器可以分析用户的各项参数。
而代码中的User-Agent属性可以理解为是我们自己浏览器的一张名片,我们向服务器发送请求时需要把名片也一起给到服务器。
这就需要我们进行伪装来证明我们使用的是真实的浏览器进行访问而非爬虫程序,如不进行伪装则会被识别成爬虫拒绝访问。
那么接下来就是我们需要把代码中的User-Agent修改为自己浏览器的User-Agent,修改的时候要注意对象是键值对的形式。
打开任意浏览器进入任意网站 -> 右键点击“检查” -> 点击 network 或 网络 (如空白请刷新页面) -> 在左下方小窗口划到最上方找到页面主文件 -> 点击第一个文件进入到右下方headers中 -> 滑到最下方找到User-Agent键值对,复制替换到下方的代码中即可
headers = {'User-Agent': 'User-Agent的值(需要自行替换)'
}
- 发送requests请求
使用 res 接收 requests.get 响应的数据(这里发送get请求时携带url地址和headers头)。
res = requests.get(url=url,headers=headers)
- 筛选需要数据
发送 get 请求由于服务器响应回的只是一个请求成功的状态码 <Response [200]> 故我们需要对 res 进行重新赋值。
由于这里 res.content 为二级制格式的数据,故我们需要对他进行转码操作(二进制转utf8),这里使用 decode() 方法。
res = res.content.decode()
- 把目标数据输出在控制台
print(res)
完整代码
import requests# 1.获取数据
url = 'http://www.(需要爬取的网站).com'# 请求头文件
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
}res = requests.get(url=url,headers=headers)res = res.content.decode()print(res)
总结:
python是一个强大且相较于其他语言入门容易的语言,由浅入深的学习过程中可以不断通过即时反馈和各种各样挑战让你增加对他的兴趣程度,非常适合学生学习。人工智能的大时代下学会python能让你在不管是工作还是生活中都事半功倍, 本人第一次发布文章,能帮助到大家是我最大的心愿,欢迎各位在评论区畅所欲言,如有欠缺还请各位大佬多多指教。
手把手教你python--爬取网站首页(学生必看)相关推荐
- python爬取资料怎么样_手把手教你Python爬取新房数据
原标题:手把手教你Python爬取新房数据 项目背景 新房数据,对于房地产置业者来说是买房的重要参考依据,对于房地产开发商来说,也是分析竞争对手项目的绝佳途径,对于房地产代理来说,是踩盘前的重要准备. ...
- 手把手教你Python爬取女神套图
疲惫的生活里总要有些温柔梦想吧 目标URL:http://www.win4000.com/meinvtag4_1.html 爬取美桌网某个标签下的美女壁纸,点进详情页可以发现,里面是一组套图 一.网页 ...
- 从零开始,手把手教你python爬取美足船袜网!
目标网址:http://mzsock.com 美足船袜网 你懂得!! 这里先给大家介绍一个python自带的库 :urllib.request urllib.request --- 用于打开 URL ...
- 福利!手把手教你Python爬取女神套图
Python实战社群 Java实战社群 长按识别下方二维码,按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群▲ 作者:叶庭云 来源:凹凸数据 作者:叶庭云 CSDN ...
- 福利来了!手把手教你Python爬取女神套图
疲惫的生活里总要有些温柔梦想吧 目标URL:http://www.win4000.com/meinvtag4_1.html 爬取美桌网某个标签下的美女壁纸,点进详情页可以发现,里面是一组套图 一.网页 ...
- python如何爬取网页视频_快就完事了!10分钟用python爬取网站视频和图片
原标题:快就完事了!10分钟用python爬取网站视频和图片 话不多说,直接开讲!教你如何用Python爬虫爬取各大网站视频和图片. 638855753 网站分析: 我们点视频按钮,可以看到的链接是: ...
- python爬取网站时,一键获取headers、url等信息(真的是让我爬取网站时,省了不少力气,作为小秘密分享给大家喽)
python爬取网站时,一键获取headers.url等信息 (真的是让我爬取网站时,省了不少力气,作为小秘密分享给大家喽) 作为Python的使用者,我今天就和大家来分享分享我学习python的经验 ...
- python爬取网站的图片
python爬取网站的图片 本次爬取图片所需要用到的库:Requests库,BeautifulSoup库,正则表达式,os库. 思路:先爬一张图片,再爬一个网站的图片 先爬一张图片: 首先要得到这张图 ...
- python爬取网站源代码+图片
python爬取网站源代码+图片 需求分析 基础知识 正则表达式 python网络请求 文件读写 实现 基本思路 具体实现 结果 总结 需求分析 大部分有志青年都想建立属于自己的个人网站,从零开始设计 ...
- 如何利用python爬取网站数据
Python是一种非常适合用于网络爬虫的编程语言,以下是Python爬取网站数据的步骤: 1. 确定目标网站和所需数据:首先要找到需要爬取数据的网站,确定你需要爬取的数据是哪一部分. 2. 发送请求: ...
最新文章
- pytorch adam 源码 关于优化函数的调整 optimizer 调参 重点
- Linux下用Xdebug调试php
- 【Android 逆向】函数拦截实例 ( ③ 刷新 CPU 高速缓存 | ④ 处理拦截函数 | ⑤ 返回特定结果 )
- javascript修改CSS
- python数据对比找不同,不同模式间的数据比较技术
- 【产品经理求职攻略】10年产品人经验分享
- GraphPad Prism 9.3 更新内容,支持Monterey和Win11
- android 锁屏解决方案,Android 实现锁屏的较完美方案
- 739. 每日温度 golang
- Capistrano3 与 Mina
- (48)VHDL实现8位奇偶校验电路(process语句语句)
- UI设计优秀可临摹素材|网页设计头部技巧
- TypeScript 3.4 发布
- java pdf 加水印
- Sisyphus.js 自动保存草稿 用法
- 多模态机器学习概述及其音视频融合总结
- 字符编码和字符集基础知识
- ICLR2020 || 106篇深度强化学习顶会论文汇总
- 怎么看在手机上看hbo_HBO Max上播放的最佳中医电影(2020年6月)
- ORB-SLAM3中遇到的坑