手把手教你python--爬取网站首页（学生必看）

安装requests模块

在pycharm中安装requests模块

pytharm -> 文件 -> 设置 -> 项目：“项目名” -> Project Interpreter -> 右上角加号搜索requests -> 左下角Install Package -> 出现 installed successfully 代表模块安装完成

编写代码

创建python文件并导入requests模块

import requests

定义需要请求的url地址（此处我们以bd首页举例）

url = 'http://www.（需要爬取的网站）.com'

设置header头对象（每个人的header头内容都不同，这个需要大家去使用自己的）

headers对象为我们在使用pycharm的requests模块发送请求时携带的头文件，根据此头文件服务器可以分析用户的各项参数。

而代码中的User-Agent属性可以理解为是我们自己浏览器的一张名片，我们向服务器发送请求时需要把名片也一起给到服务器。

这就需要我们进行伪装来证明我们使用的是真实的浏览器进行访问而非爬虫程序，如不进行伪装则会被识别成爬虫拒绝访问。

那么接下来就是我们需要把代码中的User-Agent修改为自己浏览器的User-Agent，修改的时候要注意对象是键值对的形式。

打开任意浏览器进入任意网站 -> 右键点击“检查” -> 点击 network 或网络 (如空白请刷新页面) -> 在左下方小窗口划到最上方找到页面主文件 -> 点击第一个文件进入到右下方headers中 -> 滑到最下方找到User-Agent键值对，复制替换到下方的代码中即可

headers = {'User-Agent': 'User-Agent的值（需要自行替换）'
}

发送requests请求
使用 res 接收 requests.get 响应的数据（这里发送get请求时携带url地址和headers头）。

res = requests.get(url=url,headers=headers)

筛选需要数据
发送 get 请求由于服务器响应回的只是一个请求成功的状态码 <Response [200]> 故我们需要对 res 进行重新赋值。
由于这里 res.content 为二级制格式的数据，故我们需要对他进行转码操作（二进制转utf8），这里使用 decode() 方法。

res = res.content.decode()

把目标数据输出在控制台

print(res)

完整代码

import requests# 1.获取数据
url = 'http://www.（需要爬取的网站）.com'# 请求头文件
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
}res = requests.get(url=url,headers=headers)res = res.content.decode()print(res)

总结：

python是一个强大且相较于其他语言入门容易的语言，由浅入深的学习过程中可以不断通过即时反馈和各种各样挑战让你增加对他的兴趣程度，非常适合学生学习。人工智能的大时代下学会python能让你在不管是工作还是生活中都事半功倍，本人第一次发布文章，能帮助到大家是我最大的心愿，欢迎各位在评论区畅所欲言，如有欠缺还请各位大佬多多指教。