前段时间又被人问了会不会爬虫,然后感觉现在爬取数据好像还是挺有用的,所以就在网上找了课程学习了一下,利用Python对网站进行爬取和解析等等。原来使用过八爪鱼这个软件,不太需要有什么编程基础,但是也已经忘得差不错了,所以就想着学习利用Python进行爬取。

目录

  • 一、对爬虫的理解:
  • 二、爬取网页
    • 1.模仿浏览器
    • 2.实例分析
      • (1)代码
      • (2)获取浏览器User-Agent
  • 总结

一、对爬虫的理解:

爬虫听上去似乎很高大上,其实简单一句话就是:模仿浏览器对网页进行访问并解析,进一步从中复制我们想要的信息,然后将其保存起来。

总共可以将其分为3个步骤:

  1. 爬取网页
  2. 解析数据
  3. 保存数据

这个时候我们就要想一想我们平时怎么使用浏览器浏览网页的,首先我们需要一个网址,然后回车后就会看到我们想看到的内容,然后利用鼠标点击进行点击相应的超链接进行进一步的访问。

接下来我们就要开启模拟浏览器访问数据了。

二、爬取网页

1.模仿浏览器

当浏览器对网址进行访问时,首先需要向服务器发送一个访问请求,并且将浏览器自身的一些信息发送给服务器,服务器接收到浏览器发送的信息之后开始检查,看这个“浏览器”是否有访问的权限,以及可以接受什么样的文件,然后服务器才能将信息发送到相应的浏览器上呈现给用户。

那么显而易见,我们现在要做的事情就是 模仿浏览器 给服务器发送信息:用户代理(User-Agent)!至于这个用户代理具体的含义以及用法还不是很清楚,但是可以简单的理解为我的浏览器的一个标志,表示我们是一个浏览器,而不是爬虫。

2.实例分析

下面以豆瓣为例,爬取前250名的高分电影的信息。其中需要导入一些包,包括网页解析、网页访问的和一些数据库操作的包。先来进行获取网页数据,对于解析和保存后面再慢慢学习。

(1)代码

# 导入所用到的包
from bs4 import BeautifulSoup      # 网页解析,获取数据
import re        # 正则表达式,进行文字匹配
import urllib.request,urllib.error    # 指定URL,获取网页数据
import xlwt      # 进行excel操作
import sqlite3   # 进行SQLite数据库操作# 主函数
def main():baseurl = "https://movie.douban.com/top250?start="# 1.爬取网页datalist = getData(baseurl)# 2.解析网页# 3.保存数据# 爬取网页函数
def getData(baseurl):datalist = []for i in range(0,10):n = str(i*25)   # 页数url = baseurl + n  # 每一页的网址html = askURL(url)  # 访问每一个网页的内容datalist.append(html)return datalist# 得到指定一个url的网页内容函数
def askURL(url):# 模拟浏览器头部信息,向豆瓣服务器发送消息(伪装)# 用户代理,表示告诉豆瓣服务器,我们是什么类型的机器/浏览器(本质上告诉浏览器,我们可以接受什么水平的文件内容)head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36"}request = urllib.request.Request(url, headers=head)html = ""try:response = urllib.request.urlopen(request)html = response.read().decode("utf-8")print(html)except urllib.error.URLError as e:if hasattr(e, "code"):print(e.code)if hasattr(e, "reason"):print(e.reason)return htmlif __name__ == "__main__":# 调用函数main()

(2)获取浏览器User-Agent

上面代码中需要说明的就是用户代理的那个变量head,可以直接在我们现有的浏览器中复制粘贴,打开一个网页,按F12键,然后点击Network,然后将网页刷新一下,点击红点暂停,点击一个请求,然后下拉到最后就会看到 User-Agent,直接复制粘贴过来即可!下面为操作截图。
1、打开网址

2、按F12键,然后点击Network

3、刷新网页

4、点击请求

5、复制粘贴User-Agent

总结

以上就是对网页访问的的一个基本的操作和代码,只实现了网页的简单访问,对于网页的解析和数据的保存后续在慢慢学习!

Python爬虫基础 爬取网页 访问网页相关推荐

  1. Python爬虫基础--爬取王者荣耀英雄皮肤图片

    文章目录 思路分析 涉及到的知识点 Json数据说明 `herolist.json`:英雄列表 皮肤图片尺寸分析 程序说明 代码 结果(数据)分析 声明 这里只是简单介绍主要内容,详见github,仓 ...

  2. python爬虫基础爬取猫眼电影

    爬取猫眼电影排行榜第一页 import requests from requests.exceptions import RequestException from sqlalchemy import ...

  3. python爬虫之爬取网页基础知识及环境配置概括

    记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...

  4. python爬虫实现爬取网页主页信息(html代码)

    python爬虫实现爬取网页主页信息(html代码) 1.爬取网站源码 urllib整体介绍: urllib是一个包,收集几个模块来处理网址 urllib.request打开和浏览url中内容 url ...

  5. python爬取网页表格数据匹配,python爬虫——数据爬取和具体解析

    标签:pattern   div   mat   txt   保存   关于   json   result   with open 关于正则表达式的更多用法,可参考链接:https://blog.c ...

  6. python爬取ajax动态内容肯德基门店,Python爬虫如何爬取KFC地址

    随着人们生活水平的提高,肯德基这类的快餐消费的十分火爆,成为小朋友和年轻人的最爱,我们到一个地方想要找到肯德基店面,会根据导航获取肯德基地址,那你知道我们也可以使用python爬虫获取KFC地址吗?我 ...

  7. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  8. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  9. Python爬虫 图片爬取简陋版

    Python爬虫 图片爬取简陋版 因为在自学Python 学了几天打算写一个爬虫,后来发现学的python的基础还要学库 于是花了好长时间查资料 终于写出来一个简陋版本的 东拼西凑还真让我搞成了 下面 ...

最新文章

  1. (C++)1002 A+B for Polynomials
  2. java实现线性表的顺序存储
  3. 身份证丢失后被刷脸欠上万贷款,银行:人脸识别到就是你借的!
  4. 杨桃32开发版最小核心板和底板接口定义以及各io口功能
  5. UNIX下C语言的图形编程-curses.h函数库
  6. 1024程序员福利日 | 网易云送暖心礼包,只要你是程序员
  7. Touch - 全能名片王
  8. c语言模拟试题快速排序,快速排序(东软喜欢考类似的算法填空题,又如堆排序的算法等)...
  9. 数据库存储 层次、树形结构 的标准做法
  10. Android 提高 5 SurfaceView绘图容器的基本使用
  11. 单机安装DynamicsAX2012R3VM
  12. ubuntu下载linux源码
  13. 史上最全天气数据接口包括环境、气象、预警、水文、预报、实况、格点,落区、等值面、雷达、云图、空气质量实况及预报、气候统计、雷电分布、灾害性天气、短临预报、航空气象、农业气象、旅游气象、生活指数等
  14. Android 应用瘦身
  15. arcgis裁剪失败
  16. 防护器件TVS管基础知识
  17. 领导邀请一起跳槽?搞清楚这5件事再决定
  18. 直播软件搭建时如何在视频通话中加入美颜处理
  19. 怎么将几张pdf合并成一张_怎么把多个PDF文件合并成一个
  20. MySQL数据库性能优化--数据分库分表

热门文章

  1. 洛谷3376 网络最大流
  2. 阿里闲鱼App服务端在ServiceMesh的探索和实践
  3. 组播IP地址的使用范围规定
  4. Linux入门--变量的使用
  5. 前端text(),html() ,val()的区别以及共同点
  6. 对于技术合伙人来说,这才叫蓝瘦香菇!
  7. 一文快速读懂 KEGG 数据库与通路图
  8. 中国智慧港口市场发展态势及前景趋势分析报告2021-2027年
  9. 3.(20分)HTML文件是(),全国2009年4月高等教育自学考试网页设计与制作试题
  10. 新员工班组级安全教育培训(74页)PPTX(附下载)