入门网络数据爬取,也就是Python爬虫

现实中我们使用浏览器访问网页时,网络是怎么运转的,做了什么呢?

首先,必须了解网络连接基本过程原理,然后,再进入爬虫原理了解就好理解的多了。

1、网络连接原理

如上图,简单的说,网络连接就是计算机发起请求,服务器返回相应的HTML文件,至于请求头和消息体待爬虫环节在详细解释。

2、爬虫原理

爬虫原理就是模拟计算机对服务器发起Request请求,接收服务器端的Response内容并解析,提取所需要的信息。

往往一次请求不能完全得到所有网页的信息数据,然后就需要合理设计爬取的过程,来实现多页面和跨页面的爬取。

多页面爬取过程是怎样的呢?

基本思路:

1、由于多页面结构可能相似,可以先手动翻页观察URL

2、得到所有URL

3、根据每页URL定义函数爬取数据

4、循环URL爬取存储

跨页面爬取过程是怎样的呢?

基本思路:

1、找到所有URL

2、定义爬取详细页函数代码

3、进入详细页获取详细数据

4、存储,循环完成,结束

3、网页到底是怎么样的呢?

右键选择“检查”,打开网页源代码,可以看到上面是HTML文件,下面是CSS样式,其中HTML中包含的部分就是JavaScript代码。

我们浏览的网页就是浏览器渲染后的结果,就是把HTML、CSS、JavaScript代码进行翻译得到的页面界面。有一个通俗的比喻就是:加入网页是一个房子,HTML就是房子的框架和格局,CSS就是房子的软装样式,如地板和油漆,javaScript就是电器。

如打开百度搜索,将鼠标移至“百度一下”按钮位置,右键选择“检查”,就可以看到网页源码位置。

或者直接打开右键源码,通过点击网页源码页面左上角鼠标状图标,然后移动到网页的具体位置,就可以看到。

总结一下:爬取数据就是发起请求,得到网页信息,然后找到你要的信息,但是在请求的过程中,很容易被反扒,禁止爬取动作,所以,需要很多技巧绕过反扒机制,这一点后续我们逐一解答。

--每天一小步,未来一大步!

python爬取网页原理_Python:爬虫原理和网页构造相关推荐

  1. python爬取空气质量指标_python爬虫之静态网页——全国空气质量指数(AQI)爬取

    首先爬取地址:http://www.air-level.com/ 利用的python库,最近最流行的requests,BeautifulSoup. requests:用于下载html Beautifu ...

  2. python爬取收费素材_Python爬虫练习:爬取素材网站数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 在工作中的电子文案.ppt,生活中的新闻.广告,都离不开大量的素材,而素材 ...

  3. python爬取cctalk视频_python爬虫urllib使用和进阶 | Python爬虫实战二

    python爬虫urllib使用和进阶 上节课已经介绍了爬虫的基本概念和基础内容,接下来就要开始内容的爬取了. 其实爬虫就是浏览器,只不过它是一个特殊的浏览器.爬取网页就是通过HTTP协议访问相应的网 ...

  4. python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图

    目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...

  5. 利用python爬取租房信息_Python爬虫实战(1)-爬取“房天下”租房信息(超详细)

    #前言html 先看爬到的信息:python 今天主要用到了两个库:Requests和BeautifulSoup.因此我先简单的说一下这两个库的用法,提到的都是此文须要用到的.编程 #Requests ...

  6. python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息

    1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author  ...

  7. python爬取多页_Python 爬虫 2 爬取多页网页

    本文内容: Requests.get 爬取多个页码的网页 例:爬取极客学院课程列表 爬虫步骤 打开目标网页,先查看网页源代码 get网页源码 找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...

  8. python爬空气污染实时数据_python爬虫之静态网页——全国空气质量指数(AQI)爬取...

    利用的python库,最近最流行的requests,BeautifulSoup. requests:用于下载html BeautifulSoup:用于解析 下面开始分析:要获取所有城市的aqi,就要进 ...

  9. python爬取bilibili弹幕_python爬虫:bilibili弹幕爬取+词云生成

    如果你懒得看下边的文字,我录了一个完整的教学视频在b站上. 我的B站教学:https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所 ...

  10. python爬取新闻网站内容_python爬虫案例:抓取网易新闻

    此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选的分类是国内新闻.然后鼠 ...

最新文章

  1. springboot+mybatis调用oracle存储过程
  2. caffe中的batchNorm层(caffe 中为什么bn层要和scale层一起使用)
  3. OAuth2.0学习(1-9)新浪开放平台微博认证-web应用授权(授权码方式)
  4. Antd 修改主题颜色2018 最新版 填坑记录
  5. Android开发之android studio快捷键大全
  6. hadoop-2.7.2 分布式集群搭建
  7. IntelliJ IDEA 2020.1 瞬间定位文件夹、文件
  8. web网页期末作业-在线教育
  9. 推荐收藏 | SLAM优秀开源工程汇总
  10. HTML学习笔记:设置超链接文本修饰
  11. 批量合并同一文件夹下工作簿-1
  12. Mirantis决定采用Kubernetes作为 Openstack的生命周期管理工具
  13. Ubuntu设置目录的读写权限(Linux命令chmod 777 dirName)
  14. Linux下安装MySQL8
  15. iOS:CoreData数据库的使用二(创建多个数据库表,表之间有对应关系)
  16. 提高效率:17款超赞的谷歌chrome浏览器插件、扩展程序
  17. 十分钟读完《金字塔原理》
  18. 连接SQLserver数据库发生错误,提示用户sa登录失败解决方法(亲试有用)
  19. 数据结构课程笔记1-水王问题
  20. 【推荐】阿里云主机accesskey利用工具

热门文章

  1. 差分运放检测电流电路
  2. AI绘图工具能取代设计师吗?
  3. 9、docker 容器的ssh连接
  4. 求两个List的交集和并集
  5. shell的if嵌套
  6. 北斗赋能,无人划线小车让智慧施工升级
  7. Python:什么是面向对象的编程?
  8. 湘潭校赛 Hard Wuxing
  9. JUSE-StatWorks是一个统计分析业务包
  10. Freelancer使用攻略