HTML基础

本节主要讲述HTML的基本概念。爬取网页首先要对网页有基本了解,入门网页知识可以访问 w3c school 学习

1. 页面组成

一个页面通常由css,js和html元素构成,其中css定义了页面的样式,js负责完成动态页面渲染,html元素构成静态页面。

常见的html元素有文本元素text,超链接(一般形式a href='#)',图片(一般形式img src='img.png');css在页面中一般通过 div class='demo'的形式来引用;js以javascript标签形式引用。

常用的查看页面元素的工具是Chrome浏览器的‘审查元素’功能,一个典型的页面元素如下:

可以看出页面元素都是通过各种标签来组织的。

2. 静态页面和动态页面

网络上最初的web页面都是静态的html页面,页面元素比较简单都是一些文本,图片等信息的展示,但随着js和ajax等技术的发展,web页面逐渐呈现动态化。动态页面可以提供更好的用户体验但是增加了爬虫爬取的困难,对于动态页面,右键‘查看网页源代码’和Chrome下右键‘审查元素’看到的页面结构是不同的。‘审查元素’可以得到动态加载后的页面,在爬虫爬取时需要注意静态和动态页面的区别处理

3. get和post请求

简单来讲,一般访问网页是get请求,当需要发送数据给服务器时使用的是post请求。在爬虫中获取网页信息使用get请求,发送数据给服务器时(如登陆提交)使用post请求。

网页爬虫 html知识,python爬虫相关推荐

  1. python爬虫教程书籍-python爬虫有哪些书(python爬虫教程知乎)

    python爬虫有哪些书 python有哪?下面给大家介绍6本有关爬书: 更多Python书籍推荐,可以参考这篇文<想学python看哪些书> 1.Python网络爬虫实战 本书从Pyth ...

  2. python写爬虫的优势-python爬虫优势

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 一.爬虫是什么? 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节 ...

  3. python爬虫可以干什么-python爬虫能够干什么

    Python爬虫是用Python编程语言实现的网络爬虫,主要用于网络数据的抓取和处理,相比于其他语言,Python是一门非常适合开发网络爬虫的编程语言,大量内置包,可以轻松实现网络爬虫功能. Pyth ...

  4. python爬虫怎么赚钱-python爬虫怎么赚钱

    python爬虫是什么意思 网络爬虫的工作原理 网络爬虫,即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来 ...

  5. 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...

    [爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...

  6. python爬虫教程下载-Python爬虫入门教程!手把手教会你爬取网页数据

    其实在当今社会,网络上充斥着大量有用的数据,我们只需要耐心的观察,再加上一些技术手段,就可以获取到大量的有价值数据.这里的"技术手段"就是网络爬虫.今天就给大家分享一篇爬虫基础知识 ...

  7. python爬虫入门基础知识_【PYTHON】【爬虫】关于python爬虫的一些基础知识

    基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器 ...

  8. python爬虫需要哪些基础知识-【PYTHON】【爬虫】关于python爬虫的一些基础知识

    基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器 ...

  9. python爬取网页表格数据匹配,python爬虫——数据爬取和具体解析

    标签:pattern   div   mat   txt   保存   关于   json   result   with open 关于正则表达式的更多用法,可参考链接:https://blog.c ...

最新文章

  1. Elasticsearch 设置默认值的三种方式
  2. Javascript 中的 Function对象
  3. gridView总结
  4. 【知识图谱】知识图谱概论
  5. 基于 abp vNext 和 .NET Core 开发博客项目 - 给项目瘦身,让它跑起来
  6. ebs java并发_EBS中Java并发程序笔记(1)
  7. tomcat-servlet-AJAX最基础例子
  8. 2017.9.9 幸运数字 失败总结
  9. 1月16日英语计算机统考,高考英语听力首次机考16日开考
  10. McAfee Epo
  11. 空间换时间的数据结构问题
  12. 图片OCR进行在线的文字识别
  13. 【语音去噪】基于matlab软阈值+硬阈值+折中阈值语音去噪【含Matlab源码 530期】
  14. 关于python中的字符串映射转换
  15. JAVA数码宝贝_我的世界1.7.10数码宝贝
  16. 解决 Unexpected token u in JSON at position 0
  17. nginx: [error] invalid PID number ““ in “/app/nginx-1.16.0/logs/nginx.pid“
  18. IOS 解决WKWebView加载本地html资源文件异常处理
  19. “FCoE全解系列”之增强型以太网技术
  20. linux内核无法识别声卡,[求助]lspci能识别出声卡并显示出驱动,但aplay识别不出声卡...

热门文章

  1. 编写运行tomcat后出现中文乱码的情况
  2. 这些焊接缺陷,你遇到过多少?
  3. 2021年信号与系统期中考试的补测试题
  4. ESP8266访问网站-urequest get方法
  5. 树莓派(Raspberry Pi)内部发热测量
  6. java精确浮点型小数,java练习 计算n位可被浮点数精确表示的小数
  7. mmap映射大于4g的文件_iOS文件内存映射——MMAP
  8. java cache system_Java Cache System JCS(一) 使用方法
  9. 直流电路相关计算机,计算机专业用复杂直流电路习题(各种方法运用).doc
  10. 百度bae mysql_微信公众号开发第二课 百度BAE搭建和数据库使用