爬虫的分析方式

爬网页爬的是数据,如果是简单的html网页,可以通过chrome分析请求连接然后通过scrapy获取想要的数据,主要是xpath和正则表达式的使用;
如果是对网页的无目的搜寻式爬取,可以获取request返回的内容中所有超链接然后不停地爬下去;
如果是对一个网页的指定数据的爬取,直接可以定位到页面元素然后获取;
如果是动态的js渲染的页面,通常直接分析js的渲染结果比较麻烦,这时候可以借助selenium+chromeheadless来进行数据爬取。

selenium的使用注意

使用selenium时常常需要等待页面加载,注意其三种等待方式:

强制等待:

time.sleep(xxx);

隐性等待:

implicitly_wait(xxx);

这种等待方式对driver的整个生命周期都起作用,一次设置整个周期都遵从,因此往往会使等待时间变得很长

显性等待:

webDriverwait().until(xxxxx);

可以定时检查等待条件是否满足然后判断是否往下执行代码

手机和电脑客户端的网页

例如:
windows 客户端:
user_agent = ‘Mozilla/5.0 (Windows NT 6.3; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0’
iphone客户端:
user_agent = ‘Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A403 Safari/8536.25’
android 客户端:
user_agent = ‘Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13’
chrome浏览器开发者工具可以伪装一些平台的浏览器

ps:安装selenium和chromeheadless的链接install selenium

Python爬虫的一点实践相关推荐

  1. python爬虫项目实训报告背景_项目实战 | Python爬虫概述与实践(一)

    目录 1 定义 2 分类 3 基本流程 4总结 1 定义 爬虫,又称为网络蜘蛛.网络机器人等,简单来说,就是请求网站并提取数据的自动化程序,可以代替人工在互联网上收集数据. 2 分类 通用网络爬虫 搜 ...

  2. python爬去百度百科词条_Python爬虫入门学习实践——爬取小说

    本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...

  3. Python爬虫实践-网易云音乐

    1.前言 最近,网易的音乐很多听不到了,刚好也看到很多教程,跟进学习了一下,也集大全了吧,本来想优化一下的,但是发现问题还是有点复杂,最后另辟捷径,提供了简单的方法啊! 本文主要参考 python编写 ...

  4. python就业前景不好_Python就业前景好不好?学Python好找工作吗?【附资料全家桶—网络爬虫入门到实践】...

    Python是目前市场上大家听说最多的编程语言吧,0基础小白学什么?当然Python,转行学什么?也是Python--那么Python的发展前景真的好吗?学完好找工作吗带领大家了解一下吧. 1.就业岗 ...

  5. Python爬虫实战之12306抢票开源

    今天就和大家一起来讨论一下python实现12306余票查询(pycharm+python3.7),一起来感受一下python爬虫的简单实践 我们说先在浏览器中打开开发者工具(F12),尝试一次余票的 ...

  6. 实现Python爬虫的思路、原理

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:梧雨北辰 是在学习Python基础知识之后的一次小小尝 ...

  7. Python 爬虫获取 URP 教务系统学籍信息,你的信息 正暴露在 互联网中!

    初衷 本文旨在提醒同学们及时修改密码,增强保护个人隐私的意识,因此代码中一些关键数据以及校名等信息不会公开!复制粘贴文章中的代码不会爬到任何东西.只是作为学习 Python 爬虫的一点总结而已! 作者 ...

  8. python数据分析案例2-1:Python练习-Python爬虫框架Scrapy入门与实践

    本文建立在学习完大壮老师视频Python最火爬虫框架Scrapy入门与实践,自己一步一步操作后做一个记录(建议跟我一样的新手都一步一步进行操作). 主要介绍: 1.scrapy框架简介.数据在框架内如 ...

  9. Python爬虫实践(入门篇)——抓取《天使降临到我身边》图片

    今天就学了一下Python爬虫,于是想实践一下.刚好一周前在B站补完番<天使降临到我身边>--里面的小学生特可爱.情节也不错,心里就比较喜欢这部漫画,所以就想扒一些图片当壁纸.刚好,Pyt ...

最新文章

  1. 编译时遇到如下错误error C2061: syntax error : identifier 'THIS_FILE'
  2. hdu1716 排列2(排列生成算法)
  3. 区块链项目-Lisk
  4. python五十三:组合的方式完成授权
  5. JSP乱码解决(过虑器EncodingFilter)
  6. Windows异常学习笔记(一)—— CPU异常记录模拟异常记录
  7. NEFU 560 半数集
  8. 关于tensorflow的碎片
  9. 6 只能在公司代码xxxx的期间2020/08和2020/07中记账
  10. 自助银行服务系统项目开发_自助服务时代即将结束
  11. 宁夏公安打传销端窝点为春节保平安
  12. 中国特种可注射仿制药市场趋势报告、技术动态创新及市场预测
  13. winr8文件服务器,技术讨论 | Windows全版本提权之Win10系列解析
  14. docker任务调度工具: ofelia
  15. iOS 让UIButton根据文字内容自动计算宽高
  16. 使用C#的泛型队列Queue实现生产消费模式
  17. POJ 3415 Common Substrings(后缀数组 + 单调栈)题解
  18. 友情链接交换工具使用方法
  19. xapp1025仿真
  20. empty string mysql_Mysql中的null与empty string

热门文章

  1. android系统提供的几种颜色Color
  2. 森海塞尔经典老耳机的参数
  3. 电路板电镀中4种特殊的电镀方法
  4. mybatis使用RowBounds分页
  5. 操作系统——day5
  6. 蚂蚁mPaaS框架控制台打印 原生与h5交互数据 和 RPC接口返回数据 都是Unicode乱码如何处理
  7. 靶机测试Connect-the-dots笔记
  8. 深度剖析“App Store”模式(《通信世界周刊》版)
  9. CGB2102Web总结
  10. css 网页自适应方案 大屏自适应方案