爬虫的分析方式

爬网页爬的是数据，如果是简单的html网页，可以通过chrome分析请求连接然后通过scrapy获取想要的数据，主要是xpath和正则表达式的使用；
如果是对网页的无目的搜寻式爬取，可以获取request返回的内容中所有超链接然后不停地爬下去；
如果是对一个网页的指定数据的爬取，直接可以定位到页面元素然后获取；
如果是动态的js渲染的页面，通常直接分析js的渲染结果比较麻烦，这时候可以借助selenium+chromeheadless来进行数据爬取。

selenium的使用注意

使用selenium时常常需要等待页面加载，注意其三种等待方式：

强制等待:

time.sleep(xxx);

隐性等待：

implicitly_wait(xxx);

这种等待方式对driver的整个生命周期都起作用，一次设置整个周期都遵从，因此往往会使等待时间变得很长

显性等待：

webDriverwait().until(xxxxx);

可以定时检查等待条件是否满足然后判断是否往下执行代码

手机和电脑客户端的网页

例如：
windows 客户端:
user_agent = ‘Mozilla/5.0 (Windows NT 6.3; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0’
iphone客户端：
user_agent = ‘Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A403 Safari/8536.25’
android 客户端:
user_agent = ‘Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13’
chrome浏览器开发者工具可以伪装一些平台的浏览器

ps:安装selenium和chromeheadless的链接install selenium

Python爬虫的一点实践相关推荐

python爬虫项目实训报告背景_项目实战 | Python爬虫概述与实践（一）
目录 1 定义 2 分类 3 基本流程 4总结 1 定义爬虫,又称为网络蜘蛛.网络机器人等,简单来说,就是请求网站并提取数据的自动化程序,可以代替人工在互联网上收集数据. 2 分类通用网络爬虫搜 ...
python爬去百度百科词条_Python爬虫入门学习实践——爬取小说
本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...
Python爬虫实践-网易云音乐
1.前言最近,网易的音乐很多听不到了,刚好也看到很多教程,跟进学习了一下,也集大全了吧,本来想优化一下的,但是发现问题还是有点复杂,最后另辟捷径,提供了简单的方法啊! 本文主要参考 python编写 ...
python就业前景不好_Python就业前景好不好?学Python好找工作吗?【附资料全家桶—网络爬虫入门到实践】...
Python是目前市场上大家听说最多的编程语言吧,0基础小白学什么?当然Python,转行学什么?也是Python--那么Python的发展前景真的好吗?学完好找工作吗带领大家了解一下吧. 1.就业岗 ...
Python爬虫实战之12306抢票开源
今天就和大家一起来讨论一下python实现12306余票查询(pycharm+python3.7),一起来感受一下python爬虫的简单实践我们说先在浏览器中打开开发者工具(F12),尝试一次余票的 ...
实现Python爬虫的思路、原理
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云,作者:梧雨北辰是在学习Python基础知识之后的一次小小尝 ...
Python 爬虫获取 URP 教务系统学籍信息，你的信息正暴露在互联网中！
初衷本文旨在提醒同学们及时修改密码,增强保护个人隐私的意识,因此代码中一些关键数据以及校名等信息不会公开!复制粘贴文章中的代码不会爬到任何东西.只是作为学习 Python 爬虫的一点总结而已! 作者 ...
python数据分析案例2-1：Python练习-Python爬虫框架Scrapy入门与实践
本文建立在学习完大壮老师视频Python最火爬虫框架Scrapy入门与实践,自己一步一步操作后做一个记录(建议跟我一样的新手都一步一步进行操作). 主要介绍: 1.scrapy框架简介.数据在框架内如 ...
Python爬虫实践（入门篇）——抓取《天使降临到我身边》图片
今天就学了一下Python爬虫,于是想实践一下.刚好一周前在B站补完番<天使降临到我身边>--里面的小学生特可爱.情节也不错,心里就比较喜欢这部漫画,所以就想扒一些图片当壁纸.刚好,Pyt ...

Python爬虫的一点实践