前言

在我们写文章(博客、公众号、自媒体)的时候，常常觉得自己的文章有些老土，这很大程度是因为配图没有选好。

笔者也是遇到相同的情况，顺便解决其中一个案例，给大家一些技术上的参考和借鉴！

并且，我们搜图片如果去百度，会遇到两种情况：非高清或者带水印。这都是我们所忌讳的东西。笔者此次通过图虫创意抓起高清小图，虽然不是大图，但是在火热的移动端阅读上是足够的！

分析

废话说完了，我们开始分析怎么样才能获取这样的图片呢。

理想状态

我们的理想状态就是一个网页，我们的目标网页，把图片<img src="xxxxxx">直接放到html中。我们的爬虫可以直接解析。这种情况，就像你写的博客，个人网站的图片一样，简单嵌入。
或者就是通过后台ajax传输图片地址引用。我们不清楚是否这样！

实际分析

但事实这种肯定会被理想破灭，因为不可能！他以图片为核心业务，要你注册，购买等等，怎么可能就这么容易的嵌入进入被你找到。
那它到底如何实现呢？我们分析一下！

首先打开网页，检查图片，发现它的网页图片来源不唯一。有两个主要域名ice和wel，并且后面的编号还不唯一，但是可以尝试发现相同域名不同后缀的图片地址结果相同！（例如icweiliimg9和icweiliimg/效果相同）。

我们发现原来这个搜索url会变化，但是这个查看网页源代码发现并没有我们想要的图片地址。那么我们肯定知道它要么从ajax渲染，或者就藏在js中进行混淆或者加密。我们发现这个xhr中并没有想要的数据，并且他其实藏在js中。其实这个可以猜想到的，因为它的url既然跟着变化那么返回的数据肯定是有区别的。

那么分析就到这里，剩下就是python爬虫的模拟和解析了。

爬虫实现

前面说到已经知道它的数据源，我们用python编写爬虫需要进行模拟。经过测试发现它需要进行一些验证，其中包过cookie的wluuid字段（只验证存在，不验证正确性）。

那么我们编写一段代码就能拿到网页html。但是问题来了。数据藏在js里面啊！！！

我们只能用正则进行套了！
对于这个js，我们通过js=soup.select('script') js=js[4]即可获取。

对于有用数据，只能正则截取。

 pattern = re.compile(r'window.hits = (\[)(.*)(\])')va = pattern.search(str(js)).group(2)#解析js内容

但是这个类似json的串用,拼接我们无法直接使用spilt分组分开，但是我们可以从}全部替换成},,那么就三个,,,我们就可以分割而不影响其他json串内,；split之后每组都满足json串格式，直接转成json取值即可！

那么剩下拿到url直接构造url然后下载图片即可！

其他注意

图片下载：

下载图片有很多图片无名称或者名字相同，避免这个不下载要进行编号
两个url域名需要尝试下载其中一个成功即完成下载！

爬虫方面

全程不需要登录，下载为高清小图。后续可以考虑研究登录后的大图分享给大家！

其他

創建图片路径要考虑路径是否存在！

效果与总结

通过上述分析：编写爬虫：

测试结果：

打开文件夹：

发现nice！你只需要输入关键词即可实现自动下载，虽然是小图，但是效果不错！
移动端公众号和csdn效果！

不难发现，整个过程就是分析和处理字符串的逻辑难点。数据结构与算法扎实了处理问题都不难，！所以，如果要学习数据结构与算法，爬虫请关注我吧！公众号：bigsai

转载于:https://www.cnblogs.com/bigsai/p/11438619.html

写博客没高质量配图？python爬虫教你绕过限制一键搜索下载图虫创意图片！相关推荐

写文章没高质量配图？python爬虫绕过限制一键搜索下载图虫创意图片！
文章目录前言分析理想状态实际分析爬虫实现其他注意效果与总结前言在我们写文章(博客.公众号.自媒体)的时候,常常觉得自己的文章有些老土,这很大程度是因为配图没有选好. 笔者也是遇到相同 ...
python博客访问量_史诗级干货-python爬虫之增加CSDN访问量
AI 人工智能史诗级干货-python爬虫之增加CSDN访问量史诗级干货-python爬虫之增加CSDN访问量搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事' 获取更多算法. ...
值！一篇博客，容纳11个Python爬虫案例总结，《爬虫100例》专栏第6篇复盘文章
文章目录案例 29:手机 APP 数据采集案例 30:高考派大学数据采集案例 31:36 氪(36kr)数据抓取 scrapy 案例 32:B 站博人传评论数据抓取 scrapy 案例 33:& ...
试写博客:可匿名聊天，腾讯QQ6.3（12390）新版下载
9月12日消息,腾讯QQ开发团队小幅更新了QQ6.3正式版,最新版本号升级至12390,诚邀您来体验.这次,QQ 6.3最新版继续主打酷炫效果的天气图标,支持QQ群匿名聊,大胆表达你的真实想法.‍ 腾 ...
学无止境，笔不停耕----写博客两周年的一些感悟
从翻译开始在 CSDN 注册博客其实已经 3 年.动机是在学习Shiro 的时候,翻译了几篇官方文档.个人觉得这几篇文档写的很不错,但是英文不好的同学阅读起来会比较费劲.另外,翻译的过程也比较费时. ...
Markdown编辑器写博客
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法代码块高亮图片链接 ...
我在博客园写博客的原因
我为什么会在cnblogs上写博客.. CSDN上我上传过代码被很多网友下载过.CSDN我申请过博客.也写过几篇博客. 开源中国我上传过代码.代码也被网友下载过.OSChina我申请过博客.也写过几 ...
使用Markdown编辑器写博客
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法代码块高亮图片链接 ...
明明很努力的写博客，为啥没人看？试试这些方法和工具（建议收藏）
前言写博客和公众号的部分兄弟们有时候是不是发现别人的文章内容没你的好,阅读量却比你的高很多,然后你总是吸引不到粉丝,无法上热榜呢(

写博客没高质量配图？python爬虫教你绕过限制一键搜索下载图虫创意图片！

前言

分析

理想状态

实际分析

爬虫实现

其他注意

效果与总结

写博客没高质量配图？python爬虫教你绕过限制一键搜索下载图虫创意图片！相关推荐

最新文章

热门文章