文章目录

  • 前言
  • 分析
  • 网页分析
  • 总结

前言

上回我们通过分析实现了网易LOFTER图片的爬取,当时我们通过手动配置博主的三级域名实现爬虫。手动配置相对繁琐,为了解决这一问题,我们将进行版本升级。
在读此文之前建议先阅读:适合Python新手的爬虫练习:网易LOFTER图片爬虫(一)这篇文章。

分析

在升级之前,我们先进行以下思考:
问:我们需要什么?
答:我们需要三级域名
问:我们怎么获取三级域名?
答:获取方法有很多,可以尝试去抓包看看
问:有哪些方法可以实现?
答:方法有很多,我现在想到的方法中,我觉得有两个方法最靠谱,今天我们就讲讲其中一个简单的方法。

网页分析

当我们认可一个人的作品时,我们通常回去关注他。所有,这个方法是采集我们账号下关注的博主来实现爬虫,你想要谁的所有图片,你就关注谁。

开始分析

注册登录关注你要爬取的博主,这个我就不说了。传送门:网易LOFTER
登录后我们查看我们关注的博主:

在这里查看名为:UserBean.getUserFollowingList.dwr(谷歌翻译:用户Bean获取用户关注列表)

绿色区域是DWR数据,一个人的数据有十多行,我就不展示了。从之前项目中知道,我们需要博主id以及三级域名。
在这里我们通通可以获取到:

homePageUrl= ***    # 三级域名
blogId= ***        # id
blogNickName= ***  # 博主昵称(方便文件夹命名)

还有很多可以获取,自己慢慢琢磨吧。
有了这些信息加上上一篇的分析,我想你也知道怎么做了吧。

总结

如果你对这个项目感兴趣,可以去GitHub上下载,我已经将项目上传至GitHub,传送门:网易Lofter图片爬虫

你也可以添加我的微信,一起成长一起进步。

适合Python新手的爬虫练习:网易LOFTER图片爬虫(二)相关推荐

  1. 适合Python新手的爬虫练习:网易LOFTER图片爬虫(一)

    目录 前言 1. 网页分析 1.1 HTML分析 1.2 DWR分析 1.3 数据整合 2. 采集图片URL 3. 部分代码分享 总结 前言 大学毕业到现在已经快一年了,这一年时间里,我在家里待了半年 ...

  2. lofter 爬虫_Python网络爬虫1 - 爬取网易LOFTER图片

    LOFTER是网易出品的优质轻博客,灵感源于国外的tumblr,但比之更加文艺,更加本地化.本人非常喜欢LOFTER的UI设计,以及其中的优质用户和内容,似乎网易并不擅长推广,所以受众并不广泛.这都是 ...

  3. python可以做什么项目-适合Python 新手的5大练手项目,你练了么?

    已经学习了一段时间的Python,如果你看过之前W3Cschool的文章,就知道是时候该进去[项目]阶段了. 但是在练手项目的选择上,还存在疑问?不知道要从哪种项目先下手? W3Cschool首先有两 ...

  4. python新手练习项目_适合Python 新手的5大练手项目,你练了么?

    已经学习了一段时间的Python,如果你看过之前W3Cschool的文章,就知道是时候该进去[项目]阶段了. 但是在练手项目的选择上,还存在疑问?不知道要从哪种项目先下手? W3Cschool首先有两 ...

  5. python能做什么项目-适合Python 新手的5大练手项目,你练了么?

    已经学习了一段时间的Python,如果你看过之前W3Cschool的文章,就知道是时候该进去[项目]阶段了. 但是在练手项目的选择上,还存在疑问?不知道要从哪种项目先下手? W3Cschool首先有两 ...

  6. 爬虫网易LOFTER图片(适用于类似网页,如百度贴吧 )

    介绍:       网易有一个图片社交网站叫LOFTER (乐乎),网站中有大量的晒图,其中不乏有各种"美好"的图片,当然我指的是摄影师的作品.通过爬虫来爬取乐乎网站的图片,网站链 ...

  7. python编程经典案例-一个非常适合Python新手的编程案例——投票小程序

    想快速入门Python,实战才是捷径. 前面给大家介绍了新手学习Python最重要的一点,就是多动手,多练习,在实战中才能快速进阶.那么通常一个好的实战案例是会让大家的学习事半功倍的.假如你现在刚刚学 ...

  8. 深度爬取网易Lofter的爬虫

    这里的Lofter的工作是公司要的.主要目的是爬取大量用户的相册,之后做计算机视觉的训练集来用的.个人感觉这个是爬虫很常见的一个作用领域.(不过说实话,还是感觉有点low,觉得爬虫还是比较底层的工作. ...

  9. python批量下载色影无忌和蜂鸟的图片 爬虫小应用

    有些冗余信息,因为之前测试正则表达式,所以没有把它们给移走,不过不影响使用. # -*- coding:utf-8 -*- import re,urllib,sys,os,timedef getAll ...

最新文章

  1. 2016030204 - git和github结合
  2. pytorch 加载模型:
  3. python好还是c+-嵌入式系统中,Python与C/C++哪方更为适用?
  4. 生成drl文件_我如何通过编程方式生成.drl文件。任何示例对我都将有所帮助
  5. html风车相册代码,Css Html 大风车(示例代码)
  6. python羊车门_羊车门 python 作业
  7. Android的ArrayAdapter、SimpleAdapter、BaseAdapter与ListView的使用
  8. [转]淘宝sdk——入门实战之header.php制作(二)
  9. 深度残差网络(ResNet)详解与实现(tensorflow2.x)
  10. Win10 重装系统备忘
  11. 安装“万能解码器”还原真实“解码”
  12. 解读 AppStore 新功能:自定义产品页面和 A/B Test 工具
  13. ue4 点击某一物体触发事件_UE4引擎——姜小白修炼记(三)
  14. 连锁电商线上线下互融互推 店店互推电商方案
  15. 不清楚用电脑怎么图片转文字?来看看这三个方法吧
  16. python儿童编程培训班-重庆少儿Python编程培训班
  17. 浅谈![CDATA[ ]]
  18. 手把手教你写第一个C语言程序
  19. 你看好我国网约车生态吗?
  20. 含中文的URL复制到pycharm中乱码了

热门文章

  1. 用手机访问计算机共享资源,怎么进入共享文件夹?手机访问电脑局域网共享文件夹的方法...
  2. 苹果手机软件闪退怎么解决_LOL手游卡顿闪退怎么办-卡顿闪退解决方法解析
  3. laravel5.4使用Laravel Sms和阿里云短信服务实现短信验证码功能
  4. 最新PyCharm基本使用(3)------编码(Code)、重构(Refactor)
  5. 数组转这种格式 county_list:{ 110101: “东城区“, 110102: “西城区“, 110105: “朝阳区“, 110106: “丰台区“,
  6. Pandas熊猫框架
  7. 今天起,上海用户可以用滴滴App免费打无人车了
  8. 微信小程序链接mysql数据库
  9. 胡水生:中小型企业如何应对互联网的发展
  10. Lotus Notes 7.0找不到服务器路径