/1 前言/

在放假时 ,经常想尝试一下自己做饭,下厨房这个网址是个不错的选择。

下厨房是必选的网址之一,主要提供各种美食做法以及烹饪技巧。包含种类很多。

今天教大家去爬取下厨房的菜谱 ,保存在world文档,方便日后制作自己的小菜谱。

/2 项目目标/

获取菜谱,并批量把菜 名、 原 料 、下 载 链 接 、下载保存在world文档。

/ 3 项目准备/

软件: PyCharm

需要的库: requests 、 lxml 、 fake_useragent、 time

网站如下:

点击下一页时,每增加一页page自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。

/4 反爬措施的处理/

主要有两个点需要注意:

1、直接使用requests库,在不设置任何header的情况下,网站直接不返回数据

2、同一个ip连续访问多次,直接封掉ip,起初我的ip就是这样被封掉的。

为了解决这两个问题,最后经过研究,使用以下方法,可以有效解决。

1)获取正常的 http请求头,并在requests请求时设置这些常规的http请求头。

2)使用 fake_useragent ,产生随机的UserAgent进行访问。

/5 项目实现/

1、定义一个class类继承object,定义init方法继承self,主函数main继承self。导入需要的库和网址,代码如下所示。

2、随机产生UserAgent。

3、发送请求 获取响应, 页面回调,方便下次请求。

4、xpath解析一级页面数据,获取二级页面网址。

5、for遍历,定义一个变量food_info保存,获取到二级页面对应的菜 名、 原 料 、下 载 链 接。

6、保存在world文档 。

7、调用方法,实现功能。

8、项目优化

1)方法一:设置时间延时。

2)方法二:定义一个变量u,for遍历,表示爬取的是第几种食物。(更清晰可观)。

/6 效果展示/

1、点击绿色小三角运行输入起始页,终止页。

2、运行程序后,结果显示在控制台,如下图所示。

3、将运行结果保存在world文档中,如下图所示。

4、双击文件,内容如下图所示。

/7 小结/

1 、本文章基于Python网络爬虫,获取下厨房网站菜谱信息, 在应用中出现的难点和重点,以及如何防止反爬,做出了相对于的解决方案。

2、介绍了如何去拼接字符串,以及列表如何进行类型的转换。

3、代码很简单,希望能够帮到你。

4、欢迎大家积极尝试,有时候看到别人实现起来很简单,但是到自己动手实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。

5、可以选择自己喜欢的分类,获取自己喜欢的菜谱,每个人都是厨师。

此文转载文,著作权归作者所有,如有侵权联系小编删除! 如需源代码或者素材 请

点击这里下载

这些美食你吃过吗!使用Python网络爬虫获取菜谱图文信息一起学习相关推荐

  1. 手把手教你使用Python网络爬虫获取菜谱信息

    /1 前言/ 在放假时 ,经常想尝试一下自己做饭,下厨房这个网址是个不错的选择. 下厨房是必选的网址之一,主要提供各种美食做法以及烹饪技巧.包含种类很多. 今天教大家去爬取下厨房的菜谱 ,保存在wor ...

  2. python爬虫可以爬取个人信息吗_手把手教你利用Python网络爬虫获取旅游景点信息...

    爬虫系列: 当我们出去旅游时,会看这个地方有哪些旅游景点,景点价格.开放时间.用户的评论等. 本文基于Python网络爬虫技术,以hao123旅游网为例,获取旅游景点信息. 1.项目目标 获取网站的景 ...

  3. 想学爬虫的同学看过来,手把手教你利用Python网络爬虫获取APP推广信息

    一.前言 CPA之家app推广平台是国内很大的推广平台.该网址的数据信息高达数万条,爬取该网址的信息进行数据的分析. 二.项目目的 实现将获取到的QQ,导入excel模板,并生成独立的excel文档. ...

  4. 小猿圈分享利用python网络爬虫获取网易云歌词

    今天小猿圈给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌曲ID: 调用网易云歌曲API,获取歌词: 将歌词写入文件,并存入本 ...

  5. 手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 位卑未敢忘忧国,事定犹须待阖棺. ...

  6. Python网络爬虫获取淘宝商品价格

    1.Python网络爬虫获取淘宝商品价格代码: #-*-coding:utf-8-*- ''' Created on 2017年3月17日 @author: lavi ''' import reque ...

  7. python爬虫教程视频下载-利用Python网络爬虫获取电影天堂视频下载链接【详细教程】...

    相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来. [二.项目准备] ...

  8. python网络爬虫_一篇文章教会你利用Python网络爬虫获取穷游攻略

    点击上方"IT共享之家",进行关注 回复"资料"可获赠Python学习福利 [一.项目背景] 穷游网提供原创实用的出境游旅行指南.攻略,旅行社区和问答交流平台, ...

  9. python3爬虫有道翻译_一篇文章教会你利用Python网络爬虫获取有道翻译手机版的翻译接口...

    [一.项目背景] 有道翻译作为国内最大的翻译软件之一,用户量巨大.在学习时遇到不会的英语词汇,会第一时间找翻译,有道翻译就是首选.今天教大家如何去获取有道翻译手机版的翻译接口. ![image](ht ...

最新文章

  1. xcode symbol(s) not found for architecture i386错误解决方法
  2. 戴尔t410支持哪些服务器系统,DELL服务器T410
  3. mysql的从节点能否执行事务_MySQL执行事务的语法与流程详解
  4. Python问答环节(2)
  5. ipython notebook笔记(待续)
  6. 视觉SLAM常用的数据集集合【3】
  7. 最速下降法的C语言实现
  8. ncurses输入函数:字符+字符串的输入
  9. QT 创建鼠标右键菜单
  10. VAX 的使用快捷键
  11. 影响世界的77部文学名著
  12. [转载]借助LVS+Keepalived实现负载均衡
  13. ZYNQMP_XAZU3EG_LINUX 默认启动项修改
  14. 什么是md5码,md5码有什么用?
  15. 软负载均衡和F5负载均衡(硬负载均衡)区别
  16. 你还没掌握超表「视图」, 难怪觉得数据繁杂得要命!
  17. cesium 3d建筑物光效 泛光实体
  18. 螺旋传动设计系统lisp_螺旋传动的设计计算.pdf
  19. python 蒙特卡罗法求π值
  20. 【运筹学】对偶理论 : 互补松弛性 ( 原问题与对偶问题标准形式 | 互补松弛定理 | 互补松弛定理示例说明 )

热门文章

  1. 超级分类汇总函数——SUBTOTAL
  2. python字典的遍历,items()和iteritems()用法
  3. 知乎如何运营快速引流,知乎运营推广技巧有哪些
  4. vscode自动补全
  5. php中抓取https页面,php抓取https url网页内容方法
  6. 构建医疗行业IoT,传递权威《物联网信号》
  7. 小孩护眼灯什么牌子的好?眼科专家推荐的护眼灯品牌
  8. 学生台灯护眼灯哪个牌子好性价比高?视力康复师推荐的护眼台灯
  9. cookie/cookies
  10. Java可变参数类型实例