众所周知,现阶段我们正处于一个"大数据"时代,从互联网上大量的数据中找到自己想要的信息变得越来困难,搜索引擎的商业化给市场带来了百度和谷歌这样的商业公司。网络爬虫便是搜索引擎的重要组成部分。
本课题是基于Python设计的面向下厨房网站的网络爬虫程序,目的是设计出能爬取下厨房站点中用户感兴趣菜谱食物且进行存储的爬虫,并阐述了为何使用面向主题的爬行策略以及网络爬虫的原理。对本周最受欢迎的食谱和新秀食谱进行爬取,对采集获得的食物制作方法数据进行初步处理,得到原始文本的食谱数据,包含了脱敏处理后的食谱名称、用料、做法、时间,食物图片等内容,根据分析的需要,从数据中抽取出“具体做法”一列。本爬虫的数据分析系统使用python技术开发,使用django框架,结合mysql数据库平台,搭建pycharm系统框架,完成数据爬取,实现系统过程,并把数据存储到数据库中,转换为可视化图形识别的格式。本文首先通过文献调研,分析课题研究现状,接着分析系统技术,然

本应用采集目前的下厨房网站的食谱内容,对本周最受欢迎的食谱和新秀食谱进行爬取,对采集获得的食物制作方法数据进行初步处理,得到原始文本的食谱数据,包含了脱敏处理后的食谱名称、用料、做法、时间,食物图片等内容,根据分析的需要,从数据中抽取出“具体做法”一列。
(2)数据预处理:
    原始数据中存在异常值、重复值、系统自动推荐等数据,这部分数据价值含量低、数据结构混乱,严重影响数据挖掘模型的执行效率,导致挖掘结果的偏差,所以进行数据清洗是必不可少的。结合原始数据的具体情况,数据预处理采用文本去重、机械压缩去词和短句删除。
(3)中文分词及用户关注点:
中文分词是将句子中汉字按照序列切成一个个单独的中文词语,结巴词库提供了精确模式、全模式和搜索引擎模式三种分词模式,是Python中一个重要的第三方中文分词函数库。Jieba词库能够支持中文简体和繁体,在分析用户评论中能够对文本评论数据提取关键词。
用户关注点是用户对某一商品特定属性的关注点,反映客户在某种商品上的聚焦点,关注某一特性的用户数量越高,说明该商品的这一属性对用户来说越重要,一般是食谱标题、所用原料、具体做法、食物图片。分析利用Jieba词库,结合用户用词习惯,设置以“家常菜”、“快手菜”、“下饭菜”、”早餐”、“减肥”、“烘焙”、“小吃”、“汤羹”八个为用户常关注的属性。

基于大数据的python爬虫的菜谱美食食物推荐系统相关推荐

  1. python应用内部审计_基于大数据技术提升内部审计质量的路径

    龙源期刊网 http://www.qikan.com.cn 基于大数据技术提升内部审计质量的路径 作者:彭德锦 方智 来源:<中国内部审计> 2019 年第 07 期 [ 摘要 ] 随着大 ...

  2. 基于大数据的动漫影视可视化分析系统

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目简介 本动漫分析系统开发语言为Python,并进行数据清洗,数据处理,并最后利用可视化技术进行动漫数据分析 ...

  3. 挖财基于大数据的信贷审批系统实践

    挖财基于大数据的信贷审批系统实践 时间 2016-09-24 16:01:40  代码说 原文  http://h2ex.com/1607 主题 大数据 HBase 数据库 大家好,今天给大家带来的分 ...

  4. 基于大数据背景下的全国各大城市地铁客流量分析

    目录 第一章 项目介绍 第二章 项目组织与项目计划 第三章 数据采集 3.1 数据采集目标 3.2 数据采集工具与方法 3.3 数据采集流程 3.4 数据采集保存 3.5 本章小结 第四章 数据预处理 ...

  5. 基于大数据的租房信息推荐系统

    介绍 基于大数据的租房推荐系统是一种用于帮助用户找到最适合他们的房子的系统.该系统主要功能是爬虫抓取贝壳租房网站信息,租房信息推荐,可视化分析等.使用 echarts, django, vue,协同过 ...

  6. 基于大数据的农产品价格信息监测分析系统

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目简介 本项目利用网络爬虫技术从某蔬菜网采集所有农产品的价格数据,包括北京.上海.安徽.湖北等全国所有省和直 ...

  7. 基于大数据的股票数据可视化分析与预测系统

    温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 1. 项目简介 股票市场行情分析与预测是数据分析领域里面的重头戏,其符合大数据的四大特征:交易量大.频率高.数据种类 ...

  8. ISME:基于大数据准确预测土壤的枯萎病发生

    基于大数据整合准确预测土壤的枯萎病发生 Predicting disease occurrence with high accuracy based on soil macroecological p ...

  9. ISME:南农沈其荣团队基于大数据准确预测土壤的枯萎病发生

    基于大数据整合准确预测土壤的枯萎病发生 Predicting disease occurrence with high accuracy based on soil macroecological p ...

最新文章

  1. 《视觉SLAM十四讲》笔记(ch8)
  2. Docker操作容器2
  3. 三个剩两个,两个剩一个,最后一个都没剩下。
  4. Blend设计VSM
  5. 安装Sqlserver2008的问题
  6. Firefox-常用扩展
  7. javascript特效大全
  8. 安装Mysql5.7(64位)安装包及教程全
  9. 搭建Nginx图片or视频服务器
  10. Speedoffice(word)如何添加超链接
  11. 【ECM技术】局部光照补偿技术(LIC)
  12. Python实战笔记-常用知识点
  13. Verilog初级教程(2)Verilog HDL的初级语法
  14. 打开.md格式文件的方式
  15. win10系统 桌面点右键经常转圈圈卡住
  16. 关于PyCharm比较高效率的使用技巧,学习Python的小伙伴别错过!
  17. F407_07_UART概述
  18. python/PIL png,jpeg转bmp格式
  19. 获取Android手机总内存和可用内存
  20. Atcoder Panasonic Programming Contest 2020 B Bishop 周期性+难在特判

热门文章

  1. requests 400错误
  2. 【转】解密饿了么大前端团队
  3. 趣味python之制作个性二维码
  4. 论中年耳鸣及其知识概述
  5. Speech Emotion Recognition with Multi-task Learning(2021)
  6. 推荐系统介绍(优势、流程、模型、工具、挑战、价值)
  7. 手把手教你在VMware16.0上安装ubuntu20.04(虚拟机安装Ubuntu系统))
  8. mysql 字符串值不正确,不正确的字符串值:“ \ xF0 \ x9F \ x8E \ xB6 \ xF0 \ x9F…” MySQL...
  9. java 时间段求并集,java集合操作-----求两个集合的交集和并集
  10. 牛牛的方格图 (二维差分)