Python爬取网页所需内容+王者荣耀官网
目标:
- 完成对王者荣耀游戏的所有英雄头像、皮肤等数据的内容爬取及图片下载,所涉及到的模块内容有requests、json、lxml、selenium、os等。王者荣耀英雄官网地址如下:https://pvp.qq.com/web201605/herolist.shtml
方法与思路:
- 爬取官网的整个页面数据,即页面中的 HTML 数据内容。
- 分析全网数据,并提取英雄信息,字段内容有英雄名称、英雄图片地址、详情链接地址等,以 csv 格式的 文件保存到本地。
- 通过读取 csv 文件数据,并爬取英雄详情页面的皮肤信息,从第 1 个(“云中君”)至最后一个英雄(“廉 颇”),然后保存数据,英雄皮肤数据信息文件为 json文件;
- 从文件中读取英雄皮肤信息,并提取皮肤名称、皮肤图片地址,然后下载图片,把图片命名为“皮肤名称.jpg” 进行保存。
- 从csv 文件中读取数据内容,获得英雄名称、图片地址;创建相应的英雄名称的目录,下载图片。
需要的库:
- requests
- os
- selenium
- re
- lxml
- json
- matplotlib
项目过程:
爬取网页信息
2.新建html文件保存在本地
3.抓取英雄信息
4.以csv格式保存在本地
5.从文件中读取英雄信息,并提取名称、图片地址,然后下载图片,把图片命名为“名称.jpg”进行保存 ;
6.使用 selenium 操作界面化浏览器(Chrome),先安装 Chrome 浏览器、使用 chrome 驱动文件;
7.提取皮肤数据信息,通过读取 csv 文件数据,并爬取英雄详情页面的皮肤信息,从第 1 个(“云中君”)至最后一个英雄(“廉颇”), 然后,保存数据,英雄皮肤数据信息文件为 json。
8.王者皮肤数量分析图,读取 json 文件中的数据; --名称、皮肤地址
获得英雄名称、皮肤个数 [英雄名称]、[皮肤个数]
9.绘制分析图:
成果代码地址:
链接:https://pan.baidu.com/s/1d16j7HVEAty4fGtK6JyjMA
提取码:ncqh
Python爬取网页所需内容+王者荣耀官网相关推荐
- 超细致通用,python爬取豆瓣游戏短评——以王者荣耀评论为例
超细致通用,爬取豆瓣游戏短评--以王者荣耀评论为例 写在前面 一.介绍 二.步骤 1.观察 1.1网页结构 1.2网页层次逻辑 2.准备 2.1引入库 2.2获取html文件并且解析 3.选取 3.1 ...
- python爬取网页防止重复内容_python解决网站的反爬虫策略总结
本文详细介绍了网站的反爬虫策略,在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下. 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分.这里我们只讨论数据采集部分. 一般网站从三个方面 ...
- python通过xpath解析网页爬取高清大图和王者荣耀英雄海报
python通过xpath解析网页 xpath XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言.最初是用来搜寻 XML 文档的,但 ...
- python爬取网页公开数据_如何用Python爬取网页数据
使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...
- 编程python爬取网页数据教程_实例讲解Python爬取网页数据
一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...
- python爬虫教程:实例讲解Python爬取网页数据
这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程,有兴趣的朋友跟着学习下吧. 一.利用webbrowser.open()打开一个网站: >>> import w ...
- 使用Python爬取网页图片
使用Python爬取网页图片 李晓文 21 天前 近一段时间在学习如何使用Python进行网络爬虫,越来越觉得Python在处理爬虫问题是非常便捷的,那么接下来我就陆陆续续的将自己学习的爬虫知识分享给 ...
- python爬取图片-Python爬取网页中的图片(搜狗图片)详解
前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载 本地下载 我们这里以sogou作为爬取的对象. 首先 ...
- python爬取网页版QQ空间,生成词云图、柱状图、折线图(附源码)
python爬取网页版QQ空间,生成词云图.柱状图.折线图 最近python课程学完了,琢磨着用python点什么东西,经过一番搜索,盯上了QQ空间,拿走不谢,欢迎点赞收藏,记得github给个sta ...
最新文章
- chrome弱网_请你进行一下弱网模拟
- 029_自己实现一个HashMap
- hub设备_USB不够用,一个HUB全部搞定!ORICO 群控USB扩展器
- java Reference
- 876. 链表的中间结点(C语言)
- 容器持久化存储训练营”启动倒计时!3天攻破K8s难点
- linux wlan进程名称,linux无线网络配置无线网卡驱动安装与wlan802.11配置
- 可工作的软件胜过面面俱到的文档
- python-3.6.2安装
- 动态规划——背包问题升级
- 安装Bootstrap3源码版本
- 开源wms php,BIWEB WMS门户网站PHP开源建站系统
- 电脑散热风扇轴承分类
- 通信用特种光缆的选型
- cookie的工作原理、cookie的重要性
- Java环境配置 win10教程
- (三)Spring整合RabbitMQSpringBoot 整合RabbitMQRabbitMQ 镜像队列
- VMware Workstation 虚拟机不兼容解决方法
- 属于python语言中合法的二进制整数是_以下选项属于 Python 整数类型的是( )
- iMeta | 南科大夏雨组纳米孔测序揭示微生物可减轻高海拔冻土温室气体排放
热门文章
- 「2017 山东三轮集训 Day1」Flair
- 数据存储方式之 TXT 文本
- 大连东软信息学院linux系统编程,大连东软信息学院Linux系统编程考试资料
- um是代表什么意思_跨境电商清关什么意思,跨境电商商务代表是干什么的
- python函数——字典设置默认值 setdefault()
- VUNDLE安装及使用
- 深度学习实战23(进阶版)-语义分割实战,实现人物图像抠图的效果(计算机视觉)
- 桂林理工大学 计算机网络 实验报告2交换机基本配置和交换机的VLAN配置
- 点赋科技:共享智能饮品柜第一品牌的创造者
- 小程序无缝滚动通知公告栏