爬取王者官方网站英雄数据

众所周知,王者荣耀已经成为众多人们喜爱的一款休闲娱乐手游,今天就利用python3 爬虫技术爬取官方网站上的几十个英雄的资料,包括官方给出的人物定位,英雄名称,技能名称,CD,英雄克制关系以及官方给出的出装Tips等数据。如下图:

首先,对英雄列表页中的各个英雄子夜进行观察其URL的变动,发现每个英雄页面之后后面的页数会变动且呈递增规律。

接下来审查要爬取对象的标签元素

解析网站后,开始准备爬取数据

代码部分

准备要获取的所有英雄页面URL

根据页面上的标签获取数据并保存到字典

游戏部分英雄为虚构世界人物,这里还需要在jieba手动添加英雄名和部分装备名

官方某些英雄由于没有在html上标明克制与压制关系的英雄名称,只上传了照片,如下图,并未找到“吕布”、“王昭君”等关键字,为了数据的完整性,部分数据需要手动在代码添加,大部分数据还是可以自动获取。

一切工作准备妥当之后,开始爬虫。

引入英雄名和停用词对其中部分数据进行清洗和分词

词频排序、保存为CSV文件

经过筛选,列出搭档出现频数最多,压制英雄数量最多的英雄频数,被克制最多的英雄频数三个数表如图

统计为树状图

之后分析各类数据前几名英雄的官方tips词频,这里代码相同,爬取只只需改动htmlnum中的数据即可。最后输出csv文件。

在线生成词云如图

PS:以上仅为官网数据,不代表个人观点

python爬取王者_Python3爬取王者官方网站英雄数据相关推荐

  1. python刷直播人气_python3爬取斗鱼某些版块的主播人气

    python 3爬取斗鱼某些版块的主播人气 1.爬虫版块 import Test3 import urllib.request from bs4 import BeautifulSoup import ...

  2. csol永恒python评测_反恐精英Online情报中心 - CSOL - 官方网站 - 世纪天成游戏 - 火爆战场真实体验!...

    2秒自动充能超强神器?"撼宇碎星"闪耀登场! 2018年01月24日 分享到: 腾讯微博 新浪微博 qq空间要说独创性与实用性并存,兼具一年仅出一把的稀有性,<反恐精英Onl ...

  3. python爬取天气_python3爬取各类天气信息

    本来是想从网上找找有没有现成的爬取空气质量状况和天气情况的爬虫程序,结果找了一会儿感觉还是自己写一个吧. 主要是爬取北京包括北京周边省会城市的空气质量数据和天气数据. 过程中出现了一个错误:Unico ...

  4. python爬虫百度图片_python3爬取百度图片(2018年11月3日有效)

    最终目的:能通过输入关键字进行搜索,爬取相应的图片存储到本地或者数据库 首先打开百度图片的网站,搜索任意一个关键字,比如说:水果,得到如下的界面 分析: 1.百度图片搜索结果的页面源代码不包含需要提取 ...

  5. Python爬取全球是最大的电影数据库网站IMDb数据

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 作者 Dark Horse 前言 在使用 Python 开发爬虫的过程中,requests 和 B ...

  6. python3爬取新浪微博_Python3爬取新浪微博头条

    #!/usr/bin/python #-*- coding: utf-8 -*- import re import sys import datetime from selenium import w ...

  7. python 异步下载图片_python3抓取异步百度瀑布流动态图片(二)get、json下载代码讲解...

    制作解析网址的get 1 defgethtml(url,postdata):2 3 header = {'User-Agent':4 'Mozilla/5.0 (Windows NT 10.0; WO ...

  8. python3爬妹子图_python3爬妹子图

    pythonScrapy批量采集妹子图网的图片 这部分相当有用,咱们不多说,目前是2016.6.22日亲测可用.环境方面是linux_ubuntu_15.04python_scrapy的环境搭建有问题 ...

  9. python列表切片口诀-切片 - 廖雪峰的官方网站

    取一个list或tuple的部分元素是非常常见的操作.比如,一个list如下: >>> L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack' ...

最新文章

  1. java和内存交互,java内存模型-内存间交互操作
  2. jar包反编译成源代码_IntelliJ IDEA 如何设置自动下载源代码和文档
  3. python怎样实现封装_python 封装底层实现原理
  4. html颜色叠加代码,html代码大全(基础使用代码)(颜色代码完整版)
  5. windows+PHP+shell_exec()无法执行的原因
  6. 2018最新大神教你用Python玩转数据视频教程
  7. 对数组下面的数组截取_numpy数组不同索引方式的区别
  8. Linux:shell变量功能和Bash shell的操作环境
  9. 《Cocos2D-x权威指南》——第3章 Cocos2D-x中的核心类
  10. 如何在 SVG 和 Canvas 之间进行选择
  11. 分享一款开源堡垒机-jumpserver
  12. 可拖拽的弹出窗口Js插件
  13. 【这不是经验】VS编译器初始化报错
  14. Ribbon与Hystrix
  15. elasticsearch xpack license过期
  16. 虚拟主机如何清空网站程序文件和mysql数据库数据
  17. Chef框架之Cookbook的介绍及应用
  18. 卷毛机器人抢大龙视频_世界第一机器人卷毛梦回S2 钩子抢大龙 直言钻一像人机...
  19. 不用找,你想要的中国风ppt模板素材都在这里
  20. 爬虫的基本原理:爬虫能爬什么数据

热门文章

  1. LIO-Livox(一)简介及框架
  2. ubuntu 查看对外端口_[mcj]Ubuntu如何查看已开放端口|Ubuntu开放关闭指定端口方法...
  3. 哪种需求适合选择动态拨号VPS
  4. 赵大超的学习周志(五)
  5. php excel 下拉菜单,excel下拉框怎么做
  6. 数学计算机游戏49关,《数学趣味游戏》.pdf
  7. hdu5411 CRB and Puzzle(矩阵)
  8. linux没有网怎么改时间,linux下更改时间
  9. Ajax简介,ajax是什么?
  10. 图解 MySQL 索引,清晰易懂,写得太好了!