#!/usr/bin/env python
# -*- coding: utf-8 -*-# chinaplay的前十个游戏 游戏名字 原价 现价 折扣 爬下来输出到excel文件
import csv
import re
import ssl
from urllib import request as reqssl._create_default_https_context = ssl._create_unverified_contextclass CrawlChinaplay(object):def fetch_html(self):url = "https://chinaplay.store/?countBuy=1&genre2=actions&utm_expid=.D1txQMWbRSepiu4sNydAgA.1&utm_referrer="html_contents = req.urlopen(url).read().decode("utf-8")return html_contentsdef analysis(self,html_contents):root_regex = '<div class="product"[\s\S]*?熊猫点\s*</div>\s*</div>\s*</div>\s*</div>'content_list = re.findall(root_regex, html_contents)sub_regex = r'<div class="product"[\s\S]*?<div class="action-badge">(.*?)<[\s\S]*?<div class="game-title">[\t|\n]*(.*?)[\t|\n]*?</[\s\S]*?old_price">(.*?)<[\s\S]*?">(.*?)</span>'result_list = []  # 初始化一个空列表for content in content_list:t_list = []  # 清空列表result = re.match(sub_regex, content)if result:t_list.append(result.group(2))t_list.append(result.group(3))t_list.append(result.group(4))t_list.append(result.group(1))result_list.append(t_list)return result_listdef sava_csv(self,result_list):out = open("chinaplay.csv", "a+", newline="", encoding="utf-8")csv_writer = csv.writer(out, dialect="excel")csv_writer.writerow(['game_name', 'ori_price', 'sale_price', 'discount'])i = 0if len(result_list) > 9:while i < 10:csv_writer.writerow(result_list[i])i += 1else:while i < len(result_list):csv_writer.writerow(result_list[i])i += 1out.close()def crawl(self):html_content = self.fetch_html()result_list = self.analysis(html_content)self.sava_csv(result_list)if __name__ == "__main__":crawl_chinaplay = CrawlChinaplay()crawl_chinaplay.crawl()

因为这个网站加载比较慢些,故爬取会慢一些

结果:

python爬虫chinaplay网页的前十个游戏 游戏名字、原价、现价、折扣、爬下来输出到excel文件相关推荐

  1. Python爬虫: 单网页 所有静态网页 动态网页爬取

    Python爬虫: 单网页 所有静态网页 动态网页爬取 前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...

  2. python爬虫解决网页重定向问题

    python爬虫解决网页重定向问题 参考文章: (1)python爬虫解决网页重定向问题 (2)https://www.cnblogs.com/zhumengke/articles/9618368.h ...

  3. python Chrome + selenium自动化测试与python爬虫获取网页数据

    一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...

  4. Python爬虫获取网页编码格式

    Python爬虫获取网页编码格式 网页编码格式是每个网页规定的本页面文字的编码方式,其中比较流行的是ascii, gbk, utf-8, iso等.观察许多网页的编码格式都是在meta标签的conte ...

  5. python爬虫的使用——成语接龙小游戏

    python爬虫的使用--成语接龙小游戏 游戏介绍 本游戏采用python进行开发,利用爬虫技术,能够自动获取代理服务器IP地址,可从常用汉字中选取查找成语随机出题,可进行人与电脑的对弈,可进行多轮较 ...

  6. Python—爬虫之Network,XHR,json 带参数请求数据(爬取歌单、歌词)

    Python-爬虫之Network,XHR,json & 带参数请求数据(爬取歌单.歌词) Network是什么,能做什么 XHR要如何请求 json格式的转换 带参数请求数据 修改请求头,便 ...

  7. 【Python爬虫实例学习篇】——5、【超详细记录】从爬取微博评论数据(免登陆)到生成词云

    [Python爬虫实例学习篇]--5.[超详细记录]从爬取微博评论数据(免登陆)到生成词云 个人博客地址:ht/tps://www.asyu17.cn/ 精彩部分提醒: (1)微博评论页详情链接为一个 ...

  8. python——爬虫实现网页信息抓取

    首先实现关于网页解析.读取等操作我们要用到以下几个模块 import urllib import urllib2 import re 我们可以尝试一下用readline方法读某个网站,比如说百度 de ...

  9. Python爬虫解析网页的4种方式 值得收藏

    用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存中, ...

最新文章

  1. c# 带返回值的action_C#知识点讲解之C#delegate、event、Action、EventHandler的使用和区别...
  2. 搞商业智能需要“智慧”
  3. FFMPEG解码多线程
  4. 微软研究院研究员Ryan Beckett 博士论文《Network Control Plane Synthesis and Verification》下载—2018ACM最佳博士论文题目奖
  5. oracle如何快速查找,Oracle 如何快速查找和删除重复记录
  6. 人工智能的数学基础(一):绪论
  7. 蜂鸣器的专业分类是这样的
  8. C4D-学习笔记-3-建模+渲染
  9. excel shared formula处理
  10. 如何看待CS院校正式推免鸽人紧急补录的混乱局面?
  11. 解决思科 Cisco Packet Tracer 7.3登录问题
  12. 股票自选股基本函数大全-5
  13. MySQL事务——万字详解
  14. 前端生成二维码qrcode.js,并下载
  15. 汉寿计算机职业中专,汉寿第一职业中专
  16. 【树莓派学习笔记】树莓派4B上运行uboot并从网络启动linux内核(上)
  17. 无薪培训靠谱吗_无薪实习值得吗?
  18. 使用VMware创建虚拟机,并配置虚拟机网络
  19. Mac App图标制作工具——img2icns
  20. 如何建立自己的技术壁垒

热门文章

  1. 黑马程序员C++学习笔记
  2. Newstart HA常见使用场景
  3. 【考研专业课答题纸】是什么样子?(内附下载链接)
  4. 2.Maven创建以及依赖、继承、聚合
  5. PostgreSQL函数——数值函数
  6. Word文档如何转PPT
  7. 通过4A系统登录服务器,JD-4A 统一身份管理系统
  8. PHP实现微信公众号H5支付
  9. aizuda 学习之 @ControllerAdvice 和RequestBodyAdviceAdapter运用 自动配置介绍
  10. Caused by: java.io.EOFException: SSL peer shut down incorrectly