python爬虫chinaplay网页的前十个游戏 游戏名字、原价、现价、折扣、爬下来输出到excel文件
#!/usr/bin/env python
# -*- coding: utf-8 -*-# chinaplay的前十个游戏 游戏名字 原价 现价 折扣 爬下来输出到excel文件
import csv
import re
import ssl
from urllib import request as reqssl._create_default_https_context = ssl._create_unverified_contextclass CrawlChinaplay(object):def fetch_html(self):url = "https://chinaplay.store/?countBuy=1&genre2=actions&utm_expid=.D1txQMWbRSepiu4sNydAgA.1&utm_referrer="html_contents = req.urlopen(url).read().decode("utf-8")return html_contentsdef analysis(self,html_contents):root_regex = '<div class="product"[\s\S]*?熊猫点\s*</div>\s*</div>\s*</div>\s*</div>'content_list = re.findall(root_regex, html_contents)sub_regex = r'<div class="product"[\s\S]*?<div class="action-badge">(.*?)<[\s\S]*?<div class="game-title">[\t|\n]*(.*?)[\t|\n]*?</[\s\S]*?old_price">(.*?)<[\s\S]*?">(.*?)</span>'result_list = [] # 初始化一个空列表for content in content_list:t_list = [] # 清空列表result = re.match(sub_regex, content)if result:t_list.append(result.group(2))t_list.append(result.group(3))t_list.append(result.group(4))t_list.append(result.group(1))result_list.append(t_list)return result_listdef sava_csv(self,result_list):out = open("chinaplay.csv", "a+", newline="", encoding="utf-8")csv_writer = csv.writer(out, dialect="excel")csv_writer.writerow(['game_name', 'ori_price', 'sale_price', 'discount'])i = 0if len(result_list) > 9:while i < 10:csv_writer.writerow(result_list[i])i += 1else:while i < len(result_list):csv_writer.writerow(result_list[i])i += 1out.close()def crawl(self):html_content = self.fetch_html()result_list = self.analysis(html_content)self.sava_csv(result_list)if __name__ == "__main__":crawl_chinaplay = CrawlChinaplay()crawl_chinaplay.crawl()
因为这个网站加载比较慢些,故爬取会慢一些
结果:
python爬虫chinaplay网页的前十个游戏 游戏名字、原价、现价、折扣、爬下来输出到excel文件相关推荐
- Python爬虫: 单网页 所有静态网页 动态网页爬取
Python爬虫: 单网页 所有静态网页 动态网页爬取 前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...
- python爬虫解决网页重定向问题
python爬虫解决网页重定向问题 参考文章: (1)python爬虫解决网页重定向问题 (2)https://www.cnblogs.com/zhumengke/articles/9618368.h ...
- python Chrome + selenium自动化测试与python爬虫获取网页数据
一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...
- Python爬虫获取网页编码格式
Python爬虫获取网页编码格式 网页编码格式是每个网页规定的本页面文字的编码方式,其中比较流行的是ascii, gbk, utf-8, iso等.观察许多网页的编码格式都是在meta标签的conte ...
- python爬虫的使用——成语接龙小游戏
python爬虫的使用--成语接龙小游戏 游戏介绍 本游戏采用python进行开发,利用爬虫技术,能够自动获取代理服务器IP地址,可从常用汉字中选取查找成语随机出题,可进行人与电脑的对弈,可进行多轮较 ...
- Python—爬虫之Network,XHR,json 带参数请求数据(爬取歌单、歌词)
Python-爬虫之Network,XHR,json & 带参数请求数据(爬取歌单.歌词) Network是什么,能做什么 XHR要如何请求 json格式的转换 带参数请求数据 修改请求头,便 ...
- 【Python爬虫实例学习篇】——5、【超详细记录】从爬取微博评论数据(免登陆)到生成词云
[Python爬虫实例学习篇]--5.[超详细记录]从爬取微博评论数据(免登陆)到生成词云 个人博客地址:ht/tps://www.asyu17.cn/ 精彩部分提醒: (1)微博评论页详情链接为一个 ...
- python——爬虫实现网页信息抓取
首先实现关于网页解析.读取等操作我们要用到以下几个模块 import urllib import urllib2 import re 我们可以尝试一下用readline方法读某个网站,比如说百度 de ...
- Python爬虫解析网页的4种方式 值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存中, ...
最新文章
- c# 带返回值的action_C#知识点讲解之C#delegate、event、Action、EventHandler的使用和区别...
- 搞商业智能需要“智慧”
- FFMPEG解码多线程
- 微软研究院研究员Ryan Beckett 博士论文《Network Control Plane Synthesis and Verification》下载—2018ACM最佳博士论文题目奖
- oracle如何快速查找,Oracle 如何快速查找和删除重复记录
- 人工智能的数学基础(一):绪论
- 蜂鸣器的专业分类是这样的
- C4D-学习笔记-3-建模+渲染
- excel shared formula处理
- 如何看待CS院校正式推免鸽人紧急补录的混乱局面?
- 解决思科 Cisco Packet Tracer 7.3登录问题
- 股票自选股基本函数大全-5
- MySQL事务——万字详解
- 前端生成二维码qrcode.js,并下载
- 汉寿计算机职业中专,汉寿第一职业中专
- 【树莓派学习笔记】树莓派4B上运行uboot并从网络启动linux内核(上)
- 无薪培训靠谱吗_无薪实习值得吗?
- 使用VMware创建虚拟机,并配置虚拟机网络
- Mac App图标制作工具——img2icns
- 如何建立自己的技术壁垒
热门文章
- 黑马程序员C++学习笔记
- Newstart HA常见使用场景
- 【考研专业课答题纸】是什么样子?(内附下载链接)
- 2.Maven创建以及依赖、继承、聚合
- PostgreSQL函数——数值函数
- Word文档如何转PPT
- 通过4A系统登录服务器,JD-4A 统一身份管理系统
- PHP实现微信公众号H5支付
- aizuda 学习之 @ControllerAdvice 和RequestBodyAdviceAdapter运用 自动配置介绍
- Caused by: java.io.EOFException: SSL peer shut down incorrectly