python爬虫chinaplay网页的前十个游戏游戏名字、原价、现价、折扣、爬下来输出到excel文件

#!/usr/bin/env python
# -*- coding: utf-8 -*-# chinaplay的前十个游戏 游戏名字 原价 现价 折扣 爬下来输出到excel文件
import csv
import re
import ssl
from urllib import request as reqssl._create_default_https_context = ssl._create_unverified_contextclass CrawlChinaplay(object):def fetch_html(self):url = "https://chinaplay.store/?countBuy=1&genre2=actions&utm_expid=.D1txQMWbRSepiu4sNydAgA.1&utm_referrer="html_contents = req.urlopen(url).read().decode("utf-8")return html_contentsdef analysis(self,html_contents):root_regex = '<div class="product"[\s\S]*?熊猫点\s*</div>\s*</div>\s*</div>\s*</div>'content_list = re.findall(root_regex, html_contents)sub_regex = r'<div class="product"[\s\S]*?<div class="action-badge">(.*?)<[\s\S]*?<div class="game-title">[\t|\n]*(.*?)[\t|\n]*?</[\s\S]*?old_price">(.*?)<[\s\S]*?">(.*?)</span>'result_list = []  # 初始化一个空列表for content in content_list:t_list = []  # 清空列表result = re.match(sub_regex, content)if result:t_list.append(result.group(2))t_list.append(result.group(3))t_list.append(result.group(4))t_list.append(result.group(1))result_list.append(t_list)return result_listdef sava_csv(self,result_list):out = open("chinaplay.csv", "a+", newline="", encoding="utf-8")csv_writer = csv.writer(out, dialect="excel")csv_writer.writerow(['game_name', 'ori_price', 'sale_price', 'discount'])i = 0if len(result_list) > 9:while i < 10:csv_writer.writerow(result_list[i])i += 1else:while i < len(result_list):csv_writer.writerow(result_list[i])i += 1out.close()def crawl(self):html_content = self.fetch_html()result_list = self.analysis(html_content)self.sava_csv(result_list)if __name__ == "__main__":crawl_chinaplay = CrawlChinaplay()crawl_chinaplay.crawl()

因为这个网站加载比较慢些，故爬取会慢一些

结果：

python爬虫chinaplay网页的前十个游戏游戏名字、原价、现价、折扣、爬下来输出到excel文件相关推荐

Python爬虫: 单网页所有静态网页动态网页爬取
Python爬虫: 单网页所有静态网页动态网页爬取前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...
python爬虫解决网页重定向问题
python爬虫解决网页重定向问题参考文章: (1)python爬虫解决网页重定向问题 (2)https://www.cnblogs.com/zhumengke/articles/9618368.h ...
python Chrome + selenium自动化测试与python爬虫获取网页数据
一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...
Python爬虫获取网页编码格式
Python爬虫获取网页编码格式网页编码格式是每个网页规定的本页面文字的编码方式,其中比较流行的是ascii, gbk, utf-8, iso等.观察许多网页的编码格式都是在meta标签的conte ...
python爬虫的使用——成语接龙小游戏
python爬虫的使用--成语接龙小游戏游戏介绍本游戏采用python进行开发,利用爬虫技术,能够自动获取代理服务器IP地址,可从常用汉字中选取查找成语随机出题,可进行人与电脑的对弈,可进行多轮较 ...
Python—爬虫之Network，XHR，json 带参数请求数据（爬取歌单、歌词）
Python-爬虫之Network,XHR,json & 带参数请求数据(爬取歌单.歌词) Network是什么,能做什么 XHR要如何请求 json格式的转换带参数请求数据修改请求头,便 ...
【Python爬虫实例学习篇】——5、【超详细记录】从爬取微博评论数据（免登陆）到生成词云
[Python爬虫实例学习篇]--5.[超详细记录]从爬取微博评论数据(免登陆)到生成词云个人博客地址:ht/tps://www.asyu17.cn/ 精彩部分提醒: (1)微博评论页详情链接为一个 ...
python——爬虫实现网页信息抓取
首先实现关于网页解析.读取等操作我们要用到以下几个模块 import urllib import urllib2 import re 我们可以尝试一下用readline方法读某个网站,比如说百度 de ...
Python爬虫解析网页的4种方式值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存中, ...

python爬虫chinaplay网页的前十个游戏游戏名字、原价、现价、折扣、爬下来输出到excel文件

python爬虫chinaplay网页的前十个游戏游戏名字、原价、现价、折扣、爬下来输出到excel文件相关推荐

最新文章

热门文章

python爬虫chinaplay网页的前十个游戏 游戏名字、原价、现价、折扣、爬下来输出到excel文件

python爬虫chinaplay网页的前十个游戏 游戏名字、原价、现价、折扣、爬下来输出到excel文件相关推荐

最新文章

热门文章

python爬虫chinaplay网页的前十个游戏游戏名字、原价、现价、折扣、爬下来输出到excel文件

python爬虫chinaplay网页的前十个游戏游戏名字、原价、现价、折扣、爬下来输出到excel文件相关推荐