前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

以下文章来源于云+社区,作者 Elapse

转载地址

https://blog.csdn.net/fei347795790?t=1

类似前言一样的东西

妈妈再也不用担心我不知道哪些游戏没有打折了,一键爬取steam优惠名单,就是写到钱的部分程序崩溃了,以至于只有游戏名

环境

环境需要 Python3.5.4的版本 需要的运行库有

  • BeautifulSoup(解析html,安装方法:(pip install BeautifulSoup)
  • requests(请求url,安装方法:(pip install requests)

代码部分

首先看一下,steam的网站结构

发现游戏名字是存在 <divclass="responsive_search_name_combined">下的再去看url链接https://store.steampowered.com/search/?specials=1&page=1其中page=1就是第一页的意思,所以整体思路就有了,先写一个页面的循环

pageid = 1
while pageid<599:url = "https://store.steampowered.com/search/?specials=1&page=" + str(pageid)res = requests.get(url)soup = bs4.BeautifulSoup(res.text)    contents = soup.select('div[class="responsive_search_name_combined"]')

这样,599页的steam游戏优惠的界面都会被requests请求一遍,并查找指定的元素,也就是存放游戏名的元素 接下来把游戏名抓取下来

for content in contents:name = content.find("span",class_="title").string.strip()print(name)

运行一下

成功,右边,游戏名出来了,接下来把名字都保存成txt

要注意的是,有的游戏名很奇怪,有特殊符号,写不进去,那么就会报错,所以,添加一个异常处理就好了

下面贴出完整代码

爬虫的主要问题,基本就是字符串的编码问题,现在整理出来的,最好的方法应该就是直接把url编码的当作正常内容输入就好了

Python爬虫实战:爬取steam打折优惠数据相关推荐

  1. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  2. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  3. python爬虫实战-爬取视频网站下载视频至本地(selenium)

    #python爬虫实战-爬取视频网站下载视频至本地(selenium) import requests from lxml import etree import json from selenium ...

  4. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

  5. python爬虫实战--爬取猫眼专业版-实时票房

    小白级别的爬虫入门 最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前 我们先来看看猫眼专业版- ...

  6. Python爬虫实战 爬取同城艺龙酒店信息

    1.爬虫说明        同城艺龙的反爬做的是非常好的,本博主在与同城艺龙进行了一整天的殊死搏斗才将其完全的爬下来,本博主是以无锡为例,将无锡的所有酒店的相关信息都爬了下来,共3399条酒店数据,当 ...

  7. Python爬虫04-xpath爬取豆瓣韩剧数据

    xpath爬取豆瓣韩剧数据 需求:爬取豆瓣韩剧的标题.评分.评论以及详情页地址. 1.导入模块 import requests from lxml import etree import csv 2. ...

  8. python爬虫实战-爬取小说

    今天做一个爬虫练手的小实战:爬取顶点小说网的小说,实现下载到本地(虽然网站上本来就可以下载,不过还是自己写代码来有成就感嘛!) 爬取网站 进入官网后,点击元尊,就爬取这本书了. 我们先把整个网页爬下来 ...

  9. Python爬虫实战- 爬取整个网站112G-8000本pdf epub格式电子书下载

    (整个代码附在最后) 目录: 爬虫准备 - 某电子书网站内容架构分析 爬虫前奏 - 网站Html代码分析,如何获取需要的链接? 爬虫高潮 - 测试是否有反爬虫措施,测试是否能正常下载一个sample ...

最新文章

  1. 【面试练习题】使用“暴力”的方法将字符串时间转化为秒数
  2. springboot整合redis操作缓存(将查询到的数据放在缓存中)
  3. PAT1057 数零壹 (20 分)
  4. 理解Lucene中的Analyzer
  5. 聚焦行业新风口 白鹭科技云游戏战略发布会成功举办
  6. 免费录屏、最快截图、装X必备、看完工作学习效率直接翻倍
  7. centos7 python3 爬虫登陆邮箱_Centos7搭建Scrapy爬虫环境
  8. 安装天文软件karma和设置环境变量---conda安装和环境变量设置
  9. 国内十大HR系统品牌
  10. 【Scratch案例实操】Scratch萌宠运动会 scratch编程案例教学 scratch创意编程 少儿编程教案
  11. Linux下oracle数据库备份方案
  12. 关于12306网站抢票的架构设计
  13. 【父亲节H5】用独特的方式表达最深沉的爱!
  14. R语言 重命名指定列
  15. linux 下lzma压缩可以达到63倍的压缩率
  16. 疯狂马斯克:如何带特斯拉走出困境?
  17. 数据预处理-Excel 两列合并为一列中间加空格
  18. 树莓派 博通BCM2835芯片手册
  19. 替换请求输出文件和日志文件
  20. 查询局域网内在线电脑IP地址

热门文章

  1. Tubi 快讯|2023 Tubi Holiday 日期公布
  2. 台式计算机usb口不识别鼠标,联想笔记本不识别鼠标怎么办_联想电脑无法识别usb鼠标如何解决-win7之家...
  3. cad lisp 画梯形_应用于Auto CAD 的 Auto Lisp 编程 画出如图所示图形
  4. Exynos4412时钟体系分析
  5. 微信小程序swiper轮播图抖动问题解决
  6. 曹茂永《数字图像处理》第一章习题(部分)
  7. 数据库(SQL)的全面总结
  8. js render 函数
  9. 解决win10访问linux的smb共享的文件夹,拒绝访问
  10. PHP和ajax请求_php ajax请求和返回