应用宝app数据采集

  • 工具准备
  • 项目思路解析
  • 简易源码分析

工具准备

数据来源: 应用宝
开发环境:win10、python3.7
开发工具:pycharm、Chrome

项目思路解析

明确需要采集的数据:

  • app的下载地址
  • app的下载次数
  • app的名字
  • app的开发公司

提取到页面的分类标签
获取到a标签的href属性
用于之后拼接动态地址

找到动态加载的app数据加载地址

url的值是每个分类标签的值
https://sj.qq.com/myapp/cate/appList.htm?orgame=1&categoryId=-10&pageSize=20&pageContext=undefined
拼接新的url值发送请求

简易源码分析

import requests  # 工具包发送网络请求
from lxml import etree   # 转换成对象
import csv    # 处理表格数据
url = "https://sj.qq.com/myapp/category.htm?orgame=1"
response = requests.get(url)
html_data = etree.HTML(response.text)
li_list = html_data.xpath('//ul[@data-modname="cates"][position()>1]/a/@href')
del(li_list[-1])
for url1 in li_list:for i in range(10):new_url = "https://sj.qq.com/myapp/cate/appList.htm" + url1 + "&pageSize=20&pageContext={}".format(i*20)res = requests.get(new_url).json()if res["count"] == 0:breakwith open("应用宝.csv", "a", newline="", encoding="utf-8")as f:csv_data = csv.DictWriter(f, fieldnames=["appName", 'authorName', "apkUrl"])for info in res["obj"]:appName = info['appName'] authorName = info['authorName']apkUrl = info['apkUrl']print({"appName": appName, "authorName": authorName, "apkUrl": apkUrl})csv_data.writerow({"appName": appName, "authorName": authorName, "apkUrl": apkUrl})

辛苦码字不易,如果能帮助到各位请来个三连吧,写了这么久都没有信心写下去了,兄弟们能给点力嘛。

Python爬虫实战:应用宝APP数据信息采集相关推荐

  1. Python爬虫实战:手机APP数据抓取分析!谁说不能爬取app数据的?

    大多数手机APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,使用python抓取超级课程表里用户发的话题.主要是练习python爬取app的一些方式和技巧. 1. ...

  2. python爬取app播放的视频,Python爬虫工程师必学——App数据抓取实战视频教程

    爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭建,App爬虫必备利器详解,项目实战,到最后的多App ...

  3. Python爬虫实战:天猫商品数据爬虫使用教程

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 下载chrome浏览器 查看chrome浏览器的版本号,下载对应版本号的chro ...

  4. Python爬虫实战(5):模拟登录淘宝并获取所有订单

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  5. Python爬虫实战(4):抓取淘宝MM照片

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  6. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  7. Python 爬虫实战,模拟登陆爬取数据

    Python 爬虫实战,模拟登陆爬取数据 从0记录爬取某网站上的资源连接: 模拟登陆 爬取数据 保存到本地 结果演示: 源网站展示: 爬到的本地文件展示: 环境准备: python环境安装 略 安装r ...

  8. 【Python爬虫实战】用urllib与服务端交互(发送和接收数据)

    本文节选自<Python爬虫技术:深入理解原理.技术与开发>. urllib是Python3中内置的HTTP请求库,不需要单独安装,官方文档链接如下: https://docs.pytho ...

  9. app小程序手机端Python爬虫实战12实现自动化退出考研帮app并清空缓存

    app小程序手机端Python爬虫实战11实现自动化退出考研帮app并清空缓存 一.捕获安卓吐司的消息 结束安卓的吐司操作: while True:if self.d.toast.get_messag ...

最新文章

  1. 1035等差数列末项计算
  2. vue项目构建实战基础知识:SPA理解/RESTful接口介绍/static目录配置/axios封装/打包时map文件去除...
  3. MySQL 开发日志 -- 性能调优
  4. JS实现限制input上传文件的大小和格式
  5. Python calendar日历模块的常用方法
  6. MTK 2G芯片使用联通卡在深圳无法拨打112原因
  7. Oracle dataGuard专题:Rman通过duplicate创建standby
  8. Android 应用开发(33)---Android程序签名打包
  9. 深入浅出统计学-第三章
  10. 盘点一款黑客必备的强大网络工具集——netwox
  11. Python--站在巨人肩膀上
  12. python数字转unicode_python2.7响应数据中unicode转中文
  13. KETTLE4个工作中有用的复杂实例--1、数据定时自动(自动抽取)同步作业
  14. Lingoes安装词典和语音库
  15. uniapp 本地相册选择图片
  16. 原创 METTLER TOLEDO托利多Bplus 条码格式设置教程(scale manager)
  17. Kettle连接MySQL数据库找不到驱动问题解决
  18. 《肥鸟笔记--基础数据结构》一、栈
  19. 详细SpringBoot教程之数据访问
  20. 诺基亚6升级+Android8,诺基亚6升级安卓7.1.1系统:不止是更快

热门文章

  1. HDOJ1020 Encoding
  2. win8 附件数据库失败解决方案《1》
  3. SQL SERVER 2008的top增强
  4. 为vsftpd添加虚拟用户的脚本
  5. Golang sync.Mutex 与 sync.RWMutex
  6. QT编译错误:invalid application of 'sizeof' to incomplete type 'Qt3DRender::QPickEvent'
  7. Jersey 2.x JDK 上的客户端应用
  8. VS2015 C#利用QrCodeNet生成QR Code
  9. Python中的正则表达式(re)
  10. 【资料下载】Python 第九讲——灵活运用docker,实现深度学习的环境搭建...