scrapy处理JSON API
有时候你会发现你需要的数据在原始的HTML页面上找不到。比如下面这种情况:
右击查看元素会看到一个普通的DOM树,但是用scrapy shell
或右击选择查看源代码的时候,会发现源代码中没有任何信息。
在这种情况下,可以F12打开开发者工具,选择Network界面,在左边的列表里就能看到浏览器为加载此页面而发出的所有请求。这里有三项:static/
已经看过了(URL就是),jquery.min.js
是一个JS框架,这样看来api.json
应该就是数据了。如果点击这一项,然后选择Preview界面,就能看到这些数据。比如:
[{"id": 0,"title": "better set unique family well"},... {"id": 29,"title": "better portered mile"}]
以上只是一个很简单的JSON API的例子,更复杂的可能要求你登录、使用POST请求或者返回更复杂的数据。JSON格式的数据还是很好解析的,因为不需要写XPath表达式。Python提供了一个解析JSON的库,可以import json
后使用json.loads(response.body)
。
start_urls
可以这样写:
start_urls = ('http://web:9312/properties/api.json',
)
如果需要使用POST请求或者其他更复杂的操作可以用start_requests()
方法。
scrapy处理JSON API相关推荐
- python构建json_如何使用Python构建JSON API
python构建json The JSON API specification is a powerful way for enabling communication between client ...
- JSON API免费接口
JSON API免费接口 各种提供JSON格式数据返回服务网站的API接口 这里为大家搜集了一些能够返回JSON格式的服务接口.部分需要用JSONP调用. 电商接口 淘宝商品搜索建议: http:// ...
- Scylla——开源免费的优秀代理 IP 池:自动验证、JSON API、基于 React 的 Web UI、Docker 支持...
GitHub:github.com/imWildCat/s- 中文文档:scylla.wildcat.io/zh/latest/ 自己是一个爬虫爱好者,有时候爬虫写的太过强大了被目标网站封了(笑).所 ...
- 在.Net Core 3.0中尝试新的System.Text.Json API
.NET Core 3.0提供了一个名为System.Text.Json的全新命名空间,它支持reader/writer,文档对象模型(DOM)和序列化程序.在此博客文章中,我将介绍它如何工作以及如何 ...
- .NET Core 3.0 新 JSON API - JsonSerializer
JsonSerializer 前面几节的内容可能稍微有点底层,我们大部分时候可能只需要对C#的类进行串行化或者将JSON数据反串行化成C#类,在.NET Core 3.0里面,我们可以使用JsonS ...
- .NET Core3发布Json API
我们给DNC3(.NET Core 3)上了一个新包,叫做System.Text.Json(点我下载),支持读写器,DOM(文档对象模型),和序列化,在这篇博文里,我会告诉大家为什么要做这个,这个包怎 ...
- [译]试用新的System.Text.Json API
译注 尝试新的System.Text.Json API 对于.NET Core 3.0,我们 提供了一个名为System.Text.Json的全新命名空间 ,支持读取器/写入器,文档对象模型(DOM) ...
- 将json转为map的两种方式及前后端开发json Api设计规范总结
一.使用jackson String jsonData = "{\"identifier\":\"18111111111\",\"opTyp ...
- 单独的REST JSON API服务器和客户端? [关闭]
本文翻译自:Separate REST JSON API server and client? [closed] I'm about to create a bunch of web apps fro ...
最新文章
- MindSpore数据集mindspore::dataset
- linux配置文件怎么把某行后几个字符替换_vim(Linux运维)
- 强迫用户升Win10?旧版Windows放弃对新CPU更新支持
- where is url parameter evaluated in UI5 core q.sap.getUriParameters
- DOTNET零碎要点---字符串截取操作
- 21.策略模式(Strategy Pattern)
- 黑苹果efi文件_台式机华硕主板黑苹果EFI引导文件分享amp;2020.12.2
- 一、matpower安装流程
- shell中的until循环
- python 基础-如何调用函数
- 蚂蚁金服 RPC 框架 Sofa-Bolt 结构分析
- 11月书讯(下) | 拿下这些新书,赢在起跑线
- 萌新小白的HTML第一天学习
- Java-学校项目3---类与对象
- 智能无人避障系统学习路线
- AI实战:深度学习必须使用大量数据?数据量对深度学习的重要性可能超乎你的想象!
- “三行情书”——给你三行代码的爱恋~
- 护眼色RGB的数值及在福昕阅读器上的设置方法
- 【JMeter】Jmeter分布式压测教程
- mimikatz免杀过360和火绒
热门文章
- 国内最成功的B2C独立网店系统-ECShop
- 修改哪个请求头可以伪造请求ip_基于EtherNet/IP实现欧姆龙NX系列PLC通信
- 期刊分类常识 核心期刊?普刊?
- sofa协议服务器,sofa-rpc 服务端源码流程走读
- 有关客户端连接SQLServer2005数据库
- Kubernetes集群监控解决方案kube-prometheus-stack(prometheus-operator)helm安装
- 牛客网笔试题 (经常更新)
- 小程序实现附近三公里搜索和地图路线导航(改版)
- eclipse中如何调出提示?
- MRCTF2020 Ezpop wp