爬虫从 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码,网页会经过渲染处理。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。那么,通过Web kit可以简单解决这个问题。Web kit 可以实现浏览器所能处理的任何事情。对于某些浏览器来说,Web kit就是其底层的网页渲染工具。Web kit是QT库的一部分,在安装QT和PyQT4库后,你可以直接运行下列代码。
windows下可以下载对应的包,cmd进入对应目录进行pip install;
linux下运行:sudo apt-get install python-qt4
https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyqt4
import sys
from PyQt4.QtWebKit import * from PyQt4.QtGui import * from PyQt4.QtCore import * class Render(QWebPage): # 用来渲染网页,将url中的所有信息加载下来并存到一个新的框架中 def __init__(self, url): self.app = QApplication(sys.argv) QWebPage.__init__(self) self.loadFinished.connect(self._loadFinished) self.mainFrame().load(QUrl(url)) self.app.exec_() def _loadFinished(self, result): self.frame = self.mainFrame() self.app.quit() url = 'http://ddbank.net/edu/mod/resource/view.php?id=707' r = Render(url) html = r.frame.toHtml() print(html)

转载于:https://www.cnblogs.com/dreamyheart/p/10368031.html

Python爬取js动态添加的内容相关推荐

  1. python爬取js动态网页_Python 从零开始爬虫(八)——动态爬取解决方案 之 selenium

    selenium--自动化测试工具,专门为Web应用程序编写的一个验收测试工具,测试其兼容性,功能什么的.然而让虫师们垂涎的并不是以上的种种,而是其通过驱动浏览器获得的解析JavaScript的能力. ...

  2. python爬取js动态网页_Python 爬取网页中JavaScript动态添加的内容(一)

    当我们进行网页爬虫时,我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息.但是如果网页中含有 JavaScript 代码,我们必须经过渲染处理才能获得原始数据.此时,如果我们仍采用常规方法 ...

  3. 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据

    本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...

  4. python爬取js加载的数据_JS动态加载数据不会爬?老司机教你两个方法爬取想要的数据...

    学习Python的人绝大部分都是在用Python做爬虫,毕竟对于爬虫而言Python是不二选. 但是一般简单的静态页面网站还是很好爬取的,对于很多动态加载的网站就不知道怎么办了,今天小编就给大家介绍两 ...

  5. python爬取微博动态页面id、内容、评论点赞数存入MongoDB 详解

    目录 前情提要 一.具体操作及注意事项 1.获取解析json文件 2.获取微博内容 3.存入MongoDB数据库 总代码及结果展示 前情提要 本次爬取有未解决的问题 1.用urlencode合成的ur ...

  6. python爬取ajax动态内容肯德基门店,Python爬虫如何爬取KFC地址

    随着人们生活水平的提高,肯德基这类的快餐消费的十分火爆,成为小朋友和年轻人的最爱,我们到一个地方想要找到肯德基店面,会根据导航获取肯德基地址,那你知道我们也可以使用python爬虫获取KFC地址吗?我 ...

  7. python爬取ajax动态内容肯德基门店_爬虫爬取国内肯德基门店信息

    预期效果 爬取每个城市(300+城市)所有的肯德基门店信息,保存到excel中,效果如下: 代码实现 import requests import csv import json def getDat ...

  8. 通过html直接显示txt内容_10分钟教你用Python爬取Baidu文库全格式内容

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:向柯玮,周航 程序猿声 PS:如有需要Python学习资料的小伙伴可 ...

  9. python爬取js加载的数据_Python爬虫:爬取JS加载数据的网页

    比如简书: Paste_Image.png 我们来写个程序,爬取简书网站随便一个作者的所有文章,再对其所有文章进行分词统计 程序运行统计的结果见文章: 我统计了彭小六简书360篇文章中使用的词语 需要 ...

最新文章

  1. 基于TPS28225功率MOS半桥电路测试
  2. UE4.18预览第一版发布,共享XR引擎层降低硬件支持难度
  3. 数据库课本SQL第三章答案
  4. Swift:用UICollectionView整一个瀑布流
  5. J-1 Java概述
  6. SAP UI5 OData Json model name
  7. js预览待上传的本地图片
  8. 将虚拟主机加入到netskills.net域环境_网站建设阿里云虚拟主机、ECS服务器、企业邮箱选择购买指南...
  9. 粒子文字特效css,CSS3 粒子效果
  10. Sublime Text 2搭建Java开发环境
  11. python对数字进行简单的可逆加密_Python实现简单的可逆加密程序实例
  12. Windows下载FFmpeg最新版(踩了一上午的坑终于成功)
  13. tensorflow构建CNN模型时的常用接口函数
  14. 网页三剑客的一些序列号
  15. SpringBoot项目 四种读取properties文件的方式
  16. python3图片文字识别
  17. 2022辽宁最新消防设施操作员模拟试题题库及答案
  18. msm8916 lcd 相关调试点指导
  19. 22南工计算机学院新生培训最终章---ACM竞赛机制
  20. numpy 图片水印去除

热门文章

  1. hdfs yarn hbase pid文件被删除解决办法:修改hadoop-daemon.sh yarn-daemon.sh hbase-daemon.sh中PID_DIR存储路径
  2. k8s pod和service的关系及常用service类型:ClusterIP/NodePort/LoadBalancer
  3. centos6.x 搭建K8S环境准备
  4. git bash解决中文乱码问题
  5. Python3 数字类型转换
  6. MySQL等关系型数据库概述
  7. MATLAB中line函数的用法
  8. 线性表应用之线性表算法设计六大经典案例
  9. 如何优雅而又不失内涵的在centos7下安装tree命令
  10. 3.1.6 OS之分页存储(页号、页偏移量等)