python爬取网易动态评论
打开网易的一条新闻的源代码后,发现并没有所要得评论内容。
经过学习后发现,源代码只是一个完整页面的“骨架”,而我所需要的内容是它的填充物,这时候需要打开工具里面的开发人员工具,从加载的“骨肉”里找到我所要的评论圈住的是类型
找到之后打开网页,发现json类型的格式,用我已学过的正则,bs都不好闹,于是便去了解了正则,发现把json的格式换化成python的格式后,用列表提取内容是一条明朗的道路。。。
但是在细致分析的时候也发现了问题
从这里获得每条评论时,感觉有点不对,观察发现如果是回复评论的评论会出现他回复那条评论的数据,于是用正则提取了一下
最终的代码如下:
#coding=utf-8
__author__ = 'kongmengfan123'import urllib
import re
import json
import timedef gethothtml(url):#最热评论page=urllib.urlopen(url)html=page.read()get_json(html)def gethnewtml():#最新评论有5页for i in range(1,6):url = 'http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/newList?offset=%d&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc&_=1478010624978'%i*30page = urllib.urlopen(url)html=page.read()time.sleep(1)get_json(html)def get_json(json_):end_=re.compile(r'\);')#将json网页转化成python数据begain=re.compile(r'getData\(')json_=begain.sub('',json_)json_=end_.sub('',json_)ajson=json.loads(json_)lis=ajson["commentIds"]#获得每条评论的键n=0for i in range(1,len(lis)):try:xulie=re.compile('\d{10,}')#取得准确评论的键(去掉回复)bia=re.findall(xulie,lis[n])w.write(ajson['comments'][bia[len(bia)-1]]['user']['nickname'].encode('utf-8')+'|')except KeyError:w.write(ajson['comments'][bia[len(bia)-1]]['user']['location'].encode('utf-8')+'|')if (len(lis[n])>13):xulie=re.compile('\d{10,}')bia=re.findall(xulie,lis[n])w.write(ajson['comments'][bia[len(bia)-1]]['content'].encode('utf-8')+'\n')else:w.write(ajson['comments'][lis[n]]['content'].encode('utf-8')+'\n')n=n+1return lisw=open('wangyi.txt','w')
w.write('用户名'+'|'+'热门评论'+'\n')
hot_=gethothtml('http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/hotList?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc')
w.write('用户名'+'|'+'最新评论'+'\n')
gethnewtml()
w.close()
成功。。。
python爬取网易动态评论相关推荐
- Python爬取新闻动态评论
四年前的文章了,现在才看见没通过....当初明明过了的... 1.前些天打开网易新闻,于是点开爬取该新闻的评论. 2.以前爬取的网页都是静态的,都是源代码中直接就有,一眼就可以观察到的,而这次打开却不 ...
- 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据
本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...
- python爬取爱情公寓电影评论并制作词云
python爬取爱情公寓电影评论并制作词云 前言: 一直想研究研究如何生成词云,今天抽点时间给大家分享一下制作词云的过程,本文重在研究词云如何制作,由于时间仓促,至于爬取的数据量不大,大家可自 ...
- Python爬取京东商品评论
京东商城的页面不是静态页面,其评论信息存放于json文件中,由ajax控制,所以我们在浏览器上看到的网页源代码和用Python爬下来的是不一样的,所以我们真正要爬取的是评论数据所存放的json文件. ...
- Python爬取京东商品评论和图片下载
Python爬取京东商品评论和图片下载 代码仅供学习使用,切勿扩散并且频繁爬取网站 贴上代码和注释,方便自己下次看 import requests import time import json im ...
- python爬取股票信息_利用Python爬取网易上证所有股票数据(代码
利用Python爬取网易上证所有股票数据(代码 发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...
- python爬取B站评论制作词云
python爬取B站评论制作词云 江山代有才人出,B站评论占一半 废话不多说,咱们直接上代码` import imageio import jieba import wordcloud import ...
- python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)
[一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...
- Python - 爬取豆瓣短评评论
Python - 爬取豆瓣短评评论 import requests from bs4 import BeautifulSoup import re import time# 保存豆瓣评分 source ...
- 用python爬取天猫商品评论并分析(2)
用python爬取天猫商品评论并分析(2) 之前介绍过天猫数据的爬取和数据初步处理,今天介绍下 将采集的评论进行文本分析!下面是总流程: 0. 主要流程 0. 数据采集 这一步参考网址:https:/ ...
最新文章
- 卧槽,又一个Java面试神器!!!
- Git之深入解析Rerere重用记录的解决方案
- oracle安装,未找到文件 F:\app\Administrator\product\11.2.0\dbhome_2\owb\external\oc4j_ap
- 【网络】为什么我执行了发布操作,但是线上的资源并没有更新?
- Windows下杀进程的命令
- 适合程序员的机器人编程c语言,技术干货六:机器人编程的C++基础知识
- python复制图片文件_python批量复制图片到另一个文件夹
- 数据清洗Chap4——dataframe操作
- 5G LTE窄带物联网(NB-IoT) 10
- 论文写作流程图软件_论文中的流程图一般都用什么软件?
- excel出入库采购库存管理系统
- 计算机管理员永久访问权限,三种方法让你获得Win7管理员最高权限
- 一文读懂 WalletConnect
- Activity销毁不调用Ondestroy情况以及处理
- win10安装MingW64
- 47个经典java程序编程题
- 理解ROM,PROM,EPROM,EEPROM,RAM,DRAM,SRAM,FLASH是什么
- c语言调用cmd隐藏黑窗口,golang 调用cmd下程序隐藏黑窗口-方法1
- 支付赎金后,80%的企业遭受第二次勒索软件攻击
- UML图:活动图详细介绍
热门文章
- SDAU信息学院LaTeX模板使用指南
- vue3-proxy
- VS2019使用Mini-Filter
- 682. Baseball Game 棒球游戏 按字母处理
- 吴伯凡-认知方法论-消极数据的力量
- python中除法运算定律_数学有哪几种简便运算方法?(除了加、乘法交换、结合律,减、除法的性质)...
- android fsck,android fsck_msdos分析(一)
- “腾讯再有本事,也要出海讨生活”
- 数据结构java实验_20172301 《Java软件结构与数据结构》实验一报告
- 效果图什么网站赚零花钱_为什么你赚的钱少