这篇文章主要介绍了Python正则抓取网易新闻的方法,结合实例形式较为详细的分析了Python使用正则进行网易新闻抓取操作的相关实现技巧与注意事项,需要的朋友可以参考下

本文实例讲述了Python正则抓取网易新闻的方法。分享给大家供大家参考,具体如下:

自己写了些关于抓取网易新闻的爬虫,发现其网页源代码与网页的评论根本就对不上,所以,采用了抓包工具得到了其评论的隐藏地址(每个浏览器都有自己的抓包工具,都可以用来分析网站)

如果仔细观察的话就会发现,有一个特殊的,那么这个就是自己想要的了

然后打开链接就可以找到相关的评论内容了。(下图为第一页内容)

接下来就是代码了(也照着大神的改改写写了)。#coding=utf-8

import urllib2

import re

import json

import time

class WY():

def __init__(self):

self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/534.24 (KHTML, like '}

self.url='http://comment.news.163.com/data/news3_bbs/df/B9IBDHEH000146BE_1.html'

def getpage(self,page):

full_url='http://comment.news.163.com/cache/newlist/news3_bbs/B9IBDHEH000146BE_'+str(page)+'.html'

return full_url

def gethtml(self,page):

try:

req=urllib2.Request(page,None,self.headers)

response = urllib2.urlopen(req)

html = response.read()

return html

except urllib2.URLError,e:

if hasattr(e,'reason'):

print u"连接失败",e.reason

return None

#处理字符串

def Process(self,data,page):

if page == 1:

data=data.replace('var replyData=','')

else:

data=data.replace('var newPostList=','')

reg1=re.compile(" \[")

data=reg1.sub(' ',data)

reg2=re.compile('<\\\/a>\]')

data=reg2.sub('',data)

reg3=re.compile('
')

data=reg3.sub('',data)

return data

#解析json

def dealJSON(self):

with open("WY.txt","a") as file:

file.write('ID'+'|'+'评论'+'|'+'踩'+'|'+'顶'+'\n')

for i in range(1,12):

if i == 1:

data=self.gethtml(self.url)

data=self.Process(data,i)[:-1]

value=json.loads(data)

file=open('WY.txt','a')

for item in value['hotPosts']:

try:

file.write(item['1']['f'].encode('utf-8')+'|')

file.write(item['1']['b'].encode('utf-8')+'|')

file.write(item['1']['a'].encode('utf-8')+'|')

file.write(item['1']['v'].encode('utf-8')+'\n')

except:

continue

file.close()

print '--正在采集%d/12--'%i

time.sleep(5)

else:

page=self.getpage(i)

data = self.gethtml(page)

data = self.Process(data,i)[:-2]

# print data

value=json.loads(data)

# print value

file=open('WY.txt','a')

for item in value['newPosts']:

try:

file.write(item['1']['f'].encode('utf-8')+'|')

file.write(item['1']['b'].encode('utf-8')+'|')

file.write(item['1']['a'].encode('utf-8')+'|')

file.write(item['1']['v'].encode('utf-8')+'\n')

except:

continue

file.close()

print '--正在采集%d/12--'%i

time.sleep(5)

if __name__ == '__main__':

WY().dealJSON()

以上就是我爬取的代码了。

以上就是抓取网易新闻的python代码示例的详细内容,更多请关注php中文网其它相关文章!

本文原创发布php中文网,转载请注明出处,感谢您的尊重!

新闻采集系统python_抓取网易新闻的python代码示例相关推荐

  1. python爬取新闻网站内容_python爬虫案例:抓取网易新闻

    此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选的分类是国内新闻.然后鼠 ...

  2. python爬虫案例:抓取网易新闻

    此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选的分类是国内新闻.然后鼠 ...

  3. Scrapy爬虫框架抓取网易新闻

    @scrapy 环境安装 Windows scrapy的安装需要5个依赖库,先安装好这5个依赖库,然后在dos命令中利用pip install安装scrapy框架即可,首先要确保python的目录是添 ...

  4. 爬虫用fiddler抓取网易新闻客户端手机app内容

    一,工具 电脑安卓模拟器:夜神模拟器 抓包工具:fiddler 代码:pycharm 二.分析 1.首先要设置好fiddler和夜神模拟器的关联,这个网上很多教程这里不做介绍 2.打开网易app,观察 ...

  5. 04-python简单爬虫_爬取网易新闻

    # -*- coding: utf-8 -*- import os import sys import requests import re from lxml import etree"& ...

  6. Python网络爬虫之基本项目:爬取网易新闻排行榜

    1. 最基本的抓取 抓取大多数情况属于get请求,即直接从对方服务器上获取数据. 首先,Python中自带urllib及urllib2这两个模块,基本上能满足一般的页面抓取.另外,requests也是 ...

  7. 网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp)

    转自原文 网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp) 最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决 ...

  8. 网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp

    网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp 最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一 ...

  9. Python+beautifulsoup+requests 爬取网易新闻评论

    前段时间在看处理数据相关的书籍,实践中需要一些网上评论的文本数据集,所以想到爬取网易新闻底下的评论.本来想着Python+beautifulsoup(解析)+requests(抓取),最后存储在txt ...

最新文章

  1. mysql修改密码的注意点
  2. [ 人机交互 ] 第三次作业 2015080360025秦嘉颍
  3. [2020多校A层11.18] 三角田地(因式分解)
  4. 代码质量度量标准_追求代码质量(2): 监视圈复杂度
  5. web.xml 中的listener、 filter、servlet 加载顺序及其详解
  6. java报错: 类重复: newemission.calculate_java当中的继承(一)
  7. qq微信淘宝京东自动转链转发机器人MkStone京东淘宝转链助手
  8. 【动画演示软件】Focusky教程 | 加入 配音/录音/字幕
  9. 【每日学习3.31】 筹备腾讯三面 - 阿V
  10. 谈谈对内存管理子系统的理解
  11. 苹果软件更新在哪里_手机资讯:iPhone 为什么比安卓手机好用iPhone 的独到之处在哪里...
  12. 什么是文件的绝对路径
  13. Spring+SpringMVC+Mybatis开发
  14. CSDN如何获取积分(转载)
  15. 解释:什么是CPC,CPA,CVR,CTR,ROI? 营销、广告、淘宝 术语
  16. 《乐队的夏天》刺猬乐队下半年音乐节巡演时间表
  17. Linux安装dos2unix的方法—绝对完全有用
  18. AZ-204认证考试攻略
  19. IOS之plist文件
  20. 大数据开源平台好在哪里?

热门文章

  1. 最新的生活、工作感悟
  2. C# Owin快速搭建网站(免IIS),一个.exe文件即是一个服务器
  3. 013 Mapreduce相关概念WordCount框架搭建WordCount的map和reduce函数实现 WordCount的驱动类编写WordCount测试MapReduce数学案例运算 AWK
  4. 查询某表空间被哪些用户所使用
  5. 简述子网划分的方法 计算机网络,IP子网划分
  6. ShaderToy(二)画笑脸
  7. 手机序列号和设备标识UDID码手机直接获取方式:
  8. 当贝os系统和华为鸿蒙系统,敢和华为鸿蒙OS叫板的操作系统如何?网友说,咦?咋这么好用呢!...
  9. Window系统 时间同步服务器IP地址
  10. python和mysql数据类型对应,MySQL和Python交互的示例