python抓取新闻【华盛顿邮报】

没有好用的美国新闻api，只好从网页上抓取

可以获得新闻列表和url（大约80条），并可以获取具体每一条新闻的文字内容：

'''
Author   : Peizhong Ju
Date     : Apr. 29, 2016
Function : Get the news from WashingtonPost [python2.7]
'''
import urllib2
import HTMLParser
import randomclass GetList(HTMLParser.HTMLParser): #get the url list of all articlesdef __init__(self):HTMLParser.HTMLParser.__init__(self)self.outputFlag = Falseself.count = 0self.link = ''self.linkList = []def handle_starttag(self, tag, attrs):if tag == 'a':for key, value in attrs:if key == 'data-pb-field':if value == 'web_headline':self.outputFlag = Trueif key == 'href':self.link = valuedef handle_data(self, data):if self.outputFlag:self.count += 1print self.countprint dataprint self.linkself.linkList.append(self.link)self.outputFlag = Falseclass GetArticle(HTMLParser.HTMLParser): #get article contentdef __init__(self):HTMLParser.HTMLParser.__init__(self)self.list = ['headline', 'name']self.flag = Falseself.articleFlag = Falsedef handle_starttag(self, tag, attrs):for key, value in attrs:if key == 'itemprop':if value in self.list:self.flag = Trueif tag == 'article':self.articleFlag = Truedef handle_data(self, data):if self.articleFlag:print dataelif self.flag:print dataself.flag = Falsedef handle_endtag(self, tag):if tag == 'article':self.articleFlag = Falseres = urllib2.urlopen('https://www.washingtonpost.com/')
my = GetList()
my.feed(res.read().decode('utf8'))
print "------From WashingtonPost-----"
print "------------------------------"
res2 = urllib2.urlopen(my.linkList[random.randint(1, len(my.linkList))])
ar = GetArticle()
ar.feed(res2.read().decode('utf8'))

python抓取新闻【华盛顿邮报】相关推荐

python爬取新闻网站内容findall函数_Python正则抓取新闻标题和链接的方法示例
本文实例讲述了Python正则抓取新闻标题和链接的方法.分享给大家供大家参考,具体如下: #-*-coding:utf-8-*- import re from urllib import urlret ...
python抓取网页文章_使用Python从公共API抓取新闻和文章
python抓取网页文章 Whether you are data scientist, programmer or AI specialist, you surely can put huge nu ...
python新闻评论分析_使用 python 抓取并分析京东商品评论数据
本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...
python网络爬虫实战3——抓取新闻内文相关信息
详细代码见:http://download.csdn.net/download/vinsuan1993/10258596 一.需求说明我们通过上一篇博客(http://blog.csdn.net/c ...
Python抓取网页中的动态序列化数据
Python抓取网页中的动态序列化数据动态序列化数据经常应用于前后端分离的页面.或者通过VUE.JS等HTML页面环境,常规的爬虫抓取方法并不能满足数据采集的要求,因此需要其他的方式进行数据的采集. ...
python代码案例详解-我用Python抓取了7000 多本电子书案例详解
安装安装很简单,只要执行: pip install requests-html 就可以了. 分析页面结构通过浏览器审查元素可以发现这个电子书网站是用 WordPress 搭建的,首页列表元素很简单 ...
python抓取头条文章
python抓取头条美文并存储到mongodb # Author:song from multiprocessing import Pool from urllib.parse import urle ...
微信好友大揭秘，使用Python抓取朋友圈数据，通过人脸识别全面分析好友，一起看透你的“朋友圈”...
微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友 ...
python爬虫保存图片到指定文件夹_李亚涛：python抓取某房源户型图并自动保存到文件夹...
大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中. 大概的思路是: 1.获取网页源代码 2.获取图片地址与房源名称 3.在当 ...

python抓取新闻【华盛顿邮报】

python抓取新闻【华盛顿邮报】相关推荐

最新文章

热门文章