没有好用的美国新闻api,只好从网页上抓取

可以获得新闻列表和url(大约80条),并可以获取具体每一条新闻的文字内容:

'''
Author   : Peizhong Ju
Date     : Apr. 29, 2016
Function : Get the news from WashingtonPost [python2.7]
'''
import urllib2
import HTMLParser
import randomclass GetList(HTMLParser.HTMLParser): #get the url list of all articlesdef __init__(self):HTMLParser.HTMLParser.__init__(self)self.outputFlag = Falseself.count = 0self.link = ''self.linkList = []def handle_starttag(self, tag, attrs):if tag == 'a':for key, value in attrs:if key == 'data-pb-field':if value == 'web_headline':self.outputFlag = Trueif key == 'href':self.link = valuedef handle_data(self, data):if self.outputFlag:self.count += 1print self.countprint dataprint self.linkself.linkList.append(self.link)self.outputFlag = Falseclass GetArticle(HTMLParser.HTMLParser): #get article contentdef __init__(self):HTMLParser.HTMLParser.__init__(self)self.list = ['headline', 'name']self.flag = Falseself.articleFlag = Falsedef handle_starttag(self, tag, attrs):for key, value in attrs:if key == 'itemprop':if value in self.list:self.flag = Trueif tag == 'article':self.articleFlag = Truedef handle_data(self, data):if self.articleFlag:print dataelif self.flag:print dataself.flag = Falsedef handle_endtag(self, tag):if tag == 'article':self.articleFlag = Falseres = urllib2.urlopen('https://www.washingtonpost.com/')
my = GetList()
my.feed(res.read().decode('utf8'))
print "------From WashingtonPost-----"
print "------------------------------"
res2 = urllib2.urlopen(my.linkList[random.randint(1, len(my.linkList))])
ar = GetArticle()
ar.feed(res2.read().decode('utf8'))

python抓取新闻【华盛顿邮报】相关推荐

  1. python爬取新闻网站内容findall函数_Python正则抓取新闻标题和链接的方法示例

    本文实例讲述了Python正则抓取新闻标题和链接的方法.分享给大家供大家参考,具体如下: #-*-coding:utf-8-*- import re from urllib import urlret ...

  2. python抓取网页文章_使用Python从公共API抓取新闻和文章

    python抓取网页文章 Whether you are data scientist, programmer or AI specialist, you surely can put huge nu ...

  3. python新闻评论分析_使用 python 抓取并分析京东商品评论数据

    本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...

  4. python网络爬虫实战3——抓取新闻内文相关信息

    详细代码见:http://download.csdn.net/download/vinsuan1993/10258596 一.需求说明 我们通过上一篇博客(http://blog.csdn.net/c ...

  5. Python抓取网页中的动态序列化数据

    Python抓取网页中的动态序列化数据 动态序列化数据经常应用于前后端分离的页面.或者通过VUE.JS等HTML页面环境,常规的爬虫抓取方法并不能满足数据采集的要求,因此需要其他的方式进行数据的采集. ...

  6. python代码案例详解-我用Python抓取了7000 多本电子书案例详解

    安装 安装很简单,只要执行: pip install requests-html 就可以了. 分析页面结构 通过浏览器审查元素可以发现这个电子书网站是用 WordPress 搭建的,首页列表元素很简单 ...

  7. python抓取头条文章

    python抓取头条美文并存储到mongodb # Author:song from multiprocessing import Pool from urllib.parse import urle ...

  8. 微信好友大揭秘,使用Python抓取朋友圈数据,通过人脸识别全面分析好友,一起看透你的“朋友圈”...

    微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友 ...

  9. python爬虫保存图片到指定文件夹_李亚涛:python抓取某房源户型图并自动保存到文件夹...

    大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中. 大概的思路是: 1.获取网页源代码 2.获取图片地址与房源名称 3.在当 ...

最新文章

  1. 《大数据、小数据、无数据:网络世界的数据学术》一 导读
  2. 查看mysql日志文件大小和数据库大小
  3. [转载]登录功能测试总结
  4. ES6 Generator async
  5. linux 安装tomcat 权限不足问题
  6. SQL Server导入导出工具弱爆了
  7. 关闭 进程_关闭一个进程 锐龙CPU骤然降温22.5!
  8. 对vector中的数据排序
  9. Android嵌入式安卓触摸屏|4418开发板平台
  10. Git如何创建本地分支并推送到远程仓库
  11. log4j不输出日志的解决方案
  12. VS2008 清理注册表
  13. 小米营销总监:中国模式能复制,但要有本地化的独特性
  14. MTK功能机RF射频参数计算与配置
  15. 电信光猫超级密码破解
  16. TurboCAD Mac Pro 12(CAD设计绘图软件)
  17. Linux服务器中登录oracle数据库
  18. 计算机哪些方向发展前景,计算机就业的几个方向
  19. 图片外链网站需要什么样服务器,10个支持外链图片服务的免费图床网站
  20. markdown转html格式

热门文章

  1. vue 作者在2022-2-7起宣布 vue3 正式作为默认版本
  2. 计算机工勤技能考试试题,河南省事业单位工勤技能考试试题 (计算机信息处理)...
  3. dubbo源码解析-SPI机制
  4. 动态规划法求解最长公共子序列问题
  5. 光刀选用尽可能大的刀
  6. 论文笔记(微表情识别):Micro-Attention for Micro-Expression Recognition
  7. C或C++学习资源(转)
  8. html标签语义化的好处,什么是HTML语义化?html语义化的好处(总结)
  9. PHPCMF+php+日记(一)
  10. vue:label中的内容换行