好久没碰python了。。写一个简单的热热手

'''
Created on 2014.2.25
for QQnews
@author: accyao
'''
import sys
import urllib2
import urllib
import re
import os
import time
reload(sys)
sys.setdefaultencoding('utf-8')
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
tm = time.strftime('%Y%m%d',time.localtime(time.time()))
print(tm)
def getTitle(page):key = "<title>.*</title>"title = re.findall(key, page)return title
def getText(page):key = "<P style=\"TEXT-INDENT: 2em\">.*</P>"text = re.findall(key,page)return text
def dlNews(idx):tmp = urllib2.Request(url = 'http://news.qq.com/a/'+str(tm)+'/'+str("%06d"%idx)+'.htm',headers = headers)try:html = urllib2.urlopen(tmp).read()title = getTitle(html)[0]title = title.replace('<title>','') title = title.replace('</title>','')if(os.path.isfile(title+".txt")==0):filename = title+".txt"fl = file(filename,'w')text = getText(html)[0]text = text.replace('<P style=\"TEXT-INDENT: 2em\">','') text = text.replace('</P>','\n')text = re.sub('<[^>]*>',' ',text)fl.write(text)except urllib2.HTTPError,e:print(e.reason)
def main():for i in range(1803,1804):dlNews(i)
main()


												

Python爬虫QQnews相关推荐

  1. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  2. python爬虫之Scrapy框架的post请求和核心组件的工作 流程

    python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...

  3. python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库

    我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...

  4. python爬虫案例_推荐上百个github上Python爬虫案例

    现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...

  5. Python培训分享:python爬虫可以用来做什么?

    爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...

  6. 玩转 Python 爬虫,需要先知道这些

    作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...

  7. 买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划

    作者 | 菜园子哇 编辑 | 唐小引 来源 | CSDN 博客 马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...

  8. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

  9. Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!

    Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...

最新文章

  1. 2015年浪潮面试题
  2. python的concat用法_Pandas串联操作concat()用法介绍
  3. 崔家桥计算机学校,汉寿县崔家桥中学
  4. Unicode、UTF-8、Big Endian、Little Endian、GBK、UCS-2
  5. 机械之家再获3000万A+轮投资,58产业基金领投
  6. 谷歌浏览器该扩展程序未列在Chrome网上应用店中解决方法
  7. 状态转移表+State模式
  8. 几个简单的OpenCV程序
  9. vs 2005應用2003框架
  10. Flink on Zeppelin (1) - 入门篇
  11. VS工具使用技巧总结
  12. 基于NLTK的命名实体识别(分词、词性标注) 及windows系统64位—在python3下安装nltk
  13. 个人作业——软件工程实践总结作业
  14. DB2 SQLCODE 异常大全编辑(一)
  15. 计算机网络详细笔记【湖科大教书匠,内含B站链接】
  16. 阿帕拉契州立大学代表团访问AURAK
  17. 关于solidworks+workbench的参数化建模分析的一点心得1
  18. 远程服务器上的输入法不见了,电脑输入法不见了怎么办?
  19. word的页脚页码从9开始后面全是1,怎么解决?
  20. 从控制台输入用户名和密码, 然后 判断输入的用户名是否是@“Frank”, 密码 是否是 @“lanou”, 如果用户名和密码都正确,则输出登录成功, 否则输出登录失败. 提示:

热门文章

  1. 一个应届生的应聘:直飞Google总部[zt]
  2. css3平移、旋转、倾斜、缩放、动画效果的实现
  3. DOCTYPE声明方式
  4. XWPFTableCell设置字体样式及大小导致的样式问题
  5. 持续集成与teamcity的安装和使用
  6. 福建计算机大学专业分数线,华侨大学计算机类专业2016年在福建理科高考录取最低分数线...
  7. 所有人都应该接受行善的成本是伪善行为
  8. Decorating The Pastures
  9. 【python】python学习之条件语句,小实验:商品打折后价格
  10. KOOM原理分析之一些基础知识