idea of startproject

  1. 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。

  2. 对于 nlper,缺乏足够的新闻语料数据集来供训练。

  3. 对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。

  4. 如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。

project 的 Github:https://github.com/Python3Spiders/AllNewsSpider

继承自 澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布
,本篇是新闻系列的第二篇,以腾讯新闻为目标网站

腾讯新闻爬虫

该爬虫实现的主要功能罗列如下:

  1. 全自动爬取腾讯新闻全站新闻内容,包括 娱乐军事科技财经 四大 category。
  2. 可以自定义输入爬取的最大页码,默认是 20
  3. 字段信息齐全,如下表格
字段名 字段含义
recode_time 该条新闻被抓取的时间
news_title 新闻标题
news_summary 新闻概括
news_url 新闻链接
news_author 新闻作者
news_keywords 新闻关键词,以 ;分隔
news_time 新闻发布的时间
news_content 新闻具体内容
news_view_count 新闻浏览量
news_comment_count 新闻评论数

再说说如何使用(默认读者均有 python3.6+ 环境)

  1. 将仓库 tencent文件夹下的 tencent_news_spider.pyd 文件下载到本地,新建项目,把 pyd 文件放进去

  2. 项目根目录下新建 runner.py,写入以下代码即可运行并抓取

    import tencent_news_spider
    tencent_news_spider.main()
    

开始运行时会提示输入爬取到哪一页,默认是 20 页

爬取过程中是下面这样的

爬取结束了,会在当前目录下生成一个 腾讯新闻.xlsx文件,里面保持了四个 category 的所有网站上可浏览的文本新闻,一个 category 对应一个 sheet_name。

预告

1、新浪新闻爬虫

2、nytimes 纽约时报爬虫

3、thetimes 泰晤士报爬虫

新闻平台聚合之腾讯新闻爬虫发布相关推荐

  1. 各地新闻客户端名称_腾讯新闻客户端排名优秀内容奖榜首

    日前,腾讯新闻客户端在由中国联通主办,艾瑞咨询集团承办的"2013中国联通沃商店第三届开发者大会"上,凭借权威新闻.丰富内容.精品栏目等优势,以及首创极速离线阅读.滑动切换频道等功 ...

  2. 澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布

    idea of startproject 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api. 对于 nlper,缺 ...

  3. python新闻收集,Python采集腾讯新闻实例

    目标是把腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主页上所有链接爬取出来,写到文件里. python在获取html方面十分方 ...

  4. 腾讯新闻电脑客户端 v4.3.2 官方pc版

    腾讯新闻电脑客户端 v4.3.2 官方pc版 软件大小:11MB  软件语言:简体中文 软件类别:阅读软件 软件授权:免费版 应用平台:/Win8/Win7/WinXP 是腾讯公司的一个新闻资讯产品. ...

  5. 基于scrapy-redis的分布式腾讯新闻爬虫

    目录 任务目标 爬取流程设计 文字描述 流程图 项目实施 硬件设施 软件设施 功能概述 结构功能图 网站分析 主页 获取其他新闻链接 内容页 获取正文及判断: 获取标题 获取评论 数据库设计 重要代码 ...

  6. 爬虫篇——腾讯新闻的详细采集过程(列表新闻和新闻内容)

    腾讯新闻.新浪新闻的详细采集过程 一.腾讯新闻采集 1.按分类采集腾讯新闻列表 分析过程: 具体代码: 2.采集腾讯新闻内容 分析过程 具体代码 二.新浪新闻采集分析 一.腾讯新闻采集 1.按分类采集 ...

  7. python爬取腾讯新闻_python爬虫实战――爬取腾讯新闻 !

    无论我们通过浏览器打开网站.访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的.控制台所显示的都是HTTP服务器对我们请求的响应. 以打开腾讯新闻官网为例, ...

  8. python爬虫新浪,网易,腾讯新闻及评论

    爬取新浪,网易,腾讯新闻及评论 源代码:https://github.com/jsphLim/news_crawl 主要文件 -main.py -newsspider.py #!/usr/bin/en ...

  9. Python爬虫学习获取腾讯新闻并存入Csv文件

    with open('09_腾讯新闻.csv','a+') as f:    这样子写入的话产生的csv文件每行后面都会多一条空行,添加newline=''即可消除空行: 即with open('09 ...

最新文章

  1. Mac搭建Git服务器—开启SSH
  2. 简单多边形与圆交面积模板
  3. 最新wingide6破解方法(支持Linux),亲测有效,支持python3.0
  4. 打包java程序生成exe
  5. xshell执行结果到文本_xshell拷贝文件到本地
  6. java - 匿名类
  7. 登陆界面网页代码_Opera Touch移动浏览器登陆iPad 并引入隐私浏览模式
  8. windows下安装pycharm并连接Linux的python环境
  9. 四大网络抓包神器,总有一款适合你~
  10. Codeforces Round #829 (Div. 2) C1. Make Nonzero Sum (easy version) 解题报告
  11. AT32 XMC驱动PC卡/CF卡
  12. 【Linux】logrotate切割Tomcat日志并轮转(Flume采集准备工作适用)
  13. MySQL高可用之主备同步:电脑安装java步骤
  14. iOS渐变视图动画库、腰杆、音频水滴水波手势、多种对话框、四级展开效果等源码
  15. C++程序员爱的表白,心形图示例
  16. Flutte 之TextFile(文本输入框)
  17. 3g手机android应用新浪微博,3.1.1 新浪微博官方Android客户端
  18. vscode中嵌入cppcheck进行静态检查,包含插件使用方法
  19. m基于FPGA的积分梳状CIC滤波器verilog设计
  20. 【扫描线法】 poj 1177 hdu 1828

热门文章

  1. java长方体的父类_编写java程序,输入一个长方体的长、宽、高,求长方体的表面积和体积,并将结果显示...
  2. 鸿蒙系统vivo能用吗,不是华为手机,也能用上鸿蒙系统
  3. 第42课: Spark Broadcast内幕解密:Broadcast运行机制彻底解密、Broadcast源码解析、Broadcast最佳实践
  4. Vim位置标记mark详解
  5. 计算机英语名词简释(轉載)
  6. 浙师大oj1435最小公倍数
  7. 计算机技术应用广泛以下属于科学计算方面,2016年12月计算机二级MSoffice选择题习题...
  8. 2.14Python标准库使用案例:使用turtle绘制奥林匹克五环
  9. html5绘制五环,浅析HTML5的Canvas——案例绘制
  10. linux 点亮屏幕,按电源键屏幕唤醒和屏幕睡眠流程(从上层到kernel)