新闻平台聚合之腾讯新闻爬虫发布

idea of startproject

对于 web 开发者而言，目前各大新闻门户网站，新浪新闻，百度新闻，腾讯新闻，澎湃新闻，头条新闻并没有提供稳定可用的 feed api。
对于 nlper，缺乏足够的新闻语料数据集来供训练。
对于新闻传播/社会学/心理学等从业者，缺乏获取新闻数据的简单易用途径来供分析。
如果上面三点是某见识所限，其实并不存在的话，第 4 点，则是某的私心，某以为互联网的记忆太短了，热搜一浪盖过一浪，所以试图定格互联网新闻的某些瞬间，最后会以网站的形式发布出来。

project 的 Github：https://github.com/Python3Spiders/AllNewsSpider

继承自澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布
，本篇是新闻系列的第二篇，以腾讯新闻为目标网站

腾讯新闻爬虫

该爬虫实现的主要功能罗列如下：

全自动爬取腾讯新闻全站新闻内容，包括娱乐、军事、科技、财经四大 category。
可以自定义输入爬取的最大页码，默认是 20 页
字段信息齐全，如下表格

字段名	字段含义
recode_time	该条新闻被抓取的时间
news_title	新闻标题
news_summary	新闻概括
news_url	新闻链接
news_author	新闻作者
news_keywords	新闻关键词，以；分隔
news_time	新闻发布的时间
news_content	新闻具体内容
news_view_count	新闻浏览量
news_comment_count	新闻评论数

再说说如何使用（默认读者均有 python3.6+ 环境）

将仓库 tencent文件夹下的 tencent_news_spider.pyd 文件下载到本地，新建项目，把 pyd 文件放进去
项目根目录下新建 runner.py，写入以下代码即可运行并抓取
```
import tencent_news_spider
tencent_news_spider.main()
```

开始运行时会提示输入爬取到哪一页，默认是 20 页

爬取过程中是下面这样的

爬取结束了，会在当前目录下生成一个 腾讯新闻.xlsx文件，里面保持了四个 category 的所有网站上可浏览的文本新闻，一个 category 对应一个 sheet_name。

预告

1、新浪新闻爬虫

2、nytimes 纽约时报爬虫

3、thetimes 泰晤士报爬虫

新闻平台聚合之腾讯新闻爬虫发布相关推荐

各地新闻客户端名称_腾讯新闻客户端排名优秀内容奖榜首
日前,腾讯新闻客户端在由中国联通主办,艾瑞咨询集团承办的"2013中国联通沃商店第三届开发者大会"上,凭借权威新闻.丰富内容.精品栏目等优势,以及首创极速离线阅读.滑动切换频道等功 ...
澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布
idea of startproject 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api. 对于 nlper,缺 ...
python新闻收集,Python采集腾讯新闻实例
目标是把腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主页上所有链接爬取出来,写到文件里. python在获取html方面十分方 ...
腾讯新闻电脑客户端 v4.3.2 官方pc版
腾讯新闻电脑客户端 v4.3.2 官方pc版软件大小:11MB 软件语言:简体中文软件类别:阅读软件软件授权:免费版应用平台:/Win8/Win7/WinXP 是腾讯公司的一个新闻资讯产品. ...
基于scrapy-redis的分布式腾讯新闻爬虫
目录任务目标爬取流程设计文字描述流程图项目实施硬件设施软件设施功能概述结构功能图网站分析主页获取其他新闻链接内容页获取正文及判断: 获取标题获取评论数据库设计重要代码 ...
爬虫篇——腾讯新闻的详细采集过程（列表新闻和新闻内容）
腾讯新闻.新浪新闻的详细采集过程一.腾讯新闻采集 1.按分类采集腾讯新闻列表分析过程: 具体代码: 2.采集腾讯新闻内容分析过程具体代码二.新浪新闻采集分析一.腾讯新闻采集 1.按分类采集 ...
python爬取腾讯新闻_python爬虫实战――爬取腾讯新闻！
无论我们通过浏览器打开网站.访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的.控制台所显示的都是HTTP服务器对我们请求的响应. 以打开腾讯新闻官网为例, ...
python爬虫新浪，网易，腾讯新闻及评论
爬取新浪,网易,腾讯新闻及评论源代码:https://github.com/jsphLim/news_crawl 主要文件 -main.py -newsspider.py #!/usr/bin/en ...
Python爬虫学习获取腾讯新闻并存入Csv文件
with open('09_腾讯新闻.csv','a+') as f: 这样子写入的话产生的csv文件每行后面都会多一条空行,添加newline=''即可消除空行: 即with open('09 ...

新闻平台聚合之腾讯新闻爬虫发布

idea of startproject

腾讯新闻爬虫

预告

新闻平台聚合之腾讯新闻爬虫发布相关推荐

最新文章

热门文章