新闻平台聚合之腾讯新闻爬虫发布
idea of startproject
对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。
对于 nlper,缺乏足够的新闻语料数据集来供训练。
对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。
如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。
project 的 Github:https://github.com/Python3Spiders/AllNewsSpider
继承自 澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布
,本篇是新闻系列的第二篇,以腾讯新闻为目标网站
腾讯新闻爬虫
该爬虫实现的主要功能罗列如下:
- 全自动爬取腾讯新闻全站新闻内容,包括 娱乐、军事、科技、财经 四大 category。
- 可以自定义输入爬取的最大页码,默认是 20 页
- 字段信息齐全,如下表格
字段名 | 字段含义 |
---|---|
recode_time | 该条新闻被抓取的时间 |
news_title | 新闻标题 |
news_summary | 新闻概括 |
news_url | 新闻链接 |
news_author | 新闻作者 |
news_keywords | 新闻关键词,以 ;分隔 |
news_time | 新闻发布的时间 |
news_content | 新闻具体内容 |
news_view_count | 新闻浏览量 |
news_comment_count | 新闻评论数 |
再说说如何使用(默认读者均有 python3.6+ 环境)
将仓库 tencent文件夹下的 tencent_news_spider.pyd 文件下载到本地,新建项目,把 pyd 文件放进去
项目根目录下新建 runner.py,写入以下代码即可运行并抓取
import tencent_news_spider tencent_news_spider.main()
开始运行时会提示输入爬取到哪一页,默认是 20 页
爬取过程中是下面这样的
爬取结束了,会在当前目录下生成一个 腾讯新闻.xlsx
文件,里面保持了四个 category 的所有网站上可浏览的文本新闻,一个 category 对应一个 sheet_name。
预告
1、新浪新闻爬虫
2、nytimes 纽约时报爬虫
3、thetimes 泰晤士报爬虫
新闻平台聚合之腾讯新闻爬虫发布相关推荐
- 各地新闻客户端名称_腾讯新闻客户端排名优秀内容奖榜首
日前,腾讯新闻客户端在由中国联通主办,艾瑞咨询集团承办的"2013中国联通沃商店第三届开发者大会"上,凭借权威新闻.丰富内容.精品栏目等优势,以及首创极速离线阅读.滑动切换频道等功 ...
- 澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布
idea of startproject 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api. 对于 nlper,缺 ...
- python新闻收集,Python采集腾讯新闻实例
目标是把腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主页上所有链接爬取出来,写到文件里. python在获取html方面十分方 ...
- 腾讯新闻电脑客户端 v4.3.2 官方pc版
腾讯新闻电脑客户端 v4.3.2 官方pc版 软件大小:11MB 软件语言:简体中文 软件类别:阅读软件 软件授权:免费版 应用平台:/Win8/Win7/WinXP 是腾讯公司的一个新闻资讯产品. ...
- 基于scrapy-redis的分布式腾讯新闻爬虫
目录 任务目标 爬取流程设计 文字描述 流程图 项目实施 硬件设施 软件设施 功能概述 结构功能图 网站分析 主页 获取其他新闻链接 内容页 获取正文及判断: 获取标题 获取评论 数据库设计 重要代码 ...
- 爬虫篇——腾讯新闻的详细采集过程(列表新闻和新闻内容)
腾讯新闻.新浪新闻的详细采集过程 一.腾讯新闻采集 1.按分类采集腾讯新闻列表 分析过程: 具体代码: 2.采集腾讯新闻内容 分析过程 具体代码 二.新浪新闻采集分析 一.腾讯新闻采集 1.按分类采集 ...
- python爬取腾讯新闻_python爬虫实战――爬取腾讯新闻 !
无论我们通过浏览器打开网站.访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的.控制台所显示的都是HTTP服务器对我们请求的响应. 以打开腾讯新闻官网为例, ...
- python爬虫新浪,网易,腾讯新闻及评论
爬取新浪,网易,腾讯新闻及评论 源代码:https://github.com/jsphLim/news_crawl 主要文件 -main.py -newsspider.py #!/usr/bin/en ...
- Python爬虫学习获取腾讯新闻并存入Csv文件
with open('09_腾讯新闻.csv','a+') as f: 这样子写入的话产生的csv文件每行后面都会多一条空行,添加newline=''即可消除空行: 即with open('09 ...
最新文章
- Mac搭建Git服务器—开启SSH
- 简单多边形与圆交面积模板
- 最新wingide6破解方法(支持Linux),亲测有效,支持python3.0
- 打包java程序生成exe
- xshell执行结果到文本_xshell拷贝文件到本地
- java - 匿名类
- 登陆界面网页代码_Opera Touch移动浏览器登陆iPad 并引入隐私浏览模式
- windows下安装pycharm并连接Linux的python环境
- 四大网络抓包神器,总有一款适合你~
- Codeforces Round #829 (Div. 2) C1. Make Nonzero Sum (easy version) 解题报告
- AT32 XMC驱动PC卡/CF卡
- 【Linux】logrotate切割Tomcat日志并轮转(Flume采集准备工作适用)
- MySQL高可用之主备同步:电脑安装java步骤
- iOS渐变视图动画库、腰杆、音频水滴水波手势、多种对话框、四级展开效果等源码
- C++程序员爱的表白,心形图示例
- Flutte 之TextFile(文本输入框)
- 3g手机android应用新浪微博,3.1.1 新浪微博官方Android客户端
- vscode中嵌入cppcheck进行静态检查,包含插件使用方法
- m基于FPGA的积分梳状CIC滤波器verilog设计
- 【扫描线法】 poj 1177 hdu 1828
热门文章
- java长方体的父类_编写java程序,输入一个长方体的长、宽、高,求长方体的表面积和体积,并将结果显示...
- 鸿蒙系统vivo能用吗,不是华为手机,也能用上鸿蒙系统
- 第42课: Spark Broadcast内幕解密:Broadcast运行机制彻底解密、Broadcast源码解析、Broadcast最佳实践
- Vim位置标记mark详解
- 计算机英语名词简释(轉載)
- 浙师大oj1435最小公倍数
- 计算机技术应用广泛以下属于科学计算方面,2016年12月计算机二级MSoffice选择题习题...
- 2.14Python标准库使用案例:使用turtle绘制奥林匹克五环
- html5绘制五环,浅析HTML5的Canvas——案例绘制
- linux 点亮屏幕,按电源键屏幕唤醒和屏幕睡眠流程(从上层到kernel)