【大数据】获取一篇新闻的全部信息
作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894
给定一篇新闻的链接newsUrl,获取该新闻的全部信息
标题、作者、发布单位、审核、来源
发布时间:转换成datetime类型
点击:
- newsUrl
- newsId(使用正则表达式re)
- clickUrl(str.format(newsId))
- requests.get(clickUrl)
- newClick(用字符串处理,或正则表达式)
- int()
整个过程包装成一个简单清晰的函数。
尝试去爬取一个你感兴趣的网页。
# 获取一篇新闻的全部信息 import re import requests from bs4 import BeautifulSoup from datetime import datetime# 获取新闻id def newsnum(url):newsid = re.match('http://news.gzcc.cn/html/2019/meitishijie_0321/(.*).html', url).group(1)return newsid# 发布时间:datetime类型 def newstime(soup):newsdate = soup.select('.show-info')[0].text.split()[0].split(':')[1]newstime = soup.select('.show-info')[0].text.split()[1]time = newsdate + ' ' + newstimetime = datetime.strptime(time, '%Y-%m-%d %H:%M:%S')return time# 获取点击次数 def click(url):id = re.findall('(\d{1,5})', url)[-1]clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(id)res = requests.get(clickUrl)click = res.text.split('.html')[-1].lstrip("('").rstrip("');")return click# 主函数 def main(url):res = requests.get(url)res.encoding = 'utf-8'soup = BeautifulSoup(res.text, 'html.parser')#print(soup.select('.show-info')[0].text.split());print("新闻编号:" + newsnum(url)); # 新闻编号idprint("标题:" + soup.select('.show-title')[0].text); # 标题print("发布时间:" + str(newstime(soup))); # 发布时间print(soup.select('.show-info')[0].text.split()[2]); # 作者print(soup.select('.show-info')[0].text.split()[3]); # 审核print(soup.select('.show-info')[0].text.split()[4]); # 来源print("内容:" + soup.select('.show-content p')[0].text); # 内容returnurl = "http://news.gzcc.cn/html/2019/meitishijie_0321/11033.html" main(url)
转载于:https://www.cnblogs.com/Richard-V/p/10649085.html
【大数据】获取一篇新闻的全部信息相关推荐
- 获取一篇新闻的全部信息
import re import requests from bs4 import BeautifulSoup from datetime import datetime# 获取新闻的所有信息 def ...
- 【大数据Hadoop实战篇】
大数据Hadoop实战篇 第1章 Hadoop概述 1.1 Hadoop是什么 1.2 Hadoop发展历史(了解) 1.3 Hadoop三大发行版本(了解) 1.4 Hadoop优势(4高) 1.5 ...
- 【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hbase篇
欢迎关注博客主页:https://blog.csdn.net/u013411339 欢迎点赞.收藏.留言 ,欢迎留言交流! 本文由[王知无]原创,首发于 CSDN博客! 本文首发CSDN论坛,未经过官 ...
- 大数据:一场改变未来的信息革命
2019独角兽企业重金招聘Python工程师标准>>> 大数据:一场改变未来的信息革命 灵玖软件 :http://www.lingjoin.com 在宽带化.移动互联网.物联网.社交 ...
- 大数据助力运营商创新转型 中国信息通信大数据大会圆满召开
ZD至顶网CIO与应用频道 04月26日 北京消息:4月20-21日,由人民邮电出版社主办,<大数据>杂志.<电信科学>杂志.通信世界网协办,信通传媒.数创汇承办的中国信息通信 ...
- 政法委跨部门大数据协同办案平台建设,综治信息管控系统开发
政法委跨部门大数据协同办案平台建设,综治信息管控系统开发 政法跨部门大数据协同办案平台,通过运用云计算.大数据.人工智能等先进理念和技术,构建政法跨部门大数据办案平台,形成网络互联通.资源共享用的执法 ...
- 大数据学习之路——新闻大数据的增值应用
新闻大数据借助于领域词表.大数据和人工智能技术,将杂乱无章的新闻条目数据按照领域词表自动重新聚类,并在聚类的基础上,进行数据重组和集成,形成具有较大价值的专题数据,提供给机构和读者. 图 1-1 新闻 ...
- 大数据框架Hadoop篇之Hadoop入门
1. 写在前面 今天开始,想开启大数据框架学习的一个新系列,之前在学校的时候就会大数据相关技术很是好奇,但苦于没有实践场景,对这些东西并没有什么体会,到公司之后,我越发觉得大数据的相关知识很重要,不管 ...
- 喜报!《大数据》72篇论文入选中国知网《学术精要数据库》高影响力论文!...
<大数据>2012-2022年共有72篇论文入选<学术精要数据库>"高影响力论文",其中高PCSI论文38篇,高被引论文42篇,高下载论文54篇," ...
最新文章
- zabbix如何配置微信报警
- Opengl-模型(告别箱子加载模型)
- matlab 绘制三维图并标注每个点的坐标
- 适配器模式(为被封装对象提供不同的接口)
- mybatis实战教程(mybatis in action),mybatis入门到精通(转)
- P2490-[SDOI2011]黑白棋【博弈论,dp】
- python 跳一跳辅助_微信跳一跳辅助自动跳Python
- [译] Node.js, Express.js 搭建 HTTP/2 服务器
- Unity 3D Hierarchy视图
- 介绍鲜花视频的html模板,HTML黄色欧美形式鲜花介绍网页模板代码
- 盘点MAC下用过的五笔输入法
- 深度学习入门基础:图像分类网络整理(最全)
- 10月20日前!武汉市科技成果转化中试平台(基地)备案申报条件及流程梳理
- 对字符串按“红黄蓝”进行排序,如“蓝黄红红黄”,输出结果为“红红黄黄蓝”
- android开机卡logo,logcat怎么抓log
- day015异常捕获和正则
- 基于Java+SSM+Vue农家乐管理系统(住宿-美食-活动)设计与实现
- RFID定位之隧道人员定位系统解决方案--新导智能
- 微信小程序安全区域适配问题
- Python处理PDF——PyMuPDF的安装与使用