作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894

给定一篇新闻的链接newsUrl,获取该新闻的全部信息

标题、作者、发布单位、审核、来源

发布时间:转换成datetime类型

点击:

  • newsUrl
  • newsId(使用正则表达式re)
  • clickUrl(str.format(newsId))
  • requests.get(clickUrl)
  • newClick(用字符串处理,或正则表达式)
  • int()

整个过程包装成一个简单清晰的函数。

尝试去爬取一个你感兴趣的网页。

# 获取一篇新闻的全部信息
import re
import requests
from bs4 import BeautifulSoup
from datetime import datetime# 获取新闻id
def newsnum(url):newsid = re.match('http://news.gzcc.cn/html/2019/meitishijie_0321/(.*).html', url).group(1)return newsid# 发布时间:datetime类型
def newstime(soup):newsdate = soup.select('.show-info')[0].text.split()[0].split(':')[1]newstime = soup.select('.show-info')[0].text.split()[1]time = newsdate + ' ' + newstimetime = datetime.strptime(time, '%Y-%m-%d %H:%M:%S')return time# 获取点击次数
def click(url):id = re.findall('(\d{1,5})', url)[-1]clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(id)res = requests.get(clickUrl)click = res.text.split('.html')[-1].lstrip("('").rstrip("');")return click# 主函数
def main(url):res = requests.get(url)res.encoding = 'utf-8'soup = BeautifulSoup(res.text, 'html.parser')#print(soup.select('.show-info')[0].text.split());print("新闻编号:" + newsnum(url));                       # 新闻编号idprint("标题:" + soup.select('.show-title')[0].text);     # 标题print("发布时间:" + str(newstime(soup)));                # 发布时间print(soup.select('.show-info')[0].text.split()[2]);     # 作者print(soup.select('.show-info')[0].text.split()[3]);     # 审核print(soup.select('.show-info')[0].text.split()[4]);     # 来源print("内容:" + soup.select('.show-content p')[0].text); # 内容returnurl = "http://news.gzcc.cn/html/2019/meitishijie_0321/11033.html"
main(url)

转载于:https://www.cnblogs.com/Richard-V/p/10649085.html

【大数据】获取一篇新闻的全部信息相关推荐

  1. 获取一篇新闻的全部信息

    import re import requests from bs4 import BeautifulSoup from datetime import datetime# 获取新闻的所有信息 def ...

  2. 【大数据Hadoop实战篇】

    大数据Hadoop实战篇 第1章 Hadoop概述 1.1 Hadoop是什么 1.2 Hadoop发展历史(了解) 1.3 Hadoop三大发行版本(了解) 1.4 Hadoop优势(4高) 1.5 ...

  3. 【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hbase篇

    欢迎关注博客主页:https://blog.csdn.net/u013411339 欢迎点赞.收藏.留言 ,欢迎留言交流! 本文由[王知无]原创,首发于 CSDN博客! 本文首发CSDN论坛,未经过官 ...

  4. 大数据:一场改变未来的信息革命

    2019独角兽企业重金招聘Python工程师标准>>> 大数据:一场改变未来的信息革命 灵玖软件 :http://www.lingjoin.com 在宽带化.移动互联网.物联网.社交 ...

  5. 大数据助力运营商创新转型 中国信息通信大数据大会圆满召开

    ZD至顶网CIO与应用频道 04月26日 北京消息:4月20-21日,由人民邮电出版社主办,<大数据>杂志.<电信科学>杂志.通信世界网协办,信通传媒.数创汇承办的中国信息通信 ...

  6. 政法委跨部门大数据协同办案平台建设,综治信息管控系统开发

    政法委跨部门大数据协同办案平台建设,综治信息管控系统开发 政法跨部门大数据协同办案平台,通过运用云计算.大数据.人工智能等先进理念和技术,构建政法跨部门大数据办案平台,形成网络互联通.资源共享用的执法 ...

  7. 大数据学习之路——新闻大数据的增值应用

    新闻大数据借助于领域词表.大数据和人工智能技术,将杂乱无章的新闻条目数据按照领域词表自动重新聚类,并在聚类的基础上,进行数据重组和集成,形成具有较大价值的专题数据,提供给机构和读者. 图 1-1 新闻 ...

  8. 大数据框架Hadoop篇之Hadoop入门

    1. 写在前面 今天开始,想开启大数据框架学习的一个新系列,之前在学校的时候就会大数据相关技术很是好奇,但苦于没有实践场景,对这些东西并没有什么体会,到公司之后,我越发觉得大数据的相关知识很重要,不管 ...

  9. 喜报!《大数据》72篇论文入选中国知网《学术精要数据库》高影响力论文!...

    <大数据>2012-2022年共有72篇论文入选<学术精要数据库>"高影响力论文",其中高PCSI论文38篇,高被引论文42篇,高下载论文54篇," ...

最新文章

  1. zabbix如何配置微信报警
  2. Opengl-模型(告别箱子加载模型)
  3. matlab 绘制三维图并标注每个点的坐标
  4. 适配器模式(为被封装对象提供不同的接口)
  5. mybatis实战教程(mybatis in action),mybatis入门到精通(转)
  6. P2490-[SDOI2011]黑白棋【博弈论,dp】
  7. python 跳一跳辅助_微信跳一跳辅助自动跳Python
  8. [译] Node.js, Express.js 搭建 HTTP/2 服务器
  9. Unity 3D Hierarchy视图
  10. 介绍鲜花视频的html模板,HTML黄色欧美形式鲜花介绍网页模板代码
  11. 盘点MAC下用过的五笔输入法
  12. 深度学习入门基础:图像分类网络整理(最全)
  13. 10月20日前!武汉市科技成果转化中试平台(基地)备案申报条件及流程梳理
  14. 对字符串按“红黄蓝”进行排序,如“蓝黄红红黄”,输出结果为“红红黄黄蓝”
  15. android开机卡logo,logcat怎么抓log
  16. day015异常捕获和正则
  17. 基于Java+SSM+Vue农家乐管理系统(住宿-美食-活动)设计与实现
  18. RFID定位之隧道人员定位系统解决方案--新导智能
  19. 微信小程序安全区域适配问题
  20. Python处理PDF——PyMuPDF的安装与使用

热门文章

  1. Python time asctime()方法
  2. python中的sorted是什么意思_python中sort与sorted区别
  3. skt框架开发设计1
  4. SQL的主键和外键约束 小记
  5. javascript-04 引用类型
  6. 一张图说明我们为什么要关注 HTML5
  7. 统一管理MOSS2010用户头像
  8. sharepoint安装心得_过程
  9. html服务器框架,一种类似http/html的分布式GUI程序设计框架
  10. 卸载一直在创建还原点_如何创建系统还原点以及如何恢复?