爬取央视新闻国内版块

一个练习项目,爬取央视新闻的国内新闻板块,保存为txt文件。格式未经仔细排版。

import requests
import re
from lxml import etree
import timeif __name__=='__main__':start_time=time.time()print('正在爬取。。。')fp=open('./央视新闻.txt','w',encoding='utf-8')headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36 Edg/84.0.522.59'}url='https://news.cctv.com/2019/07/gaiban/cmsdatainterface/page/china_1.jsonp?cb=china'params={'cb': 'china'}response=requests.get(url=url,params=params,headers=headers)response.encoding='utf-8'page_text=response.textex1='"id".*?"title":"(.*?)","keywords"'ex2='"brief".*?,"url":"(.*?)"'title=re.findall(ex1,page_text)url=re.findall(ex2,page_text)for i in range(len(url)):res=requests.get(url=url[i],headers=headers)res.encoding='utf-8'response=res.texttree=etree.HTML(response)data=tree.xpath('//*[@id="content_area"]//text()')data=''.join(data).strip().replace(' ','')fp.write(title[i]+'\n'+data)end_time=time.time()print('爬取结束!用时{}s'.format(end_time-start_time))

爬取央视新闻国内版块新闻相关推荐

  1. 爬取今日头条财经版块新闻

    使用jupyter编辑, etree爬取 进入头条财经新闻网页,无法获取原网页内容,在查看各个请求中发现一个url里包含新闻信息.信息都在data里 import requests from lxml ...

  2. perl脚本爬虫程序,支持爬取北大未名bbs、163新闻、ifeng新闻、猫扑论坛、sina新闻等

    [实例简介] 采用perl脚本写的爬虫程序,可以爬取北大未名bbs.163新闻.ifeng新闻.猫扑论坛.sina新闻等 [实例截图] 文件:590m.com/f/25127180-494436243 ...

  3. (python爬虫)新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL

    新浪新闻数据爬取与清洗+新浪新闻数据管理系统 设计要求 新浪新闻数据爬取与清洗 基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...

  4. 利用自定义函数实现批量爬取多家公司的新闻

    1 需求 利用自定义函数实现批量爬取多家公司的新闻. 2 代码实现 from selenium import webdriver import redef dongfang(company):chro ...

  5. 练习:使用Python爬取COVID-19疫情国内当日数据

    练习:使用Python爬取COVID-19疫情国内当日数据 推荐公众号:数据酷客 (里面有超详细的教程) 代码来源数据酷客公众号教程 URL它是Uniform Resource Locator的缩写, ...

  6. 爬取央视网节目单栏目信息!

    1.数据爬取 使用工具介绍 使用了python的自动化框架selenium进行动态爬取,Selenium是一个用于Web应用程序自动化测试工具.Selenium测试直接运行在浏览器中,就像真正的用户在 ...

  7. 爬取央视网节目单栏目信息

    1.数据爬取 使用工具介绍 使用了python的自动化框架selenium进行动态爬取,Selenium是一个用于Web应用程序自动化测试工具.Selenium测试直接运行在浏览器中,就像真正的用户在 ...

  8. 一起学爬虫——使用xpath库爬取猫眼电影国内票房榜

    之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...

  9. python抽取指定url页面的title_Python使用scrapy爬虫,爬取今日头条首页推荐新闻

    爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面 查看源代码你会发现 全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...

最新文章

  1. Android深入理解Context(三)Context完全解析
  2. boost::fusion::as_map用法的测试程序
  3. java对mysql数据库进行单表筛选备份、还原操作
  4. Linux学习进阶!!
  5. Python脚本模拟登录网页之CSDN篇
  6. 背包dp的核心思想(动态规划)
  7. 宝塔nginx运行vue项目刷新404问题解决
  8. SpringBoot项目的 log4j漏洞解决—JeecgBoot
  9. bzoj2756 [SCOI2012]奇怪的游戏 结论+网络流
  10. SAP License:电子行业ERP实施
  11. swagger中参数为数组dataType的设置
  12. 中望3D 2021 “坐标标注”
  13. 移植MPlay到mini2440开发板
  14. 【seo】seo网站优化过程
  15. 如何将GMS功能移植到Android系统中
  16. 一个HashMap跟面试官扯了半个小时
  17. python加mysql加界面用代码写_python加mysql_python操作mysql
  18. Flak——跨域问题解决
  19. numpy的repeat和pytorch的repeat
  20. “云上进化——2022全球AI生物制药大赛”来袭,30万奖池等你来战!

热门文章

  1. 通俗的解释什么是Promise
  2. 关于百度旧博客http://hi.baidu.com/forverlin1204/blog
  3. 怎么制作真人qq秀_「惠生活 乐文化」酷炫!全国首个实景崖壁灯光演艺秀《剑门长歌》亮相剑门关...
  4. LM详解 GPT3,GPT2, GPT1 论文译读
  5. java web指纹采集_web应用程序指识别中的指纹收集
  6. AndroidRoot的本质和常用工具及软件,包括知名漏洞zergRush和Gingerbreak
  7. WPS office根目录在哪?_WPS和office到底区别在哪?工作学习中我们该如何选择?
  8. 电视机也能应答如流?暴风TV开启AI 2.0时代
  9. 海外优秀学习资源清单
  10. 【VIO】第2讲 基于优化的IMU