爬取央视新闻国内版块新闻

爬取央视新闻国内版块

一个练习项目，爬取央视新闻的国内新闻板块，保存为txt文件。格式未经仔细排版。

import requests
import re
from lxml import etree
import timeif __name__=='__main__':start_time=time.time()print('正在爬取。。。')fp=open('./央视新闻.txt','w',encoding='utf-8')headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36 Edg/84.0.522.59'}url='https://news.cctv.com/2019/07/gaiban/cmsdatainterface/page/china_1.jsonp?cb=china'params={'cb': 'china'}response=requests.get(url=url,params=params,headers=headers)response.encoding='utf-8'page_text=response.textex1='"id".*?"title":"(.*?)","keywords"'ex2='"brief".*?,"url":"(.*?)"'title=re.findall(ex1,page_text)url=re.findall(ex2,page_text)for i in range(len(url)):res=requests.get(url=url[i],headers=headers)res.encoding='utf-8'response=res.texttree=etree.HTML(response)data=tree.xpath('//*[@id="content_area"]//text()')data=''.join(data).strip().replace(' ','')fp.write(title[i]+'\n'+data)end_time=time.time()print('爬取结束！用时{}s'.format(end_time-start_time))

爬取央视新闻国内版块新闻相关推荐

爬取今日头条财经版块新闻
使用jupyter编辑, etree爬取进入头条财经新闻网页,无法获取原网页内容,在查看各个请求中发现一个url里包含新闻信息.信息都在data里 import requests from lxml ...
perl脚本爬虫程序，支持爬取北大未名bbs、163新闻、ifeng新闻、猫扑论坛、sina新闻等
[实例简介] 采用perl脚本写的爬虫程序,可以爬取北大未名bbs.163新闻.ifeng新闻.猫扑论坛.sina新闻等 [实例截图] 文件:590m.com/f/25127180-494436243 ...
（python爬虫）新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL
新浪新闻数据爬取与清洗+新浪新闻数据管理系统设计要求新浪新闻数据爬取与清洗基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...
利用自定义函数实现批量爬取多家公司的新闻
1 需求利用自定义函数实现批量爬取多家公司的新闻. 2 代码实现 from selenium import webdriver import redef dongfang(company):chro ...
练习：使用Python爬取COVID-19疫情国内当日数据
练习:使用Python爬取COVID-19疫情国内当日数据推荐公众号:数据酷客 (里面有超详细的教程) 代码来源数据酷客公众号教程 URL它是Uniform Resource Locator的缩写, ...
爬取央视网节目单栏目信息！
1.数据爬取使用工具介绍使用了python的自动化框架selenium进行动态爬取,Selenium是一个用于Web应用程序自动化测试工具.Selenium测试直接运行在浏览器中,就像真正的用户在 ...
爬取央视网节目单栏目信息
1.数据爬取使用工具介绍使用了python的自动化框架selenium进行动态爬取,Selenium是一个用于Web应用程序自动化测试工具.Selenium测试直接运行在浏览器中,就像真正的用户在 ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
python抽取指定url页面的title_Python使用scrapy爬虫，爬取今日头条首页推荐新闻
爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面查看源代码你会发现全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...

爬取央视新闻国内版块新闻

爬取央视新闻国内版块

爬取央视新闻国内版块新闻相关推荐

最新文章

热门文章