python爬取今日说法 每期数据
实验目的
主要是获取2021年今日说法每期节目主要内容及时间
今日说法的网址为:http://tv.cctv.com/lm/jrsf/index.shtml
当时怎么写的思路有点不太记得了,先把代码贴上,后续有时间再补上。
代码
import xlwt
import reimport requests# url = "https://tv.cctv.com/lm/jrsf/index.shtml"def get_data(page):url = 'https://api.cntv.cn/NewVideo/getVideoListByColumn?id=TOPC145146466500891' \'4&n=1000&sort=desc&p={pageNo}&mode=0&serviceId=tvcctv&cb=Callback'.format(pageNo=page)headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'}response = requests.get(url=url, headers=headers)return response.text# print(response.text)if __name__ == "__main__":headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'}book = xlwt.Workbook(encoding='utf-8', style_compression=0)sheet = book.add_sheet('今日说法', cell_overwrite_ok=True)count = 0for page in range(1,5):page_content = get_data(page)obj = re.compile(r'url":"(.*?.shtml)"', re.S)imgUrl = re.findall(obj, page_content.replace('\\', ''))for i in range(len(imgUrl)):resp = requests.get(url=imgUrl[i], headers=headers)resp.encoding = 'utf-8'obj2 = re.compile(r'更新时间:</em>(.*?)</p>', re.S)time = re.findall(obj2, resp.text)obj3 = re.compile(r'视频简介:</em>(.*?)</p>', re.S)jianjie = re.findall(obj3, resp.text)content = []content.append(time)content.append(jianjie)for j in range(2):sheet.write(count, j, content[j])count+=1book.save("./data_5.xls")
实验结果
python爬取今日说法 每期数据相关推荐
- python爬取今日热榜数据到txt文件
今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: import requests from bs4 import Bea ...
- python爬取今日头条后台数据_Python爬虫实战入门五:获取JS动态内容—爬取今日头条...
之前我们爬取的网页,多是HTML静态生成的内容,直接从HTML源码中就能找到看到的数据和内容,然而并不是所有的网页都是这样的. 有一些网站的内容由前端的JS动态生成,由于呈现在网页上的内容是由JS生成 ...
- python爬取今日头条后台数据_爬虫爬取今日头条数据代码实现
课程链接 讲师的公众号文章:今日头条数据抓取及持久化(完整代码版,含IP和用户代理)mp.weixin.qq.com 课程代码 抓取并持久化user-agent工具utils.py 对于爬虫工具,需 ...
- 用Python爬取今日头条,里面的东西统统白送!
近年来今日头条做的可谓是风生水起,自上线以来,围绕内容载体和分发方式两个维度不断丰富,至今已衍生出图文.视频.微头条.专栏.搜索.直播等多种内容形式.根据最新中国联通发布的App大数据排行榜,今日头条 ...
- python实战|python爬取58同城租房数据并以Excel文件格式保存到本地
python实战|python爬取58同城租房数据并以Excel文件格式保存到本地 一.分析目标网站url 目标网站:https://cq.58.com/minsuduanzu/ 让我们看看网站长啥样 ...
- python爬取微博热搜数据并保存!
主要用到requests和bf4两个库将获得的信息保存在d://hotsearch.txt下importrequests;importbs4mylist=[]r=requests.get(ur- 很多 ...
- Python爬取京东任意商品数据实战总结
利用Python爬取京东任意商品数据 今天给大家展示爬取京东商品数据 首先呢还是要分思路的,我分为以下几个步骤: 第一步:得到搜索指定商的url 第二步:获得搜索商品列表信息 第三步:对得到的商品数据 ...
- python 爬取24小时天气数据
python 爬取24小时天气数据 1.引入相关库 # -*- coding: utf-8 -*- import requests import numpy as np 关于爬虫,就是在网页上找到自己 ...
- 用python爬取基金网信息数据,保存到表格,并做成四种简单可视化。(爬虫之路,永无止境!)
用python爬取基金网信息数据,保存到表格,并做成四种简单可视化.(爬虫之路,永无止境!) 上次 2021-07-07写的用python爬取腾讯招聘网岗位信息保存到表格,并做成简单可视化. 有的人留 ...
最新文章
- sql express 会提供iis 服务
- C语言 | 编程实现3
- 【C++】 C++标准模板库(八) MultiMaps
- mysql执行shell命令_关键Docker命令:使用Docker必须掌握的公认宝典
- 20145309信息安全系统设计基础第12周学习总结后篇
- 三连击(洛谷-P1008)
- ThreadLocal 初探
- IBM 、M$ 、Google Apple
- 实验1-5 输出菱形图案 (5 分)
- python编程师app_新技能:用 Python 写一个安卓 APP
- YQMKPAT(CAD图案填充插件)v2.1绿色版
- 如何发布一个BT种子文件
- 大学物理计算机仿真实验报告,大学物理实验实验报告模板.doc
- Redis数据结构之有序集合对象(zset)
- 几种常用的Web安全认证方式
- 安全之路 —— C/C++开3389端口(远程终端)
- atcod D - Staircase Sequences
- vlookup多项匹配_Excel 怎样用VLOOKUP匹配多列数据/excle全部筛选匹配
- 用python画小狗,用turtle画个单身狗送给自己~
- Codeforces 1326 E. Bombs (线段树)