python爬虫爬取校花网视频
import re
import requests
import hashlib
import time# respose=requests.get('http://www.xiaohuar.com/v/')
# # print(respose.status_code)# 响应的状态码
# # print(respose.content) #返回字节信息
# # print(respose.text) #返回文本内容
# urls=re.findall(r'class="items".*?href="(.*?)"',respose.text,re.S) #re.S 把文本信息转换成1行匹配
# url=urls[5]
# result=requests.get(url)
# mp4_url=re.findall(r'id="media".*?src="(.*?)"',result.text,re.S)[0]
#
# video=requests.get(mp4_url)
#
# with open('D:\\pachong\\a.mp4','wb') as f:
# f.write(video.content)
#def get_index(url):respose = requests.get(url)if respose.status_code==200:return respose.textdef parse_index(res):urls = re.findall(r'class="items".*?href="(.*?)"', res,re.S) # re.S 把文本信息转换成1行匹配return urlsdef get_detail(urls):for url in urls:if not url.startswith('http'):url='http://www.xiaohuar.com%s' %urlresult = requests.get(url)if result.status_code==200 :mp4_url_list = re.findall(r'id="media".*?src="(.*?)"', result.text, re.S)if mp4_url_list:mp4_url=mp4_url_list[0]print(mp4_url)save(mp4_url)def save(url):video = requests.get(url)if video.status_code==200:m=hashlib.md5()m.update(url.encode('utf-8'))m.update(str(time.time()).encode('utf-8'))filename=r'%s.mp4'% m.hexdigest()filepath=r'F:\\shinpin/%s'%filenameprint(filepath)with open(filepath, 'wb') as f:f.write(video.content)def main():for i in range(5):res1 = get_index('http://www.xiaohuar.com/list-3-%s.html'% i )res2 = parse_index(res1)get_detail(res2)if __name__ == '__main__':main()
python爬虫爬取校花网视频相关推荐
- Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片
####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...
- Python爬虫:正则表达式爬取校花网
#正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...
- scrapy 爬取校花网
原文链接: scrapy 爬取校花网 上一篇: scrapy 安装和简单命令 下一篇: scrapy 腾讯 招聘信息爬取 网址,爬取名称和对应的图片链接,并保存为json格式 http://www.x ...
- python爬虫爬取彼岸图网图片
python爬虫爬取彼岸图网图片 话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...
- 使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春
使用xpath爬取校花网 难点: 1.各个分类栏目下的页码url不统一 2.只取前三页,或者后三页 文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒. 所以就-哈哈 ...
- python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- Python爬取校花网,妈妈再也不会担心我不给她发女朋友照片了
本文同步发表于我的微信公众号,扫一扫文章底部的二维码或在微信搜索 极客导航 即可关注,每个工作日都有文章更新. 一.概况 上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天 ...
- pycharm 爬取校花网
1 1:什么是爬虫 2 定义:狭义:模拟浏览器,浏览网页,保存数据的程序 3 定义:广义:自动下载网络数据(网页,游戏,qq)的程序 4 打开校花网 'www.xiaohuar.com/hua/' # ...
最新文章
- CISCO设备上DHCP实例
- html底部沉底显示,Footer部分永远沉底。
- 一个页面区分管理者和普通用户如何设计_产品经理要做的操作权限/数据权限设计...
- 不同版本Eclipse对JDK版本要求
- 谷歌开发者大会焦点:大中华区新掌门亮相,Android 10原生支持5G,TF2.0大更新...
- TensorFlow实现卷积、池化操作
- java 数据库连接不上_真心求助用java连接数据库时为什么总是连接不上
- 关于Java List 的remove(index)方法
- 回头再说-006 时间音乐
- String hashCode为啥用31这个数字,很多人不知道!
- 《企业IT架构转型之道-阿里巴巴中台战略思想与架构实战》笔记
- 基于C++的菜鸟驿站
- 计算机毕业设计(69)php小程序毕设作品之疫苗预约小程序系统
- 【网站介绍】有意思的网站(备忘)
- 桌面cpu与服务器cpu天梯,台式CPU性能怎么看?桌面CPU天梯图2018年1月更新版
- 我的世界红石科技计算机系统,《我的世界》红石计算机简单教程
- 数字信号处理(FIR滤波器的设计与原理及基础知识)
- 计算机技术在我国的发展,计算机技术在我国热处理工业领域的应用和发展_阎承沛.pdf...
- 5、6月程序员“薪资被应届生倒挂“现象明显,跳槽还是等待?
- 使用remote desktop manager管理windows远程桌面连接
热门文章
- Matlab:基本绘图函数
- 字体大宝库:25款很好看的液晶数字字体下载
- 1 0.99999的悖论_李鸿仪.不存在的罗素悖论Russell’s paradox that does not exist
- 【总结】某211高校硕士研究生答辩围观之观察
- 【PSOC4】+内部资源充分利用--ADC、UART、LCD、CapSense等
- spark-信用卡欺诈识别
- OpenGL - Anti Aliasing
- 软件开发文档编制的质量要求
- 新手必读:笔记本电脑日常维护的经验技巧
- linux查看samba目录的配额,linux quota和samba结合的使用