import re
import requests
import hashlib
import time# respose=requests.get('http://www.xiaohuar.com/v/')
# # print(respose.status_code)# 响应的状态码
# # print(respose.content)  #返回字节信息
# # print(respose.text)  #返回文本内容
# urls=re.findall(r'class="items".*?href="(.*?)"',respose.text,re.S)  #re.S 把文本信息转换成1行匹配
# url=urls[5]
# result=requests.get(url)
# mp4_url=re.findall(r'id="media".*?src="(.*?)"',result.text,re.S)[0]
#
# video=requests.get(mp4_url)
#
# with open('D:\\pachong\\a.mp4','wb') as f:
#     f.write(video.content)
#def get_index(url):respose = requests.get(url)if respose.status_code==200:return respose.textdef parse_index(res):urls = re.findall(r'class="items".*?href="(.*?)"', res,re.S)  # re.S 把文本信息转换成1行匹配return urlsdef get_detail(urls):for url in urls:if not url.startswith('http'):url='http://www.xiaohuar.com%s' %urlresult = requests.get(url)if result.status_code==200 :mp4_url_list = re.findall(r'id="media".*?src="(.*?)"', result.text, re.S)if mp4_url_list:mp4_url=mp4_url_list[0]print(mp4_url)save(mp4_url)def save(url):video = requests.get(url)if video.status_code==200:m=hashlib.md5()m.update(url.encode('utf-8'))m.update(str(time.time()).encode('utf-8'))filename=r'%s.mp4'% m.hexdigest()filepath=r'F:\\shinpin/%s'%filenameprint(filepath)with open(filepath, 'wb') as f:f.write(video.content)def main():for i in range(5):res1 = get_index('http://www.xiaohuar.com/list-3-%s.html'% i )res2 = parse_index(res1)get_detail(res2)if __name__ == '__main__':main()

python爬虫爬取校花网视频相关推荐

  1. Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片

    ####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...

  2. Python爬虫:正则表达式爬取校花网

    #正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...

  3. scrapy 爬取校花网

    原文链接: scrapy 爬取校花网 上一篇: scrapy 安装和简单命令 下一篇: scrapy 腾讯 招聘信息爬取 网址,爬取名称和对应的图片链接,并保存为json格式 http://www.x ...

  4. python爬虫爬取彼岸图网图片

    python爬虫爬取彼岸图网图片 话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...

  5. 使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春

    使用xpath爬取校花网 难点: 1.各个分类栏目下的页码url不统一 2.只取前三页,或者后三页 文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒. 所以就-哈哈 ...

  6. python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  7. Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  8. Python爬取校花网,妈妈再也不会担心我不给她发女朋友照片了

    本文同步发表于我的微信公众号,扫一扫文章底部的二维码或在微信搜索 极客导航 即可关注,每个工作日都有文章更新. 一.概况 上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天 ...

  9. pycharm 爬取校花网

    1 1:什么是爬虫 2 定义:狭义:模拟浏览器,浏览网页,保存数据的程序 3 定义:广义:自动下载网络数据(网页,游戏,qq)的程序 4 打开校花网 'www.xiaohuar.com/hua/' # ...

最新文章

  1. CISCO设备上DHCP实例
  2. html底部沉底显示,Footer部分永远沉底。
  3. 一个页面区分管理者和普通用户如何设计_产品经理要做的操作权限/数据权限设计...
  4. 不同版本Eclipse对JDK版本要求
  5. 谷歌开发者大会焦点:大中华区新掌门亮相,Android 10原生支持5G,TF2.0大更新...
  6. TensorFlow实现卷积、池化操作
  7. java 数据库连接不上_真心求助用java连接数据库时为什么总是连接不上
  8. 关于Java List 的remove(index)方法
  9. 回头再说-006 时间音乐
  10. String hashCode为啥用31这个数字,很多人不知道!
  11. 《企业IT架构转型之道-阿里巴巴中台战略思想与架构实战》笔记
  12. 基于C++的菜鸟驿站
  13. 计算机毕业设计(69)php小程序毕设作品之疫苗预约小程序系统
  14. 【网站介绍】有意思的网站(备忘)
  15. 桌面cpu与服务器cpu天梯,台式CPU性能怎么看?桌面CPU天梯图2018年1月更新版
  16. 我的世界红石科技计算机系统,《我的世界》红石计算机简单教程
  17. 数字信号处理(FIR滤波器的设计与原理及基础知识)
  18. 计算机技术在我国的发展,计算机技术在我国热处理工业领域的应用和发展_阎承沛.pdf...
  19. 5、6月程序员“薪资被应届生倒挂“现象明显,跳槽还是等待?
  20. 使用remote desktop manager管理windows远程桌面连接

热门文章

  1. Matlab:基本绘图函数
  2. 字体大宝库:25款很好看的液晶数字字体下载
  3. 1 0.99999的悖论_李鸿仪.不存在的罗素悖论Russell’s paradox that does not exist
  4. 【总结】某211高校硕士研究生答辩围观之观察
  5. 【PSOC4】+内部资源充分利用--ADC、UART、LCD、CapSense等
  6. spark-信用卡欺诈识别
  7. OpenGL - Anti Aliasing
  8. 软件开发文档编制的质量要求
  9. 新手必读:笔记本电脑日常维护的经验技巧
  10. linux查看samba目录的配额,linux quota和samba结合的使用