爬虫-文字爬取

import re
import requests
respone = requests.get('https://ishuo.cn/') ##获取网站url
data = respone.text ##把字符串转化成文本
result_list = re.findall('<div class="content">(.*?)</div>',data) ##找到需要爬取的内容,需要爬取的内容用'(.*?)'来代替,其他格式不变。
'''
<div class="content">如果你得罪了老板,失去的只是一份工作;
如果你得罪了客户,失去的不过是一份订单;是的,世上只有一个人可以得罪:你给她脸色看,你冲她发牢骚,
你大声顶撞她,甚至当 着她的面摔碗,她都不会记恨你,原因很简单,因为她是你的母亲。</div>
'''
for result in result_list:  ##爬取这个网页所有标记的文本print(result)

爬虫-图片爬取

import re
import requests
count = 0
for i in range(44): ##设置图片网页的范围,进行网页跳转。url = f'http://www.xiaohuar.com/list-1-{i}.html' ##获取跳转网页的url路径response = requests.get(url) ##获取网页url路径,并赋值给responsedata= response.text  ##将response转化成text文本并赋值给data# print(data)result_list = re.findall('src="(.*?)"',data)  ##从data文本中提取需要爬取的图片路径,用“(.*?)”来代替,并赋值给result_list(变成列表)for result in result_list: # type:str ##逐个提取图片url出来if result.startswith('https'):  ##刷选开头是”https“的图片urlimg_respone = requests.get(result)  ##将开头是“https”的图片url提取出来,并赋值给img_response列表# print(img_respone)img_name = result.split('/')[-1]  ##对列表中图片url以“/”标识进行切分,并提取最后一段url,并赋值给img_name# print(img_name)img_data = img_respone.content  ##将列表img_response转换成二进制格式with open (img_name,'wb') as fw:  ##打开img_name文件,并赋予写入权限(以字节格式写入)fw.write(img_data)  ##将img_data的数据写入img_name文件fw.flush()   ##快速写入count +=1print(f'爬取了{count}张图片')  ##可以显示提示提取了多少张图片

爬虫-视频爬取

import re
import requests
response = requests.get('https://www.ku6.com/index') ##获取网站url
data = response.text  ##将response转换成文本格式
count = 0
result_list = re.findall('<a class="video-image-warp" target="_blank" href="(.*?)">',data)  ##获取视频地址
for result in result_list: #type:str ##将获取第一层视频地址全部提取出来# print(result)if result.startswith('/detail/') or result.startswith('/video/'):   ##判断result里面以“/detail/”和“/video/”开头的url路径result = f'https://www.ku6.com{result}'  ## 提取判断正确的url路径,并赋值给第二层url列表result_response = requests.get(result)  ##重新获取第二层视频url路径,并赋值给response1data1 = result_response.text    ##将response1格式转换成文本#print(data1)video_url = re.findall('<source src="(.*?)" type="video/mp4">',data1) ##获取视频地址# print(video_url)if not video_url:   ##对视频格式进行判断video_url = re.findall('flvURL: "(.*?)"',data1)  ##如果视频不是这个url格式,则更换成另外一种格式# print(video_url)video_response = requests.get(video_url[0])  ##获取视频url路径video_data = video_response.contentvideo_name = f"{video_url[0].split('/')[-1]}.mp4"with open (video_name,'wb') as fw:fw.write(video_data)fw.flush()count +=1print(f'爬取了{count}个视频')

转载于:https://www.cnblogs.com/raynduan/p/10858746.html

python-爬虫学习(文字、图片、视频)相关推荐

  1. Python爬虫爬取Twitter视频、文章、图片

    Python爬虫爬取Twitter视频.文章.图片 Twitter的Python爬虫 https://github.com/bisguzar/twitter-scraper 2.2k星标 (2020. ...

  2. Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行

    Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...

  3. Python爬虫学习教程 bilibili网站视频爬取!【附源码】

    Python爬虫学习教程,万物皆可爬!每个技术大牛都是从基础慢慢的提升上去的,基础知识越深以后的发展越牛!学好python,才能玩转python,那到底怎么才能学好python? 通过爬取b站案例带领 ...

  4. Python爬虫学习总结

    Python爬虫学习总结 一.前提 请求网站并提取数据的自动化程序, 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的 ...

  5. 铁憨憨的Python 爬虫学习 Python_Learn

    通过网课和万能的B站学习 Python 和爬虫(本文基本是对视频内程序和内容的笔记内容) B站 Python 爬虫学习链接 Python 学习网络爬虫主要分3个大的版块:明确目标,抓取,分析,存储 明 ...

  6. python爬虫学习笔记 3.9 (了解参考:训练Tesseract)

    python爬虫学习笔记 3.9 (了解参考:训练Tesseract) 参考阅读:训练Tesseract 要使用 Tesseract 的功能,比如后面的示例中训练程序识别字母,要先在系统中设置一 个新 ...

  7. Python爬虫学习手册

    like:128-Python 爬取落网音乐 like:127-[图文详解]python爬虫实战--5分钟做个图片自动下载器 like:97-用Python写一个简单的微博爬虫 like:87-爬虫抓 ...

  8. 萝卜爆肝Python爬虫学习路线

    最近经常有小伙伴咨询,爬虫到底该怎么学,有什么爬虫学习路线可以参考下,萝卜作为非专业爬虫爱好者,今天咱们就来分享下,对于我们平时的基础爬虫或者小规模爬虫,应该掌握哪些技能.需要如何学起! 学习路线大纲 ...

  9. 新手python爬虫代码_新手小白必看 Python爬虫学习路线全面指导

    爬虫是大家公认的入门Python最好方式,没有之一.虽然Python有很多应用的方向,但爬虫对于新手小白而言更友好,原理也更简单,几行代码就能实现基本的爬虫,零基础也能快速入门,让新手小白体会更大的成 ...

  10. Python 爬虫学习 系列教程

    Python爬虫 --- 中高级爬虫学习路线 :https://www.cnblogs.com/Eeyhan/p/14148832.html 看不清图时,可以把图片保存到本地在打开查看... Pyth ...

最新文章

  1. python3.6.2怎样安装,python 3.6.2 安装配置方法图文教程
  2. 大型的labview程序实例_【学院推荐】LabVIEW的核心要素——数据流
  3. 使用 Angular
  4. C语言cJSON库的使用,解析json数据格式
  5. Datawhale 人工智能培养方案
  6. 【二分】【线段树】hdu6070 Dirt Ratio
  7. linux xampp使用教程,CentOS下安装XAMPP详细教程(学习记录使用)
  8. [转]WebQQ登录过程分析
  9. 准谐振器和双二阶广义积分器的共同点和不同点
  10. 鼎立td测试软件窗口参数介绍,鼎立网优参数指标解释
  11. shader函数整理
  12. win10如何截屏_Win10隐藏秘技大公开
  13. IOS美图秀秀(滤镜和涂鸦)和 添加阴影功能
  14. 选拔赛proA:经营小卖部
  15. 用Python做了个不良图片识别系统(附源码)
  16. 离线安装k3s v1.21.1 和单进程原理
  17. yarn部署及Linux的OOM、clean机制
  18. openwrt配置内核驱动_为斐讯K2P编译OpenWRT LEDE,并启用mtk闭源wifi驱动及H3C认证
  19. 微软正式抛弃UWP!
  20. 一套完整的SEO建站规则

热门文章

  1. 对于python初学者,如何使用python定义联合(使用ctypes)?
  2. 美术零基础转行做游戏美术3D,如何快速入行?
  3. 3D建模如何学习,小白6个月入门工作?3D建模要学多久才能接外包私活?
  4. IP、ARP、RARP、ICMP、IGMP(网络协议:网络层协议)
  5. 自动驾驶面试题汇总(2022秋招题库)——持续更新
  6. Python优雅地可视化数据
  7. 无人车制胜关键:Apollo决策系统全面剖析
  8. jaccard相似度_推荐系统中常用计算相似度的方法和工具
  9. oracle manager 配置,Oracle Net Manager 基本配置
  10. Android大事记(不断更新中)