爬虫-文字爬取

import re
import requests
respone = requests.get('https://ishuo.cn/') ##获取网站url
data = respone.text ##把字符串转化成文本
result_list = re.findall('<div class="content">(.*?)</div>',data) ##找到需要爬取的内容,需要爬取的内容用'(.*?)'来代替，其他格式不变。
'''
<div class="content">如果你得罪了老板，失去的只是一份工作；
如果你得罪了客户，失去的不过是一份订单；是的，世上只有一个人可以得罪：你给她脸色看，你冲她发牢骚，
你大声顶撞她，甚至当 着她的面摔碗，她都不会记恨你，原因很简单，因为她是你的母亲。</div>
'''
for result in result_list:  ##爬取这个网页所有标记的文本print(result)

爬虫-图片爬取

import re
import requests
count = 0
for i in range(44): ##设置图片网页的范围，进行网页跳转。url = f'http://www.xiaohuar.com/list-1-{i}.html' ##获取跳转网页的url路径response = requests.get(url) ##获取网页url路径，并赋值给responsedata= response.text  ##将response转化成text文本并赋值给data# print(data)result_list = re.findall('src="(.*?)"',data)  ##从data文本中提取需要爬取的图片路径，用“（.*?）”来代替，并赋值给result_list（变成列表）for result in result_list: # type:str ##逐个提取图片url出来if result.startswith('https'):  ##刷选开头是”https“的图片urlimg_respone = requests.get(result)  ##将开头是“https”的图片url提取出来，并赋值给img_response列表# print(img_respone)img_name = result.split('/')[-1]  ##对列表中图片url以“/”标识进行切分，并提取最后一段url，并赋值给img_name# print(img_name)img_data = img_respone.content  ##将列表img_response转换成二进制格式with open (img_name,'wb') as fw:  ##打开img_name文件，并赋予写入权限（以字节格式写入）fw.write(img_data)  ##将img_data的数据写入img_name文件fw.flush()   ##快速写入count +=1print(f'爬取了{count}张图片')  ##可以显示提示提取了多少张图片

爬虫-视频爬取

import re
import requests
response = requests.get('https://www.ku6.com/index') ##获取网站url
data = response.text  ##将response转换成文本格式
count = 0
result_list = re.findall('<a class="video-image-warp" target="_blank" href="(.*?)">',data)  ##获取视频地址
for result in result_list: #type:str ##将获取第一层视频地址全部提取出来# print(result)if result.startswith('/detail/') or result.startswith('/video/'):   ##判断result里面以“/detail/”和“/video/”开头的url路径result = f'https://www.ku6.com{result}'  ## 提取判断正确的url路径，并赋值给第二层url列表result_response = requests.get(result)  ##重新获取第二层视频url路径，并赋值给response1data1 = result_response.text    ##将response1格式转换成文本#print(data1)video_url = re.findall('<source src="(.*?)" type="video/mp4">',data1) ##获取视频地址# print(video_url)if not video_url:   ##对视频格式进行判断video_url = re.findall('flvURL: "(.*?)"',data1)  ##如果视频不是这个url格式，则更换成另外一种格式# print(video_url)video_response = requests.get(video_url[0])  ##获取视频url路径video_data = video_response.contentvideo_name = f"{video_url[0].split('/')[-1]}.mp4"with open (video_name,'wb') as fw:fw.write(video_data)fw.flush()count +=1print(f'爬取了{count}个视频')

转载于:https://www.cnblogs.com/raynduan/p/10858746.html

python-爬虫学习（文字、图片、视频）相关推荐

Python爬虫爬取Twitter视频、文章、图片
Python爬虫爬取Twitter视频.文章.图片 Twitter的Python爬虫 https://github.com/bisguzar/twitter-scraper 2.2k星标 (2020. ...
Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行
Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行基础包含 requests pyquery 进入正题基础包含这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...
Python爬虫学习教程 bilibili网站视频爬取！【附源码】
Python爬虫学习教程,万物皆可爬!每个技术大牛都是从基础慢慢的提升上去的,基础知识越深以后的发展越牛!学好python,才能玩转python,那到底怎么才能学好python? 通过爬取b站案例带领 ...
Python爬虫学习总结
Python爬虫学习总结一.前提请求网站并提取数据的自动化程序, 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的 ...
铁憨憨的Python 爬虫学习 Python_Learn
通过网课和万能的B站学习 Python 和爬虫(本文基本是对视频内程序和内容的笔记内容) B站 Python 爬虫学习链接 Python 学习网络爬虫主要分3个大的版块:明确目标,抓取,分析,存储明 ...
python爬虫学习笔记 3.9 （了解参考：训练Tesseract）
python爬虫学习笔记 3.9 (了解参考:训练Tesseract) 参考阅读:训练Tesseract 要使用 Tesseract 的功能,比如后面的示例中训练程序识别字母,要先在系统中设置一个新 ...
Python爬虫学习手册
like:128-Python 爬取落网音乐 like:127-[图文详解]python爬虫实战--5分钟做个图片自动下载器 like:97-用Python写一个简单的微博爬虫 like:87-爬虫抓 ...
萝卜爆肝Python爬虫学习路线
最近经常有小伙伴咨询,爬虫到底该怎么学,有什么爬虫学习路线可以参考下,萝卜作为非专业爬虫爱好者,今天咱们就来分享下,对于我们平时的基础爬虫或者小规模爬虫,应该掌握哪些技能.需要如何学起! 学习路线大纲 ...
新手python爬虫代码_新手小白必看 Python爬虫学习路线全面指导
爬虫是大家公认的入门Python最好方式,没有之一.虽然Python有很多应用的方向,但爬虫对于新手小白而言更友好,原理也更简单,几行代码就能实现基本的爬虫,零基础也能快速入门,让新手小白体会更大的成 ...
Python 爬虫学习系列教程
Python爬虫 --- 中高级爬虫学习路线 :https://www.cnblogs.com/Eeyhan/p/14148832.html 看不清图时,可以把图片保存到本地在打开查看... Pyth ...

python-爬虫学习（文字、图片、视频）

爬虫-文字爬取

爬虫-图片爬取

爬虫-视频爬取

python-爬虫学习（文字、图片、视频）相关推荐

最新文章

热门文章