利用python3爬虫下载图片、pdf文档
环境
语言环境:python3.6
操作系统:Win10
第三方库
requests
互联网上的资源大都是以二进制形式存储和运输的,如图片、pdf、音频、视频等,像.dat、.ts等这些不常用的文件也都是二进制。我们知道python3爬虫是利用爬虫模拟浏览器向服务端发送请求,并解析服务器返回来的响应,像上述这些文件都是以二进制形式返回到本地客户端的。而response对象的属性content表示的则是HTTP响应内容的二进制形式,利用该属性,我们可以通过代码对网上资源进行下载
下载这些资源最重要的一点就是,你要知道这些文件在哪儿,也就是他们的URL,即他们的连接
下载图片
链接:美女长发披肩背影美图
代码实现
import requests url = 'https://img-blog.csdnimg.cn/20181119214250858.png'
r = requests.get(url)
img = r.content #响应的二进制文件
with open('美女.png','wb') as f: #二进制写入f.write(img)
下载pdf
下载链接:http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf
代码实现
import requestsurl = 'http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf'
r = requests.get(url)
pdf = r.content #响应的二进制文件
with open('杭电多校第六场.pdf','wb') as f: #二进制写入f.write(pdf)
效果图
当然,本篇博文针对的只是文件的下载,当然对于这样一个两个文件完全可以手动下载,而且一般情况下资源的URL不一定说能找到就能找到的,但对于处理大批量文件来说通过脚本实现就非常容易了
以下是一个处理大量文件的例子:Python3批量下载.dat和.hea文件
利用python3爬虫下载图片、pdf文档相关推荐
- python处理word或者pdf文件_利用python程序生成word和PDF文档的方法
一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...
- 下载图片,文档,excel导入导出
Q1:下载图片,文档 --1:Fileio.html <!DOCTYPE html> <html> <head> <meta charset="UT ...
- itext html 转换 pdf文件,利用itext实现html转pdf文档
Link: http://keyknight.blog.163.com/blog/static/366378402009431104941637/ 利用itext实现html转pdf文档的代码实在是太 ...
- 在.NET 3.5 平台上使用LINQ to SQL创建三层/多层Web应用系统(源代码下载和PDF文档下载)...
在.NET 3.5 平台上使用LINQ to SQL创建三层/多层Web应用系统(源代码下载和PDF文档下载) 该主题的Part1- Part5系列文章已经陆续发表.为了感兴趣的朋友阅读方便,这里提供 ...
- python生成word 带目录_利用python程序生成word和PDF文档的方法
一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...
- unity 利用iTextSharp 开发doc转换pdf文档
1:将iTextSharp插件导入到unity->Asset文件夹下面 2:新建一个脚本,取名为ExportPDF,此脚本用于配置pdf文档的前期工作,以及用于接收其他脚本递交过来的数据 < ...
- python爬虫下载电影百度文档_写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...
- 自己亲自写的两本linux资料,免费下载,pdf文档
第一本是我写的韩顺平老师解说的linux视频的笔记,该视频原本有21讲,可是我始终没有找到当中的17.18讲.可是其它部分我感觉及记录的还是蛮认真的.该套视频解说的非常基础,因此我的这本笔记也非常基础 ...
- qt 利用 HTML 生成PDF文档,不能显示jpg图片
利用 QPrinter 和html 生成 pdf文档 其中用html语句有显示图片的语句 但只能显示png格式的图片,不能显示jpg格式图片. 经过排查:语法,文件路径等都正确,最终在stack ov ...
最新文章
- python检索字符串_python查找字符串所有子串
- 如何在GraphPad Prism中使用非线性回归拟合模型?
- Win下通过 Navica t连接Ubuntu下MySQL数据库
- 2020年第十八届西电程序设计竞赛网络预选赛之Problem A 失败的在线考试
- vc 控制台添加托盘显示_开源:ESP8266读DHT11温湿度,小程序实时显示
- HDOJ 1012-1020
- 如何下载python安装包的所有依赖_如何将包含所有依赖项的python包安装到Docker镜像中?...
- 持续集成框架,自动部署服务搭建jenkins+maven+svn(git)+shell
- python flask restful api_python之restful api(flask)获取数据
- net core 3.1 swagger文档添加 不用xml配置
- github上传命令
- Android应用视觉效果设计技巧
- vue组件之间互相传值:兄弟组件通信
- 数据挖掘——数据预处理
- 计算机屏幕蓝光,电脑屏幕如何设置护眼色?让颜色柔和且减少屏幕蓝光?
- 解决最近github网页无法打开问题
- android 面包屑控件,android面包屑導航欄的實現
- 图文笔记,带你走进《未来简史》(11-15)
- 2020年wordpress主题开发视频教程、WP主题WP模板开发视频教程
- 用switch语句根据消费金额计算折扣 (Java经典编程案例)