环境
语言环境:python3.6
操作系统:Win10

第三方库
requests

互联网上的资源大都是以二进制形式存储和运输的,如图片、pdf、音频、视频等,像.dat、.ts等这些不常用的文件也都是二进制。我们知道python3爬虫是利用爬虫模拟浏览器向服务端发送请求,并解析服务器返回来的响应,像上述这些文件都是以二进制形式返回到本地客户端的。而response对象的属性content表示的则是HTTP响应内容的二进制形式,利用该属性,我们可以通过代码对网上资源进行下载
下载这些资源最重要的一点就是,你要知道这些文件在哪儿,也就是他们的URL,即他们的连接

下载图片
链接:美女长发披肩背影美图

代码实现

import requests  url = 'https://img-blog.csdnimg.cn/20181119214250858.png'
r = requests.get(url)
img = r.content       #响应的二进制文件
with open('美女.png','wb') as f:     #二进制写入f.write(img)

下载pdf
下载链接:http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf

代码实现

import requestsurl = 'http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf'
r = requests.get(url)
pdf = r.content       #响应的二进制文件
with open('杭电多校第六场.pdf','wb') as f:     #二进制写入f.write(pdf)

效果图

当然,本篇博文针对的只是文件的下载,当然对于这样一个两个文件完全可以手动下载,而且一般情况下资源的URL不一定说能找到就能找到的,但对于处理大批量文件来说通过脚本实现就非常容易了
以下是一个处理大量文件的例子:Python3批量下载.dat和.hea文件

利用python3爬虫下载图片、pdf文档相关推荐

  1. python处理word或者pdf文件_利用python程序生成word和PDF文档的方法

    一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...

  2. 下载图片,文档,excel导入导出

    Q1:下载图片,文档 --1:Fileio.html <!DOCTYPE html> <html> <head> <meta charset="UT ...

  3. itext html 转换 pdf文件,利用itext实现html转pdf文档

    Link: http://keyknight.blog.163.com/blog/static/366378402009431104941637/ 利用itext实现html转pdf文档的代码实在是太 ...

  4. 在.NET 3.5 平台上使用LINQ to SQL创建三层/多层Web应用系统(源代码下载和PDF文档下载)...

    在.NET 3.5 平台上使用LINQ to SQL创建三层/多层Web应用系统(源代码下载和PDF文档下载) 该主题的Part1- Part5系列文章已经陆续发表.为了感兴趣的朋友阅读方便,这里提供 ...

  5. python生成word 带目录_利用python程序生成word和PDF文档的方法

    一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...

  6. unity 利用iTextSharp 开发doc转换pdf文档

    1:将iTextSharp插件导入到unity->Asset文件夹下面 2:新建一个脚本,取名为ExportPDF,此脚本用于配置pdf文档的前期工作,以及用于接收其他脚本递交过来的数据 < ...

  7. python爬虫下载电影百度文档_写一个python 爬虫爬取百度电影并存入mysql中

    目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...

  8. 自己亲自写的两本linux资料,免费下载,pdf文档

    第一本是我写的韩顺平老师解说的linux视频的笔记,该视频原本有21讲,可是我始终没有找到当中的17.18讲.可是其它部分我感觉及记录的还是蛮认真的.该套视频解说的非常基础,因此我的这本笔记也非常基础 ...

  9. qt 利用 HTML 生成PDF文档,不能显示jpg图片

    利用 QPrinter 和html 生成 pdf文档 其中用html语句有显示图片的语句 但只能显示png格式的图片,不能显示jpg格式图片. 经过排查:语法,文件路径等都正确,最终在stack ov ...

最新文章

  1. python检索字符串_python查找字符串所有子串
  2. 如何在GraphPad Prism中使用非线性回归拟合模型?
  3. Win下通过 Navica t连接Ubuntu下MySQL数据库
  4. 2020年第十八届西电程序设计竞赛网络预选赛之Problem A 失败的在线考试
  5. vc 控制台添加托盘显示_开源:ESP8266读DHT11温湿度,小程序实时显示
  6. HDOJ 1012-1020
  7. 如何下载python安装包的所有依赖_如何将包含所有依赖项的python包安装到Docker镜像中?...
  8. 持续集成框架,自动部署服务搭建jenkins+maven+svn(git)+shell
  9. python flask restful api_python之restful api(flask)获取数据
  10. net core 3.1 swagger文档添加 不用xml配置
  11. github上传命令
  12. Android应用视觉效果设计技巧
  13. vue组件之间互相传值:兄弟组件通信
  14. 数据挖掘——数据预处理
  15. 计算机屏幕蓝光,电脑屏幕如何设置护眼色?让颜色柔和且减少屏幕蓝光?
  16. 解决最近github网页无法打开问题
  17. android 面包屑控件,android面包屑導航欄的實現
  18. 图文笔记,带你走进《未来简史》(11-15)
  19. 2020年wordpress主题开发视频教程、WP主题WP模板开发视频教程
  20. 用switch语句根据消费金额计算折扣 (Java经典编程案例)

热门文章

  1. 腾讯安全ApkPecker上线DEX-VMP自动化脱壳服务
  2. 组策略学习-统一部署桌面壁纸
  3. un直连服务器教程,UNRAID 搭建Rocket.Chat 私有聊天服务器教程
  4. 2022-02-17 WPF上位机 120-三菱PLC协议之读写方法流程解析
  5. STM32F103C8T6+无FIFO的OV7670的输出测试图像实例代码
  6. 用两个栈做队列(左程云算法学习)
  7. 制作LOGO 12种专用字体
  8. 在 HTML 中 清除浮动四种的方法
  9. 你知道怎样做好一个老板吗?先来看看不适合做老板的三种人
  10. 【小技巧】AI语音合成,文本音频互转经验分享