对于我的课程,我必须建立一个网络刮板,它可以浏览img,word文档和pdf的网站并将它们下载到一个文件中,我有img的下载工作,但当我将代码改为下载docs或pdf时,它根本找不到任何东西,我使用beautifulsoup来刮网站,我知道网站上有些文档和pdf文件无法下载。

from bs4 import BeautifulSoup

import urllib.request

import shutil

import requests

from urllib.parse import urljoin

import sys

import time

import os

import url

import hashlib

import re

url = 'http://www.soc.napier.ac.uk/~40009856/CW/'

path=('c:\\temp\\')

def ensure_dir(path):

directory = os.path.dirname(path)

if not os.path.exists(path):

os.makedirs(directory)

return path

os.chdir(ensure_dir(path))

def webget(url):

response = requests.get(url)

html = response.content

return html

def get_docs(url):

soup = make_soup(url)

docutments = [docs for docs in soup.findAll('doc')]

print (str(len(docutments)) + " docutments found.")

print('Downloading docutments to current working directory.')

docutments_links = [each.get('src') for each in docutments]

for each in docutments_links:

try:

filename = each.strip().split('/')[-1].strip()

src = urljoin(url, each)

print ('Getting: ' + filename)

response = requests.get(src, stream=True)

# delay to avoid corrupted previews

time.sleep(1)

with open(filename, 'wb') as out_file:

shutil.copyfileobj(response.raw, out_file)

except:

print(' An error occured. Continuing.')

print ('Done.')

if __name__ == '__main__':

get_docs(url)

python request下载word,下载word文档python相关推荐

  1. python office自动化_Python office automation:文档,python,自动化,办公,文件,篇,整理,一键,完成...

    文件整理不得不先提一下正则表达式 送上链接: python :re模块基本用法 一.列出文件夹下的所有文件 os.walk()用法 [ (当前目录列表),(子目录列表),(文件列表)]os.walk( ...

  2. 钉钉小程序上传预览下载word,pdf文档等一系列问题

    钉钉小程序上传预览下载word,pdf文档等一系列问题 小程序"用完即走"的理念使得有着很好的发展市场,不仅微信小程序,支付宝,钉钉小程序等都受用户的喜爱. 刚接触了一个企业内部应 ...

  3. Python爬虫实战 下载原力创付费文档---全屏阅览式

    下载原力创付费文档-全屏阅览式 一.项目需求: 从目标网址下载付费文档,并保存为word形式 网址点这里 二.思路 1.利用selenium实现异步加载,获取图片url 2.爬取图片 3.将图片写进w ...

  4. Python爬虫实战 下载原力创付费文档---滑动式

    下载原力创付费文档-滑动式 一.项目需求: 从目标网址下载付费文档,并保存为PDF形式 网址点这里 二.思路 1.利用selenium实现异步加载,获取图片url 2.爬取图片 3.将图片写进word ...

  5. 【python自动化办公01】word操作-新建文档

    点击上方"AI搞事情"关注我们 Python操作Word(Win32com)https://zhuanlan.zhihu.com/p/67543981 Office VBA 参考h ...

  6. python处理word或者pdf文件_利用python程序生成word和PDF文档的方法

    一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...

  7. python 下载道客巴巴文档

    python 下载道客巴巴文档 环境准备 首先,我们会使用到selenium这个库,直接用pip安装即可,有关于selenium的使用还需要安装浏览器驱动和配置环境变量,在这里就不过多阐述,很多博客中 ...

  8. python读写word、pdf文档

    处理PDF和Word文档 用于处理PDF的模块是PyPDF2. 处理Word文档是python-docx模块,要安装python-docx,但是导入模块时是写import docx. 1.从PDF提取 ...

  9. html画布显示PPT,【Web前端问题】有没有办法让HTML5 canvas显示/预览word/excel/powerpoint 文档?...

    目前想实现类似百度文库那样的在线文档预览,但是他们使用的一般都是Flash,而HTML5 canvas可以在大多数情况下代替Flash,那么有没有办法让canvas显示/预览Office文档? 如果不 ...

  10. 30个值得收藏可免费搜索/下载PDF电子图书(文档)的搜索引擎

    « SooPAT专利搜索引擎为学知识搜索 » 30个值得收藏可免费搜索/下载PDF电子图书(文档)的搜索引擎 实用酷站 | 评论(0) | 348 views | 一 26th, 2011 PDF全称 ...

最新文章

  1. undefined reference to `libiconv_open 无法编译PHP
  2. 用于CUDA FFT的PyTorch包装器pytorch-fft
  3. hibernate插入Mysql数据库出现中文乱码情况从这5个方面解决
  4. 2-2 工程源码文件结构
  5. 数据结构 二、向量(接口与实现and可扩容向量)
  6. 计算机配置界面在那,在哪里设置关机画面?设置为原来的经典界面?
  7. mAP(mean Average Precision)应用(转)
  8. 【BZOJ3143】游走,概率计算+高斯消元
  9. 电脑能开机但进不去系统,电脑只能进安全模式怎么处理?
  10. 阿里巴巴大规模应用 Flink 的实战经验:常见问题诊断思路
  11. 学JS必读,《JavaScript高级程序设计(第3版)》
  12. 分享Monaco.ttf字体(Mac样式)
  13. [ERROR] [MY-012576] [InnoDB] Unable to create temporary file; errno: 30
  14. pecl 安装指定版本swoole
  15. linux共享实体机硬盘,实现目录共享
  16. 聊天气泡图片的动态拉伸、适配与镜像
  17. 奔富bef407价格_奔富酒庄
  18. 爬取北京链家二手房数据
  19. spring security基于数据库的安全认证 配置
  20. 微软发函提醒,企业担惊受怕

热门文章

  1. 室内设计优美语句_家居唯美句子
  2. 树莓派zero玩JAVA游戏,用树莓派编写“太空入侵者”游戏教程,这个元旦简单太爽了……...
  3. 微型计算机的主要性能和指标,微型计算机的主要性能指标及配置试题解析
  4. QT编写实现图片的幻灯片播放、自适应显示、缩放(以鼠标位置为中心进行缩放)、拖动、重置、显示鼠标位置像素坐标及RGB值、播放GIF动画、截图保存、批量保存、拖入文件夹遍历所有文件
  5. Typora的读法与基本使用
  6. newifi mini 和 斐讯k1 的pandorabox 使用总结
  7. 爱思助手安卓能用吗_苹果MagSafe充电器怎么样-苹果MagSafe充电器安卓能用吗
  8. ChatGPT推荐的开源项目,到底靠不靠谱?
  9. windows7的无线互联
  10. 月薪1万+的人,真的还需要学Excel函数这8个逆天神技能吗?