python request下载word,下载word文档python
对于我的课程,我必须建立一个网络刮板,它可以浏览img,word文档和pdf的网站并将它们下载到一个文件中,我有img的下载工作,但当我将代码改为下载docs或pdf时,它根本找不到任何东西,我使用beautifulsoup来刮网站,我知道网站上有些文档和pdf文件无法下载。
from bs4 import BeautifulSoup
import urllib.request
import shutil
import requests
from urllib.parse import urljoin
import sys
import time
import os
import url
import hashlib
import re
url = 'http://www.soc.napier.ac.uk/~40009856/CW/'
path=('c:\\temp\\')
def ensure_dir(path):
directory = os.path.dirname(path)
if not os.path.exists(path):
os.makedirs(directory)
return path
os.chdir(ensure_dir(path))
def webget(url):
response = requests.get(url)
html = response.content
return html
def get_docs(url):
soup = make_soup(url)
docutments = [docs for docs in soup.findAll('doc')]
print (str(len(docutments)) + " docutments found.")
print('Downloading docutments to current working directory.')
docutments_links = [each.get('src') for each in docutments]
for each in docutments_links:
try:
filename = each.strip().split('/')[-1].strip()
src = urljoin(url, each)
print ('Getting: ' + filename)
response = requests.get(src, stream=True)
# delay to avoid corrupted previews
time.sleep(1)
with open(filename, 'wb') as out_file:
shutil.copyfileobj(response.raw, out_file)
except:
print(' An error occured. Continuing.')
print ('Done.')
if __name__ == '__main__':
get_docs(url)
python request下载word,下载word文档python相关推荐
- python office自动化_Python office automation:文档,python,自动化,办公,文件,篇,整理,一键,完成...
文件整理不得不先提一下正则表达式 送上链接: python :re模块基本用法 一.列出文件夹下的所有文件 os.walk()用法 [ (当前目录列表),(子目录列表),(文件列表)]os.walk( ...
- 钉钉小程序上传预览下载word,pdf文档等一系列问题
钉钉小程序上传预览下载word,pdf文档等一系列问题 小程序"用完即走"的理念使得有着很好的发展市场,不仅微信小程序,支付宝,钉钉小程序等都受用户的喜爱. 刚接触了一个企业内部应 ...
- Python爬虫实战 下载原力创付费文档---全屏阅览式
下载原力创付费文档-全屏阅览式 一.项目需求: 从目标网址下载付费文档,并保存为word形式 网址点这里 二.思路 1.利用selenium实现异步加载,获取图片url 2.爬取图片 3.将图片写进w ...
- Python爬虫实战 下载原力创付费文档---滑动式
下载原力创付费文档-滑动式 一.项目需求: 从目标网址下载付费文档,并保存为PDF形式 网址点这里 二.思路 1.利用selenium实现异步加载,获取图片url 2.爬取图片 3.将图片写进word ...
- 【python自动化办公01】word操作-新建文档
点击上方"AI搞事情"关注我们 Python操作Word(Win32com)https://zhuanlan.zhihu.com/p/67543981 Office VBA 参考h ...
- python处理word或者pdf文件_利用python程序生成word和PDF文档的方法
一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...
- python 下载道客巴巴文档
python 下载道客巴巴文档 环境准备 首先,我们会使用到selenium这个库,直接用pip安装即可,有关于selenium的使用还需要安装浏览器驱动和配置环境变量,在这里就不过多阐述,很多博客中 ...
- python读写word、pdf文档
处理PDF和Word文档 用于处理PDF的模块是PyPDF2. 处理Word文档是python-docx模块,要安装python-docx,但是导入模块时是写import docx. 1.从PDF提取 ...
- html画布显示PPT,【Web前端问题】有没有办法让HTML5 canvas显示/预览word/excel/powerpoint 文档?...
目前想实现类似百度文库那样的在线文档预览,但是他们使用的一般都是Flash,而HTML5 canvas可以在大多数情况下代替Flash,那么有没有办法让canvas显示/预览Office文档? 如果不 ...
- 30个值得收藏可免费搜索/下载PDF电子图书(文档)的搜索引擎
« SooPAT专利搜索引擎为学知识搜索 » 30个值得收藏可免费搜索/下载PDF电子图书(文档)的搜索引擎 实用酷站 | 评论(0) | 348 views | 一 26th, 2011 PDF全称 ...
最新文章
- undefined reference to `libiconv_open 无法编译PHP
- 用于CUDA FFT的PyTorch包装器pytorch-fft
- hibernate插入Mysql数据库出现中文乱码情况从这5个方面解决
- 2-2 工程源码文件结构
- 数据结构 二、向量(接口与实现and可扩容向量)
- 计算机配置界面在那,在哪里设置关机画面?设置为原来的经典界面?
- mAP(mean Average Precision)应用(转)
- 【BZOJ3143】游走,概率计算+高斯消元
- 电脑能开机但进不去系统,电脑只能进安全模式怎么处理?
- 阿里巴巴大规模应用 Flink 的实战经验:常见问题诊断思路
- 学JS必读,《JavaScript高级程序设计(第3版)》
- 分享Monaco.ttf字体(Mac样式)
- [ERROR] [MY-012576] [InnoDB] Unable to create temporary file; errno: 30
- pecl 安装指定版本swoole
- linux共享实体机硬盘,实现目录共享
- 聊天气泡图片的动态拉伸、适配与镜像
- 奔富bef407价格_奔富酒庄
- 爬取北京链家二手房数据
- spring security基于数据库的安全认证 配置
- 微软发函提醒,企业担惊受怕
热门文章
- 室内设计优美语句_家居唯美句子
- 树莓派zero玩JAVA游戏,用树莓派编写“太空入侵者”游戏教程,这个元旦简单太爽了……...
- 微型计算机的主要性能和指标,微型计算机的主要性能指标及配置试题解析
- QT编写实现图片的幻灯片播放、自适应显示、缩放(以鼠标位置为中心进行缩放)、拖动、重置、显示鼠标位置像素坐标及RGB值、播放GIF动画、截图保存、批量保存、拖入文件夹遍历所有文件
- Typora的读法与基本使用
- newifi mini 和 斐讯k1 的pandorabox 使用总结
- 爱思助手安卓能用吗_苹果MagSafe充电器怎么样-苹果MagSafe充电器安卓能用吗
- ChatGPT推荐的开源项目,到底靠不靠谱?
- windows7的无线互联
- 月薪1万+的人,真的还需要学Excel函数这8个逆天神技能吗?