python网上批量下载表格_python读取表格链接批量下载Html文件
#导入库
import urllib.request
#获取单个html文件内容
def getHtml(url):
html=urllib.request.urlopen(url).read()
return html
#将html文件重新命名,保存到指定位置
def saveHtml(file_name,file_content):
#注意Windows文件命名的禁用符,比如/
with open(file_name.replace('/','_')+".html","wb") as f:
f.write(file_content)
#写文件用bytes而不是str,所以要转码
#读取csv格式的文件,只读
f = open("commed.csv","r")
count=1
#读取每一行的数据,每一行的数据逐一处理
for line in f:
count=count+1
a=[]
a.append(line.strip().split(","))
site=a[0][0]
if len(site) > 10:
#满足条件后,将读取的每一个网址信息,进行访问保存,重新命名保存到本地
title="commed\\"+str(count)+"行"+a[0][1]
html=getHtml(site)
saveHtml(title,html)
#打印输出确认是否保存成功,显示当前处理数据的行数
print("下载成功"+"===第"+str(count)+"行")
#关闭文件读取函数
f.close()
python网上批量下载表格_python读取表格链接批量下载Html文件相关推荐
- python 读取 word 表格_python读取word表格
python调用com,如何完成word表格操作 word中doc这个格式的文件是微软特有格式,微软没有向外公开任何的api接口文档,只能通过微软提供的OLE组件来提其COM接口,只要你的机器上安装了 ...
- python 读取excel表格_Python读取Excel表格
本文将教大家如何使用Python来读取Excel表,学会这个技能对提高工作效率会十分有帮助. 目录: 1.安装Python读excel模块--xlrd 2.准备表格内容 3.编写python代码并运行 ...
- python写入excel表格_Python读取写入Excel表格
原博文 2019-08-27 15:35 − Python操作Excel,主要用到xlrd和xlwt这两个库,即xlrd是读Excel,xlwt是写Excel的库 1.Python读取Excel表格 ...
- python写表格_python写入表格
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! import xlwt #导入xlwt 库 book =xlwt.workboo ...
- python取出表格_python提取表格
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 用python提取pdf文件表格中的数据,这里我说的是,只提取pdf文件中表格中 ...
- python爬虫网页表格_python网页表格
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 以网页表格为例:https:www.kuaidaili.comfree该网站数据 ...
- python爬虫快速下载图片_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...
Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...
- python怎么读出当前时间_Python读取Excel,日期列读出来是数字的处理
Python读取Excel,里面如果是日期,直接读出来是float类型,无法直接使用. 通过判断读取表格的数据类型ctype,进一步处理. 返回的单元格内容的类型有5种: ctype: 0 empty ...
- python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...
Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...
最新文章
- 5G NGC — 会话管理模型 — 边缘业务本地分流
- python去除扩展名
- 2. JSF---托管Bean
- java实现一个gui面板_JAVA GUI自定义JPanel画板背景
- 由动态分配和静态分配的数据在内存组成区别
- Mysql 去除 特定字符后面的所有字符串
- linux 再多的running也挡不住锁
- [C][变量作用域]语句块
- 2017.3.25 最长递增子序列 失败总结
- InternetCheckConnection 通过尝试连接特定的网址,可以用来判断目前机器是否接通外网
- mysql自动更新时间的触发器
- ctags 的最简单使用
- Xcode给应用签名的设置
- Windows10如何安装windows terminal
- fins协议握手信号服务器响应,欧姆龙OMRON PLC之HostLink通讯协议(四)-FINS命令工作模式篇...
- 【深度】分化人类行为和认知能力的6个评估函数
- 租用国外服务器应该注意哪些?
- 要求用户在Python中输入整数| 限制用户仅输入整数值
- 成都智慧工地系统_智慧工地平台指导方案
- 再见!该死的NullPointException
热门文章
- 投资共享充电宝项目市场分析报告
- [ WARN] : Topic ‘/rviz_visual_tools‘ unable to connect to any subscribers with 0.5 sec.解决办法
- 生产线平衡问题的+Leapms线性规划方法
- Linux开发环境配置
- 政务大脑、智慧政务解决方案、智慧城镇解决方案
- 【译文】为什么我在亚马逊工作了5个月之后就离职了
- ESP8266--系统软件定时器
- 长度单位px、vp、fp
- unix下取昨日日期
- @Transient使用心得