就提取excel文本框的内容,提供两种方法

一、

转成pdf,识别pdf文字

该方法需要注意两点:

1.似乎只能识别选中的文字(图片不行)

2.会受到精度影响(即有可能识别出错字)

以下是代码

先转存为pdf格式

import win32com.client
excel = win32com.client.DispatchEx('Excel.Application')
excel.Visible = False  # 是否可视化
wb = excel.Workbooks.Open(input_path, UpdateLinks=False, ReadOnly=False)
ws = wb.Worksheets(Name)
#打印设置
ws.PageSetup.Zoom = False
ws.PageSetup.FitToPagesTall = False
ws.PageSetup.FitToPagesWide = 1
#导出为pdf
ws.ExportAsFixedFormat(0, output_path)
wb.Close(0)
excel.Quit()

再识别pdf中的文本

with pdfplumber.open(file) as pdf:for ys in range(len(pdf.pages)):page = pdf.pages[ys]content = page.extract_text().split('\n')#接下来进行你对数据的处理

二、

直接提取单元框的内容

该方法需要注意:

提取的单元框顺序是乱的(我还没看懂)

import xlwings as xw
path=r"C:\Users\dds\Desktop\ddd.xls"
app = xw.App(visible=True,add_book=False)
wb=app.books.open(path)con=[]  #实例化列表存储数据
for sheet in wb.sheets:i=0con.append([''])       #跨行数据应为二维数组con.append([sheet.name])for shape in sheet.shapes:#print(shape)   #可以打印出来看格式,或者采用下面图片的方法if shape.name.startswith('Rectangle'): #也有文章用TextBox,实际情况实际分析if shape.text:con.append([shape.text.replace('\n',' ')])i+=1                print(sheet.name,str(i))
wb.sheets.add().name='文本'   #创建新表储存数据
sht=wb.sheets['文本']
sht.range('A1:A%d'%(len(con))).value=con
wb.save(r'C:\Users\dds\Desktop/asd.xls')
wb.close()
app.quit()

也可用这个(仅供参考)

查阅的时候还见到一些其他方法如直接解析excel等,但个人不太喜欢,故没有收录

python提取excel文本框内容相关推荐

  1. Python提取 “Excel文本框” 内容,这个需求头一次见,1000个表,10行代码!

    本文介绍 说实话,这个需求头一次碰到,我相信对于大多数朋友来说,也是头一次碰到."提取excel文本框中的内容",对,你没有听错!我也不知道你碰到过没有,但是这确实是一位朋友提出的 ...

  2. python 获取excel文本框_如何基于python操作excel并获取内容

    这篇文章主要介绍了如何基于python操作excel并获取内容,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 背景:从excel表中获取请求url. ...

  3. python获取网页文本框内容_python识别html主要文本框

    在抓取网页的时候只想抓取主要的文本框,例如 csdn 中的主要文本框为下图红色框: 抓取的思想是,利用 bs4 查找所有的 div,用正则筛选出每个 div 里面的中文,找到中文字数最多的 div 就 ...

  4. python 获取excel文本框_简单使用python做excel多文件批量搜索(带图形界面)(已更新)...

    [Python] 纯文本查看 复制代码import xlwings as xw #引入xlwings处理excel from tkinter import * #引入tkinter处理界面 impor ...

  5. python 获取excel文本框_Python自动化办公-Excel读取与操作

    实现自动化办公是许多同学学习Python的初衷,但对于有选择困难症而且基础相对薄弱的同学来讲,面对众多的教程,Python库,往往无从下手,本篇从实际应用的角度,给出一条能快速上手的学习及实操路线,以 ...

  6. python获取html文本框内容_Python3处理HTML获取所需内容

    处理HTML页面,经常使用的便是使用beautifulsoup库 pip install beautifulsoup4 执行上述语句下载bs4库 一般请求下来的所需数据都位于tbody的tr标签里,下 ...

  7. excel vba 文本框_自动调整Excel文本框的大小

    excel vba 文本框 If other people will be using the Excel files that you build, it might help them if yo ...

  8. python tkinter输入框_python TKinter获取文本框内容的方法

    python TKinter获取文本框内容的方法 更新时间:2018年10月11日 11:36:08 作者:biubiuzzz 今天小编就为大家分享一篇python TKinter获取文本框内容的方法 ...

  9. EXCEL文本框及自定义图形内文本内容检索及替换

    EXCEL中原生功能ctrl+F只能针对单元格内容进行检索.替换,实际应用中经常需要对文本框内容进行类似操作,故而制作了这个小工具EXCEL文本框内容查找替换https://download.csdn ...

最新文章

  1. 对ie6、ie7、ff兼容性的详细css hack介绍
  2. IT新人如何快速成长
  3. 鸡啄米:模态、非模态对话框
  4. 用SC命令 添加或删除windows服务提示OpenSCManager 失败5
  5. 收入和贷款有什么关系?
  6. received packet with own address as source address
  7. 浏览器内核与web标准
  8. 机器学习基础(十三)—— regularization validation
  9. Hive--sql中的explode()函数和posexplode()函数
  10. html5 crop,HTML5内联SVG autocrop空格
  11. yolo算法部分简单理解
  12. iPhone13全系列参数对比
  13. TPMS烧录器安装 SNP739
  14. 组合预测模型:bagging
  15. 计算机网络(五) | 数据链路层:MAC地址、以太网协议、MTU和ARP协议
  16. 小武与箭指offer----list.invert
  17. 时间序列预测中使用类EMD方法时的信息泄露和计算量问题
  18. html内容被背景图片遮住怎么办_div被iframe遮住的几种情况及解决方法
  19. activiti设置和使用启动人;activiti:initiator的作用及其使用
  20. 什么是嵌入式AI开发?人工智能芯片指什么?STM32、树莓派、Jetson TX2、华为昇腾部署神经网络区别在哪?

热门文章

  1. Prometheus简介与部署
  2. 人群计数Crowd counting 和 Swin Transformer
  3. 计算机重启快捷键是什么,待机和重启电脑的快捷键是什么
  4. 浅谈vue-draggable原理
  5. 输入经纬度批量查询高程
  6. 性能测试分层模型-选自书籍:小强软件测试疯狂讲义
  7. 使用Echart报错Cannot read property ‘getAttribute‘ of undefined
  8. 每日学术速递2.24
  9. 对口计算机高考考纲占比,对口升学信息技术(计算机)类2017年专业课考试大纲...
  10. MySQL5.7创建唯一索引时报错提示Duplicate entry * for key *