工作上遇到如何读取Word文档中的表格内容,表格是有业务数据意义的,而且有一定规则的,因此不能直接读取表格文本,而是遍历表格单元格进行一行一列读取。

表格规则:

(1)表格可以有表头,表头也有业务意思

(2)一行为一个业务数据,可能会跨行

(3)列可能会有跨列、跨行

(4)单元格中图片、数学公式、嵌套表格、文件等

比如,以下表格

具体代码:https://github.com/suncht/wordtable-read

目前功能如下:

  1. 目前只支持读取2007以上Word文档表格单元格的文本,支持读取图片、数学公式。
  2. 支持一般性的有规则的复杂表格。
  3. 暂不支持2007以下的Doc类型文档,因为POI中暂未找到关于表格单元格定位的API。
  4. 为了兼容2007以下的Doc类型文档,利用jodconverter3.0 + LibreOffice 5.3,“先将Doc类型文档转换为Docx类型文档,再进行读取表格内容”。 注意:LibreOffice直接支持Docx类型文档,而OpenOffice不能直接支持Docx类型文档,需要AccessODF插件

读取Word文档的各种复杂表格内容相关推荐

  1. python批量提取word指定内容_使用python批量读取word文档并整理关键信息到excel表格的实例...

    目标 最近实验室里成立了一个计算机兴趣小组 倡议大家多把自己解决问题的经验记录并分享 就像在CSDN写博客一样 虽然刚刚起步 但考虑到后面此类经验记录的资料会越来越多 所以一开始就要做好模板设计(如下 ...

  2. java获取word书签表格数据_Python读取word文档里面的表格数据

    更多精彩,请点击上方蓝字关注我们! 我们常见的办公数据通常可以分为结构化数据与非结构化数据,比如常见的word, ppt, excel.前两者存储的是非结构化数据,excel存储的是结构化数据.从事数 ...

  3. VBA读取html表格内容,科学网—VBA读取word文档表格中table的cell的text文本 - 付安民的博文...

    VBA读取word文档表格中table的cell的text文本 已有 11546 次阅读 2010-6-4 16:40 |个人分类:学习篇|系统分类:科研笔记 Sub Readtable() Dim ...

  4. python合并word表格单元格_Python实战009:读取Word文档中的表格数据及表格合并问题解决...

    同事最近被安排整理资料,主要工作室将文档中的表格数据提取出来并整理层Excel表格供我们FII刀具商城进行资料维护.由于刀具的种类繁多且规格无数,所以要处理的数据量相当的庞大.人工核对整理既费时又费力 ...

  5. Java读取word文档里的复杂型表格(任免表)

    使用apache-poi读取word文档里的复杂型表格 这里使用的任免表编辑器产生的word文档. word模板:https://download.csdn.net/download/weixin_4 ...

  6. Py自动化办公—Word文档替换、Excel表格读取、Pdf文件生成和Email自动邮件发送实战案例...

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 平阳歌舞新承宠,帘外春寒赐锦袍. ...

  7. python生成word文档的表格_2018-10-04 [日常]用Python读取word文档中的表格并比较

    演示如下. 两个简单的word文档, 各有一个表格: 读取文档中的表格到列表(为演示只对单列表格操作): import docx def 取表格(文件名): 文件 = docx.Document(文件 ...

  8. Python读取word文档(结尾是docx)中的表格

    最近在处理一个需求时:要求读取word文档中表格,然后再把表格写入Excel中 需求非常简单,步骤也很明确,好了,不废话,直接上代码 成功写入: 所需用到的库: pip install python- ...

  9. Python 操作Word文档插入图片和表格实例演示

    Python 操作Word文档插入图片和表格实例演示 效果图 实现过程 ① python-docx 库安装 ② word 文档插入图片演示 ③ word 文档插入表格演示 [ 文章推荐 ] Pytho ...

最新文章

  1. 编写程序实验两个数的加减结果的判断_实验一 两个多字节数的加减运算 -
  2. Spring MVC 过时了吗?
  3. /etc/sysctl.conf参数解释
  4. idea 代码自动补全快捷键
  5. Build Docker image of a Python Flask app【转载】
  6. Py之folium:python库之folium的简介、安装、使用方法之详细攻略
  7. 内存延时cl_内存频率和CL延迟哪个重要
  8. linux 7.0修改网卡ip,CentOS7修改网卡为静态IP
  9. 关于VerifyError
  10. 全网Star最多(近20k)的Spring Boot开源教程 2019 年要继续更新了!
  11. 执行存储过程执行时,报ORA-01031权限不足
  12. ad20生成二维码_AD20学习笔记一
  13. golang actor模型探索
  14. SingleSignOn的配置和说明
  15. odp.net连接oracle9i 出错解决_架构师成长之路:Kafka连接器深度解读之错误处理和死信队列...
  16. gitLab私服-转帖记录
  17. VUE3使用keep-alive页面切换时报错:parentComponent.ctx.deactivate is not a function
  18. 大学生笔记本购买指南——扫盲版(2019)
  19. 如何使用Socks5代理IP加密Windows网络数据传输
  20. 【android编程】第五讲-Android高级组件

热门文章

  1. matlab中字符串的替换,用for循环中的regexprep替换字符串? (MATLAB)
  2. zabbix自动发现并监控GPU
  3. 關於python 2.x中文字編碼的簡單說明
  4. vue2 中使用keep-alive
  5. photoshop-v.1.0.1源码分析第三篇–FilterInterface.p
  6. 分享一个免费储存视频的地方、公司的小视频可以随便的上传
  7. C语言中一些基本问题
  8. layui清空表单数据_layui如何清除表单数据
  9. 手机巨人诺基亚为何会倒下
  10. 计算超大整数的阶乘(java)