python下wordpdf转换总结

近期涉及到了关于doc文档读取的处理,也查了很久,为了便于大家使用,故集大成一下。

Doc文档读取有如下几种:

1、从doc读取文本

目前没有找到直接的方式,一般是先转为docx文件在处理。所使用工具为doc2doc(批量时可用),或人工另存处理。

还有可以用antiword(依赖linux环境),使用“./antiword” + doc文件名即可读取文件内容。

2、从docx读取文本

一般使用python-docx库的方法,但只支持创建新文档和读取一些基本的文件数据,如文件大小和文件标题,不支持正文读取。

或直接从docx中读取xml的方法。

3、从pdf读取文本

一般使用pdfminer3k库或pyPdf库。其中pyPdf用起来其实稍显麻烦,很多操作不够方便。pdfminer 对表格不友好,也可以将 PDF 转换为 text 文本,还可以转换为 HTML 等带有标签的文本。

还有一种可以用pdf2htmlex(非python),先把pdf转html,接下来再用bs4来解析处理。这样的好处是处理html的工具非常非常丰富,且pdf2htmlex对原页面的效果保持得特别好,特别是对于那些个用word和latex导出的pdf里,大量数据图表里的标签可以很方便地提取所需的值。

4、把pdf中图存为jpg文件

一般可以使用PythonMagick库。

以上的代码处理,均在https://github.com/renwoxing2016/。

python下wordpdf转换总结相关推荐

  1. python下的日期与时间(时间格式转换、时间戳处理,时间差处理)

    python下的日期与时间 一.在Python中,时间主要有三种表示形式, 1.时间戳(TimeStamp):1970年1月1日之后的秒 2.时间元组格式化形式 包含了:年.日.星期 得到time.s ...

  2. 使用Python,OpenCV转换颜色空间,追踪对象的轨迹

    使用Python,OpenCV转换颜色空间,追踪对象的轨迹 1. 效果图 2. 源码 参考 这篇博客可以看作是之前俩篇博客的融合,将介绍如何使用Python,OpenCV转换颜色空间,并利用HSV追踪 ...

  3. 基于Python实现图画转换字符画

    微信改版,加星标不迷路! 基于Python实现图画转换字符画 作者:阿广 概述 前言 准备工作 识别原理 静态图像处理 动态图像处理 结果 阿广说 群聊交流 福利一刻 推荐阅读 前言 前几天写了基于P ...

  4. 基于Python下的Apriltag检测

    简 介: 在Windows下下载Aprilttags检测工具包,对于图片中的Apriltag检测进行了初步的实验. 关键词: Apriltag #mermaid-svg-ycUj7DuM4cfFAv9 ...

  5. python中文字符串编码_浅谈python下含中文字符串正则表达式的编码问题

    前言 Python文件默认的编码格式是ascii ,无法识别汉字,因为ascii码中没有中文. 所以py文件中要写中文字符时,一般在开头加 # -*- coding: utf-8 -*- 或者 #co ...

  6. python json.loads()中文问题-解决Python下json.loads()中文字符出错的问题

    Python:2.7 IDE:Pycharm5.0.3 今天遇到一个问题,就是在使用json.load()时,中文字符被转化为Unicode码的问题,解决方案找了半天,无解.全部代码贴出,很简单的一个 ...

  7. scrapy笔记——python的时间转换

    1 import datetime 2 GMT_FORMAT = '%M %H %d %m %w' 3 datetime.datetime.utcnow().strftime(GMT_FORMAT) ...

  8. Py之GUI:Python下各种GUI(图形用户界面)简介、使用优缺点对比

    Py之GUI:Python下各种GUI(图形用户界面)简介.使用优缺点对比 目录 GUI Python下各种GUI简介.使用优缺点对比 Python下各种GUI更多官权威介绍 GUI 图形用户界面(G ...

  9. python读取raw数据文件_在python下读取并展示raw格式的图片实例

    raw文件可能有些人没有,因此,先用一张图片创建一个raw格式的文件(其实可以是其他类型的格式文件) import numpy as np import cv2 img = cv2.imread('c ...

最新文章

  1. 用Docker创建Nexus
  2. python批量下载网页文件-超简单超详细python小文件、大文件、批量下载教程
  3. java B2B2C电子商务平台分析之八--配置中心svn示例和refresh
  4. 查询方式的一般使用1
  5. echarts 地图 dispatchaction不好使_数据分析帝:广东省客户数量地图展示,如何通过python实现?...
  6. 4408: [Fjoi 2016]神秘数
  7. 【spring boot基础知识】如何使用自定义配置类
  8. python编程入门教程下载-《Python编程从入门到精通》PDF高清完整版-PDF下载
  9. 【新手教程】51Sim-One Cloud 2.0如何接入被测算法
  10. 8个电脑小技巧让你在朋友圈秒杀众人!
  11. 靶机、软件搭建:05---Burp Suite工具的安装与使用(Windows环境)
  12. Xshell vim使用右侧数字键盘时数字变成英文字母的解决办法
  13. Day134-136.尚品汇:平台属性接口、SPU、跨域问题、配置持久化、MinIO 分布式文件存储系统
  14. 浪潮cs5280H raid方案详细
  15. slf4j log4j logback关系详解和相关用法 【by Sinte-Beuve】
  16. Linux主机熵值不足导致SecureRandom线程阻塞问题
  17. 华硕K42J触摸屏禁用
  18. 铁路订票网站个人的设计浅见
  19. UCOSII软件定时器
  20. Leetcode:最长公共前缀

热门文章

  1. 基于springboot+vue的在线电影院订票选座系统
  2. filmora怎么设置中文_Filmora
  3. Manjaro Linux安装Termius
  4. 多久更换计算机密码比较安全,个人计算机密码设置要符合安全要求,并定期更换 - 作业在线问答...
  5. java无法调节安全级别_java安全级别无法更改
  6. Max retries exceeded with url超过rul最大重试次数
  7. 2020-11-04前端学习之HTML的开端
  8. 关于传统以太网的总结
  9. “大唐杯”移动通信5G技术大赛从小白到国奖全教程
  10. 为什么输入法显示中文打不出中文_搜狗输入法打不出中文怎么回事 搜狗输入法在qq上打不出汉字解决办法...