python下wordpdf转换总结
python下wordpdf转换总结
近期涉及到了关于doc文档读取的处理,也查了很久,为了便于大家使用,故集大成一下。
Doc文档读取有如下几种:
1、从doc读取文本
目前没有找到直接的方式,一般是先转为docx文件在处理。所使用工具为doc2doc(批量时可用),或人工另存处理。
还有可以用antiword(依赖linux环境),使用“./antiword” + doc文件名即可读取文件内容。
2、从docx读取文本
一般使用python-docx库的方法,但只支持创建新文档和读取一些基本的文件数据,如文件大小和文件标题,不支持正文读取。
或直接从docx中读取xml的方法。
3、从pdf读取文本
一般使用pdfminer3k库或pyPdf库。其中pyPdf用起来其实稍显麻烦,很多操作不够方便。pdfminer 对表格不友好,也可以将 PDF 转换为 text 文本,还可以转换为 HTML 等带有标签的文本。
还有一种可以用pdf2htmlex(非python),先把pdf转html,接下来再用bs4来解析处理。这样的好处是处理html的工具非常非常丰富,且pdf2htmlex对原页面的效果保持得特别好,特别是对于那些个用word和latex导出的pdf里,大量数据图表里的标签可以很方便地提取所需的值。
4、把pdf中图存为jpg文件
一般可以使用PythonMagick库。
以上的代码处理,均在https://github.com/renwoxing2016/。
python下wordpdf转换总结相关推荐
- python下的日期与时间(时间格式转换、时间戳处理,时间差处理)
python下的日期与时间 一.在Python中,时间主要有三种表示形式, 1.时间戳(TimeStamp):1970年1月1日之后的秒 2.时间元组格式化形式 包含了:年.日.星期 得到time.s ...
- 使用Python,OpenCV转换颜色空间,追踪对象的轨迹
使用Python,OpenCV转换颜色空间,追踪对象的轨迹 1. 效果图 2. 源码 参考 这篇博客可以看作是之前俩篇博客的融合,将介绍如何使用Python,OpenCV转换颜色空间,并利用HSV追踪 ...
- 基于Python实现图画转换字符画
微信改版,加星标不迷路! 基于Python实现图画转换字符画 作者:阿广 概述 前言 准备工作 识别原理 静态图像处理 动态图像处理 结果 阿广说 群聊交流 福利一刻 推荐阅读 前言 前几天写了基于P ...
- 基于Python下的Apriltag检测
简 介: 在Windows下下载Aprilttags检测工具包,对于图片中的Apriltag检测进行了初步的实验. 关键词: Apriltag #mermaid-svg-ycUj7DuM4cfFAv9 ...
- python中文字符串编码_浅谈python下含中文字符串正则表达式的编码问题
前言 Python文件默认的编码格式是ascii ,无法识别汉字,因为ascii码中没有中文. 所以py文件中要写中文字符时,一般在开头加 # -*- coding: utf-8 -*- 或者 #co ...
- python json.loads()中文问题-解决Python下json.loads()中文字符出错的问题
Python:2.7 IDE:Pycharm5.0.3 今天遇到一个问题,就是在使用json.load()时,中文字符被转化为Unicode码的问题,解决方案找了半天,无解.全部代码贴出,很简单的一个 ...
- scrapy笔记——python的时间转换
1 import datetime 2 GMT_FORMAT = '%M %H %d %m %w' 3 datetime.datetime.utcnow().strftime(GMT_FORMAT) ...
- Py之GUI:Python下各种GUI(图形用户界面)简介、使用优缺点对比
Py之GUI:Python下各种GUI(图形用户界面)简介.使用优缺点对比 目录 GUI Python下各种GUI简介.使用优缺点对比 Python下各种GUI更多官权威介绍 GUI 图形用户界面(G ...
- python读取raw数据文件_在python下读取并展示raw格式的图片实例
raw文件可能有些人没有,因此,先用一张图片创建一个raw格式的文件(其实可以是其他类型的格式文件) import numpy as np import cv2 img = cv2.imread('c ...
最新文章
- 用Docker创建Nexus
- python批量下载网页文件-超简单超详细python小文件、大文件、批量下载教程
- java B2B2C电子商务平台分析之八--配置中心svn示例和refresh
- 查询方式的一般使用1
- echarts 地图 dispatchaction不好使_数据分析帝:广东省客户数量地图展示,如何通过python实现?...
- 4408: [Fjoi 2016]神秘数
- 【spring boot基础知识】如何使用自定义配置类
- python编程入门教程下载-《Python编程从入门到精通》PDF高清完整版-PDF下载
- 【新手教程】51Sim-One Cloud 2.0如何接入被测算法
- 8个电脑小技巧让你在朋友圈秒杀众人!
- 靶机、软件搭建:05---Burp Suite工具的安装与使用(Windows环境)
- Xshell vim使用右侧数字键盘时数字变成英文字母的解决办法
- Day134-136.尚品汇:平台属性接口、SPU、跨域问题、配置持久化、MinIO 分布式文件存储系统
- 浪潮cs5280H raid方案详细
- slf4j log4j logback关系详解和相关用法 【by Sinte-Beuve】
- Linux主机熵值不足导致SecureRandom线程阻塞问题
- 华硕K42J触摸屏禁用
- 铁路订票网站个人的设计浅见
- UCOSII软件定时器
- Leetcode:最长公共前缀
热门文章
- 基于springboot+vue的在线电影院订票选座系统
- filmora怎么设置中文_Filmora
- Manjaro Linux安装Termius
- 多久更换计算机密码比较安全,个人计算机密码设置要符合安全要求,并定期更换 - 作业在线问答...
- java无法调节安全级别_java安全级别无法更改
- Max retries exceeded with url超过rul最大重试次数
- 2020-11-04前端学习之HTML的开端
- 关于传统以太网的总结
- “大唐杯”移动通信5G技术大赛从小白到国奖全教程
- 为什么输入法显示中文打不出中文_搜狗输入法打不出中文怎么回事 搜狗输入法在qq上打不出汉字解决办法...