#首先需要在cmd用 pip 安装pdfminer3k

如:

#pip list 可以看用pip 安装的所有东西

import sys

import importlib

importlib.reload(sys)

from pdfminer.pdfparser import PDFParser,PDFDocument

from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal,LAParams

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

def readPDF(path,topath):

#以二进制形式打开pdf文件

f=open(path,'rb')

#创建一个pdf文档分析器

parser =PDFParser(f)

#创建一个pdf文档

pdfFile=PDFDocument()

#链接分析器与文档对象

parser.set_document(pdfFile)

pdfFile.set_parser(parser)

#提供初始化密码

pdfFile.initialize()

#检测文档是否提供txt转换

if not pdfFile.is_extractable:

raise PDFTextExtractionNotAllowed

else:

#解析数据

#数据管理器

manager=PDFResourceManager()

#创建一个pdf设备对象

laparams=LAParams()

device=PDFPageAggregator(manager,laparams=laparams)

#解释器对象

interpreter=PDFPageInterpreter(manager,device)

#开始循环处理,每次处理一页

for page in pdfFile.get_pages():

interpreter.process_page(page)

layout=device.get_result()

for x in layout:

if(isinstance(x,LTTextBoxHorizontal)):

with open(topath,'a') as f:

str1=x.get_text()

#操作

print(str1)

f.write(str1+'\n')

path=r'I:\1.pdf'

topath=r'I:\a.txt'

readPDF(path,topath)

python修改pdf文件大小,python读pdf文件字体大小_用Python读取pdf文件相关推荐

  1. python读取xml文件信息失败_通过XML读取XML文件时出错。

    我试图用python读取XML文件xml.etree但有时对于某些文件,我在解析文件时会出现内存错误.我的XML文件大小是912Mb,这个问题与文件大小有关吗?在 代码:from xml.etree ...

  2. python docx 字体大小_聊聊python办公自动化之Word(上)

    作者:星安果

  3. PDF如何修改文件字体大小

    在使用PDF文件的时候会遇到文件中的文字字体大小不一样还有字体样式不一样的情况,这样会显的突兀不好看,这个时候就需要对文件的字体进行修改编辑,那么具体要怎么操作呢?估计有很多小伙伴都很好奇PDF文件的 ...

  4. python读取文件特定内容_利用python代码获取文件特定的内容,并保存为文档

    import os.path import re # 1 遍历指定目录,显示目录下的所有文件名 def each_file(file_path): path_dir = os.listdir(file ...

  5. 修改ToolBar的标题、子标题字体大小和颜色,toolbar menu字体的大小和颜色以及注意事项

    在 Android 5.0 开始推出一个 Material Design 风格的导航Toolbar 控件.由于Toolbar的可定制度高,所以已经逐步替代掉了ActionBar.可以自定义以下几种元素 ...

  6. 目录打开显示提示文件或目录损坏且无法读取、文件或目录损坏且无法读取的破解之道

    咱们在平日工作时,通常都会将资料放进不同的目录中,方便咱们找到,随着时间的推移就会产生有越来越多目录.最近有位用户了这样一个问题,就是目录无论怎么都无法打开,这样就无法浏览.使用里面的资料了,影响到了 ...

  7. Eclipse调整XML源代码文件字体大小

     Eclipse调整XML源代码文件字体大小: Window -> Preferences -> General -> Appearance -> Colors and F ...

  8. python中提取pdf文件某些页_人工智能|Python提取PDF中的文本并朗读

    题前的话 之前有老师在群里推荐这个,我看了一眼觉得还是蛮有趣的,然后就忘了--昨天又看到这个<宅男福利!我50行Python代码让小姐姐给你读Pdf>,今天于是开始自己尝试,谁知道pdfp ...

  9. aws php 上传文件 限制大小_如何压缩PDF文件大小,满足各种上传大小要求

    介绍 今天我们来说一个小技巧,就是对PDF文件大小的压缩.那么这个问题是怎么来的呢,我们在系统上传PDF文件的时候,由于系统限制,PDF大小受到了限制,我们需要对PDF进行压缩小一点进行上传,才能满足 ...

最新文章

  1. 计算机网络-网络层(一)
  2. mysql图标_MySQL 支持 emoji 图标存储
  3. 你还傻傻的分不清“和服和浴衣吗?
  4. python把一堆图片分成n份,用Python一键生成炫酷九宫格图片,火了朋友圈
  5. [noip2017]列队 splay
  6. RabbitMQ和Kafka的显著差异(4)
  7. 404错误 iis thinkphp_关于ThinkPHP实现访问不存在的模块跳转到404页面的方法
  8. DXUT框架剖析(4)
  9. Visual Studio 11更名为“Visual Studio 2012”,RC版(与.NET 4.5一起)开放下载
  10. 安装flash player提示版本不是最新,无法安装
  11. wxid转扫一扫协议加好友
  12. 元素周期表排列的规律_化学元素周期表为什么这样排列,是按照什么规律
  13. 实验3 交互式SQL语言1
  14. 词云图制作:15张炫酷的词云图海报、PPT报告词云图、3D词云图,MagicCloud词云图一键制作软件
  15. Wind数据个性化定制抓取
  16. C# Winform 仿Win10-计算器
  17. 凯乐科技量子计算机,量子计算机仍是梦想,但量子通信的时代已经到来 原理 昨天 量子计算机仍然是一个梦...
  18. 美东部网站宕机后续:1100万路由器和摄像头仍在公网“裸奔”
  19. 蚂蚁、小鸟、大象 引发的面向对象问题
  20. 美国之行第四天(r12笔记第54天)

热门文章

  1. 使用ASP.NET AJAX Control Toolkit中的NoBot控件拒绝垃圾发布程序 【转载】
  2. 程序员 30 岁前,该如何规划自己的职业发展?
  3. Spring事物管理(二)
  4. discuz完善用户资料任务不能完成的解决方法
  5. PHP正则表达式实例汇总
  6. Yii2 composer更新后报错: Calling unknown method: yii\web\UrlManager::addRules()
  7. STL里面的sort()函数使用结构体
  8. Sharding-JDBC读写分离_实现_Sharding-Sphere,Sharding-JDBC分布式_分库分表工作笔记017
  9. python介绍---python工作笔记008
  10. C/C++网络编程工作笔记0004---socket()函数详解