1.安装liboffice

sudo apt-get install libreoffice
sudo apt-get install libreoffice-l10n-zh-cn libreoffice-help-zh-cn

2.转换

libreoffice --headless --convert-to pdf 123.doc     #  doc转pdf
libreoffice --headless --convert-to pdf 1234.pptx   # pptx转pdf
libreoffice --headless --convert-to pdf 1234.ppt    # ppt转pdf
libreoffice --headless --convert-to docx 123.doc    # doc转docx
libreoffice --headless --convert-to pptx 123.ppt    # ppt转pptx

3.提取docx的文字
3.1 安装包

pip install python-docx

3.2 python提取

from docx import Documentpath = r"./data/123.docx"
document = Document(path)
for paragraph in document.paragraphs:print(paragraph.text)

4.pdf转png
4.1 安装包

pip install fitz
pip install PyMuPDF

4.2 pdf转png

# -*- coding: utf-8 -*-
import os
import fitz# pdf保存为图片
def pdf_to_image(pdf_path, save_path=None, zoom_x=5, zoom_y=5, theta=0):# 打开pdf文件pdf = fitz.open(pdf_path)# 逐页读取pdffor pg in range(0, pdf.pageCount):page = pdf[pg]# 设置缩放和旋转系数trans = fitz.Matrix(zoom_x, zoom_y).prerotate(theta)pm = page.get_pixmap(matrix=trans, alpha=False)# 开始写图像pm.save(os.path.join(save_path, "{}.png".format(pg)))pdf.close()if __name__ == '__main__':pdf_path = r"./data/1234.pdf"save_path = r"./data/save/pdf"pdf_to_image(pdf_path, save_path)

5,pdf转txt
5.1 安装

pip install pdfplumber

5.2 使用

import pdfplumber
with pdfplumber.open("123.pdf") as pdf:for page in pdf.pages:print(page.extract_text())

6,pptx转pdf,汉字无法转码
msyh.ttf

cp msyh.ttf /usr/share/fonts/  # 微软雅黑 -> 系统
cd /usr/share/fonts/
fc-list :lang=zh //查看是否安装成功
/usr/share/fonts/MSYH.TTF: Microsoft YaHei:style=Regular,Normal

【python】office操作,doc转docx、ppt,pptx转pdf,pdf转txt相关推荐

  1. python word 操作 doc 文件格式转docx 格式 学习笔记

    python word 操作 doc 文件格式转docx 格式 学习笔记 from win32com import client as wc import time # TODO file_0 = & ...

  2. 使用POI将office(doc/docx/ppt/pptx/xls/xlsx)文件转html格式(附带源码)

    妹子我写代码很辛苦/(ㄒoㄒ)/~~ ,转载请标明出处哦~http://blog.csdn.net/u011791526/article/details/73250358 本项目使用poi将offic ...

  3. Java 使用jacob ppt文件转pptx,doc转docx;word 转html、pdf等

    使用jacob,下载jar包及对应的dll文件 ppt文件转pptx public static void pptConveter(File file) { ComThread.InitSTA(); ...

  4. Python批量转换doc为docx格式

    札记:对于IT从业人员会经常接触到各种文件,其中Word文档是最常见之一,它分为.doc和.docx两种格式.通过Python操作Word文档的第三方库有python-docx和pywin32,pyt ...

  5. [日常] [Python] 批量将某个文件夹下的.ppt/.pptx/.pptm转换为.pdf文件,并且将其移入/ppt文件夹中

    Reference Python 3 – 批量将PPT转换为PDF_proplume的博客-CSDN博客 前提 安装comtypes库,需要用其操纵Microsoft PowerPoint. 命令行输 ...

  6. python ppt_python操作Power Point:PPT幻灯片布局基础

    前面对python操作PPT 做了一个概述, 并展开了如何打开处理一个PPT的具体操作,本节会为自动处理每一个PPT页打下基础,介绍单页PPT(幻灯片)的基础知识.使用幻灯片 单页PPT(幻灯片)的基 ...

  7. python如何操作ppt_Python实现对PPT文件进行截图操作的方法

    本文实例讲述了Python实现对PPT文件进行截图操作的方法.分享给大家供大家参考.具体分析如下: 下面的代码可以为powerpoint文件ppt进行截图,可以指定要截取的幻灯片页面,需要本机安装了p ...

  8. 关于使用java操作doc与docx互转

    1.创建license.xml文件 在项目某位置新建一个license.xml文件,并复制下面内容复制到文件里就可以了. <License><Data><Products ...

  9. 用VBS代码写PPT/PPTX批量转PDF,绝对可用,本人就在用着……ppt转pdf代码

    我用的是精简的office 2007,将代码保存在TXT文件,之后将.txt改成.vbs就行.代码如下: On Error Resume Next Set ppt = CreateObject(&qu ...

最新文章

  1. 莫名其妙的突然想学日语了, 开始接触日语,希望能坚持下去。
  2. JavaScript中获取表单信息并添加在表格中
  3. Python的运算符和编码
  4. 【THUSC2018】史莱姆之友【长链剖分】【链分治NTT】
  5. MyEclipse生成Javadoc帮助文档
  6. Python zip() 函数--多个迭代器取元素组合成一个新的迭代器
  7. opencv mat赋值_opencv-python 关于位操作
  8. C++中 二维可变长数组,vector维度的获取
  9. LINQ解决依据某个字段去重
  10. CCS8.0安装教程及安装包
  11. java解析搜狗词库scel文件到txt
  12. json java 比较_Java中json工具对比分析
  13. java 记牌_JAVA入门之简易扑克牌游戏
  14. 2022.04.17(LC_6070_计算字符串的数字和)
  15. 【转】我那实现了自己理想的创业老公,却一毛钱股份都没有拿到
  16. ios 设置导航栏背景色
  17. 家用洗地机器人哪个牌子好性价比高?家用洗地机品牌排行榜前十名
  18. 周易六十四卦——谦卦
  19. 证件照换底色,快试试这3种方法,方便还快捷
  20. 常用的连续时间信号及其时域特性

热门文章

  1. 职高学生计算机学情分析,精选中职计算机说课稿三篇
  2. 读这一篇学习推荐引擎的原理与算法
  3. duplicate搭建DG最大性能(rac-单实例)
  4. html5中怎么设置音频的位置,HTML5中音频的详细解析
  5. Beetl开源过程中那些事
  6. 算法竞赛入门【码蹄集新手村600题】(MT1151-1200)
  7. 做一个简单的学生成绩查询web系统
  8. 我就要和相处一年的女友结婚了...现在唯一困挠我的是,我未来的小姨子
  9. ESI最新排名:中国科学院大学超清北,居中国内地第一
  10. nodejs的require加载模块的路径搜索顺序说明