python pdf转markdown

wxPython in action，比较系统地介绍了wxPython的使用。一直用的是中文翻译的版本，有时想运行里面的demo，复制出来很费劲，所以写了一个自动化的脚本，将文本转为了markdown格式。

读取pdf文件，将每一页转为json文件。

import pdfplumber
import jsonpath = r'wxpython in action.pdf''''字典组成的列表，按照某一个属性归类，也就是返回一个二维数组'''
def groupByKey(arr,key = 'y0',yBalance = 3.19):tempValue = arr[0][key]tempIndex = 0results = []while(True):tempArr = []flag = Falsefor i,j in enumerate(arr[tempIndex:]):# 注意char的y0属性表示每一个字符距离页面底部的距离，同一行文本可能有一个偏移值，所以需要加上这个范围# 否则同一行文本会被割裂成多行if float(j[key]) >= float(tempValue) - yBalance and float(j[key]) <= float(tempValue) + yBalance:tempArr.append(j)else:tempValue = j[key]tempIndex += iflag = Truebreakresults.append(tempArr)if not flag:breakreturn results'''通过检测字符的字体来判断是否是代码文本，也就是pdf中那个蓝色的斜体字体'''
def checkIsCode(arr):for i in arr:# 要注意空格的字体和文本的字体还不一样if i['fontname'] == 'JJDCVA+Times-BoldItalic' or i['fontname'] == 'DCQJKI+Times-BoldItalic':return Truereturn False'''处理单页pdf'''
def handleSinglePage(page,index):chars = page.chars# 通过char对象的y0属性转为二维数组results = groupByKey(chars, 'y0')resultList = []for j in results:textTemp = ''for k in j:textTemp += k['text']# 去掉这个特殊字符，转为普通空格textTemp = textTemp.replace('\xa0',' ')resultList.append({'text':textTemp,'isCode':checkIsCode(j)})# 写入json文件json.dump(resultList,open('../jsonFiles/'+str(index)+'.json','w',encoding='utf-8'),ensure_ascii=False,indent=4)with pdfplumber.open(path) as pdf:# 获取所有page对象pages = pdf.pagesfor i,page in enumerate(pages[18:]):handleSinglePage(page,i+18)print('page '+str(i+18)+' completed!')

生成的json文件格式如下
每一个对象表示一行文本，text是文本内容，isCode为true表示是代码文本。

[{"text": "Part1 wxPython入门","isCode": false},{"text": "1. 欢迎来到wxPython","isCode": false},{"text": "下面是一个例子，它创建了一个有一个文本框的窗口用来显示鼠标的位","isCode": false},{"text": "置。","isCode": false},{"text": "#!/bin/env python ","isCode": true},{"text": "import wx ","isCode": true}
]

处理json文件，合成为一个markdown文件

from os.path import join
import json'''json文件根目录'''
basePath = r'../jsonFiles''''arr 字典数组 key 需要分组的属性'''
def groupByKey(arr,key):tempValue = arr[0][key]tempIndex = 0results = []while(True):tempArr = []flag = Falsefor i,j in enumerate(arr[tempIndex:]):if j[key] == tempValue:tempArr.append(j)else:tempValue = j[key]tempIndex += iflag = Truebreakresults.append(tempArr)if not flag:breakreturn results'''生成md字符串'''
def generateMdText(content):data= json.loads(content)results = groupByKey(data,'isCode')resultText = ''for i in results:if i[0]['isCode'] == True:text= joinCode(i)resultText += textelse:text = joinText(i)resultText += text# 每一页结束插入md分隔符resultText += '\n---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------\n'return resultText'''拼接普通文本'''
def joinText(arr):temp = ''for i in arr:temp += i['text']+'\n'return temp'''拼接代码文本'''
def joinCode(arr):# 拼接python md代码块开头result = '```python\n'temp = joinText(arr)# 替换掉文本中不符合python规范的单引号和双引号'''result += temp.replace('”','\"').replace('“','\"').replace('’','\'')# 拼接python md代码块结尾result += '```\n';return result# 页码范围18-565
for i in range(18,565):p = join(basePath,str(i)+'.json')with open(p,'r',encoding='utf-8') as f:# 读取对应的json文件content = f.read()# 生成md字符串mdText= generateMdText(content)with open('../md/wxpython in action.md', 'a', encoding='utf-8') as f2:f2.write(mdText)

最终生成的mardown文件

python pdf转markdown相关推荐

Markdown转PDF→利用 Markdown 制作电子书｜非常简单
Markdown转PDF→利用 Markdown 制作电子书前言遇到什么问题就解决什么问题,什么不会就学什么. 是这样的,因为最近在看数据分析的书籍<利用Python进行数据分析原书第2版 ...
python PDF 转图片
python PDF 转图片 fitz库代码 import fitz import time import re import os def pdf2image(pdf_path): '''# 从 ...
九十八、轻松搞定Python中的Markdown系列
@Author:Runsen @Date:2020/7/15 人生最重要的不是所站的位置,而是内心所朝的方向.只要我在每篇博文中写得自己体会,修炼身心:在每天的不断重复学习中,耐住寂寞,练就真功,不畏 ...
python pdf库_3个Python PDF库，提取信息、转换格式、分割剪裁有它就够了！
Python无处不在,似乎支持从主要网站到桌面实用程序到企业软件的所有功能.Python已经被用来编写流行的软件项目,如dnf/yum.OpenStack.OpenShot.Blender.Calib ...
怎样用Python提取信息呢？分享这3个Python PDF库
很多时候我们都会用Python去取数据文件,这些文件中很多都是PDF格式,有些PDF文件解析的时候只能解析一部分内容出来,大段的文字没有解析出来,那怎么样才能用Python提取这些信息呢? 下面小千就 ...
Python 之【markdown 模块的学习】
摘要: markdown工具,可以将txt转化成html格式.这一类工具的作用是将按一定格式写成的可读性强的文本文件转化为结构化的标准xhtml或html.Linux 下面也有markdown: zh ...
Python PDF文件转Word格式
1.免费在线转换网站 PDF转换器,限制50页: http://pdfdo.com/pdf-to-word.aspx 迅捷PDF转换器,限制2M: http://app.xunjiepdf.com/p ...
python pdf 加水印_Python中通过PyPDF2实现PDF添加水印
场景 PyPDF 2是一个纯python PDF库,能够分割.合并.裁剪和转换PDF文件的页面.它还可以向PDF文件中添加自定义数据.查看选项和密码.它可以从PDF检索文本和元数据,还可以将整个文件合 ...
python pdf书籍领取
我的博客地址:http://www.chenxujiang.club 我的微信公众号关注我的微信公众号: 回复关键词python pdf,即可领取书籍.

python pdf转markdown

python pdf转markdown相关推荐

最新文章

热门文章