在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:

input:我今天 赚了 10 个亿,老百姓very happy。

output:我今天赚了10个亿,老百姓very happy。

代码

def clean_space(text):

""""

处理多余的空格

"""

match_regex = re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1} +(?

should_replace_list = match_regex.findall(text)

order_replace_list = sorted(should_replace_list,key=lambda i:len(i),reverse=True)

for i in order_replace_list:

if i == u' ':

continue

new_i = i.strip()

text = text.replace(i,new_i)

return text

python去除英文单词之间多余的空格

re.sub(" +", " ", s)

import re

s = " info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html. "

re.sub(" +", " ", s)

' '.join(s.split())

s = " info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html. "

s = ' '.join(s.split())

s

更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接

python正则去空格_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解...相关推荐

  1. python中文字符串多余空格_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解...

    python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入 ...

  2. python正则去掉重复单词_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 | 学步园...

    在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下: input:我今天 赚了 10 个亿,老百姓very happ ...

  3. python中使用正则表达式去除中文文本多余空格,英文之间的保留

    需求 在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下: input:我今天 赚了 10 个亿,老百姓very h ...

  4. python中search和match的区别_Python中正则表达式match()、search()函数及match()和search()的区别详解...

    match()和search()都是python中的正则匹配函数,那这两个函数有何区别呢? match()函数只检测RE是不是在string的开始位置匹配, search()会扫描整个string查找 ...

  5. python正则匹配特殊字符_python 利用正则表达式提取特殊信息

    1.删除字符串中的 Python注释 案例: import re time = "2020-01-01 # 这是一个日期" num = re.sub(r'#.*$', " ...

  6. python 正则表达函数_python笔记-正则表达式常用函数

    1.re.findall()函数 语法:re.findall(pattern,string,flags=0) --> list(列表) 列出字符串中模式的所有匹配项,并作为一个列表返回.如果无匹 ...

  7. python笔记小白入门_Python 笔记:全网最详细最小白的Class类和实例详解

    面向对象最重要的概念就是类(class)和实例(instance),类是抽象,而实例(Instance)则是一个个具体的对象 面向对象三大特点:封装.继承和多态 class Animal(object ...

  8. python连接池框架_Python中的连接池是非常重要的!神级程序员详解!

    概述 连接池的作用就是为了提高性能,将已经创建好的连接保存在池中,当有请求来时,直接使用已经创建好的连接对Server端进行访问.这样 省略了创建连接和销毁连接的过程(TCP连接建立时的三次握手和销毁 ...

  9. python调用adb shell命令_Python之使用adb shell命令启动应用的方法详解

    Python之使用adb shell命令启动应用的方法详解 一直有一个心愿希望可以用Python做安卓自动化功能测试,在一步步摸索中,之前是用monkeyrunner,但是发现对于控件ID的使用非常具 ...

  10. python列表的内置方法_Python内置方法详解

    1. 字符串内置方法详解 为何要有字符串?相对于元组.列表等,对于唯一类型的定义,字符串具有最简单的形式. 字符串往往以变量接收,变量名.可以查看所有的字符串的内置方法,如: 1> count: ...

最新文章

  1. 如何安全地吃掉悬崖边上的苹果?DeepMindOpenAI给出3D版安全强化学习答案
  2. php 添加工信部链接,常见程序(wordpress,dede,discuz)网页下方添加备案号,添加链接跳转到工信部...
  3. SAP销项税多科目配置
  4. Google SRE 读书笔记 扒一扒SRE用的那些工具
  5. Python_实现简单贝叶斯分类
  6. 【多题合集】网络流24题练习(更新至魔术球问题)
  7. srve0255e尚未定义要怎么办_斜视怎么办?日常的护理工作有哪些?
  8. Android仿华为天气绘制刻度盘
  9. 猫眼(门镜)中的光学
  10. 适配器模式的原理与实现
  11. sourceforge.net居然被劫持??
  12. xmind可以画流程图吗_如何用xmind做流程图
  13. 八数码问题引发的思考
  14. 干货 | 收藏贴!一文看懂静态资源服务沉浮及其在携程的演进
  15. 技术岗面试中的一些常见问题
  16. 太过伤心,小王被这 10 道 Java 面试题虐哭了
  17. python分句_Python 中文分句 | 学步园
  18. inaturalist昆虫数据集
  19. NetworkManager network-manager 的 /etc/NetworkManager/system-connections/*.nmconnection
  20. 外观模式-简化子系统的复杂性

热门文章

  1. java支付宝扫码支付,简单生成二维码方法
  2. STL之算法——排序算法
  3. IOI2021 国家集训队作业部分题解
  4. Android多开框架优化游戏防闪思路
  5. win10如何做到在指定目录下打开cmd命令窗口
  6. 五分钟学会PowerDesigner创建概念数据模型
  7. 经典算法大全之费式数列
  8. datagrid表格序号列
  9. 【Power BI】插入文本框且值为度量值替代方案:创建度量值时自定义文本
  10. Mac 修改移动硬盘图标,U盘图标