正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。

如何利用正则表达式提取文中特定内容呢?

函数介绍:

1.re.compile():该函数用于生成一个正则表达式,也就是匹配的核心部分,用来定义你需要怎么匹配,匹配什么内容,更多细节可以去参看菜鸟教程。

2.re.findall():该函数用于在指定的字符串中进行匹配。

提取特定内容:

1.在一段文本或字符串中提取从某一位置XXX开始到某一位置X结束的特定内容:re.compile('XXX.+X'),示例:

import re

str='abcd1234efg'

pattern=re.compile('ab.+ef') #匹配从ab开始,到ef结束的内容

result=pattern.findall(str)

print(result)

运行结果如下

['abcd1234ef']

2.在一段文本或字符串中提取从某一位置XXX之后到某一位置X之前的特定内容:re.compile('XXX(.+)X')

import re

str='abcd1234efg'

pattern=re.compile('ab(.+)ef') #匹配ab与ef之间的内容

result=pattern.findall(str)

print(result)

运行结果如下

['cd1234']

所以从这两个匹配可以看出,两者的主要区别就在于有无(),很实用的一种方法~~

python从文件中提取特定文本_python利用正则表达式提取文本中特定内容相关推荐

  1. python正则匹配特殊字符_python 利用正则表达式提取特殊信息

    1.删除字符串中的 Python注释 案例: import re time = "2020-01-01 # 这是一个日期" num = re.sub(r'#.*$', " ...

  2. python soup提取叶子标签_python 利用beautifulSoup提取页面多个标签的文本内容

    初学beautifulsoup解析库,拿一个招聘网页练手,想达到提取多个标签的文本内容,但是目前只可以提取到单个标签的单个文本内容,多标签的文本如何提取? from requests.exceptio ...

  3. python怎么读取pdf为文本_python怎么读取pdf文本内容

    python读取pdf文本内容的方法:首先打开相应的python脚本文件:然后使用PDFMiner工具来读取pdf文本内容:最后通过print输出读取后的内容即可. python读取pdf文本内容 p ...

  4. 01. 利用正则表达式提取文章中的所有英文单词

    利用正则表达式提取文章中的所有英文单词 1.先创建一个Pattern对象, 模式对象,可以理解成一个正则表达式对象 Pattern pattern = Pattern.compile("[a ...

  5. Python利用正则表达式提取var自定义变量的值

    目标解析HTML文件中的var自定义变量的值 本文主要利用正则表达式提取页面中的var $render_datab 变量的值,$render_datab变量的值是一个json字符串. 目录 1.导入依 ...

  6. 利用正则表达式提取网页中Table内的数据

    利用正则表达式提取网页中Table内的数据 using System; using System.Collections.Generic; using System.Linq; using Syste ...

  7. pandas使用replace函数替换dataframe中的值:replace函数使用正则表达式对dataframe中的值进行替换

    pandas使用replace函数替换dataframe中的值:replace函数使用正则表达式对dataframe中的值进行替换 目录

  8. java 去除字符串中的英文_Java利用正则表达式去掉字符串中的英文

    利用正则表达式去掉字符串中的英文String str = "111,aaa,222,bbb"; Pattern p = Pattern.compile("[a-zA-z] ...

  9. python读取文件的三种方式_python中读取文件的f.seek()方法

    用于二进制文件中 F.seek方法 作用: 设置读写位置 F.seek(偏移量, whence=相对位置) 偏移量 大于0的数代表向文件末尾方向移动的字节数 小于0的数代表向文件头方向中移动的字节数 ...

最新文章

  1. Java——DOM4J生成XML
  2. python写出的程序如何给别人使用-如何用PYTHON代码写出音乐
  3. android的文件操作,Android文件操作概要1.ppt
  4. 重写setTimeout扩展参数
  5. JavaScript知识笔记(二)——事件
  6. 罗永浩今晚带货iPhone 12:价格将有惊喜!
  7. linux c设置系统时间函数,Linux C 中获取local日期和时间 time()localtime()函数
  8. mysql最多多少slave_MySQL5.7主从,单slave多master
  9. 关于DiskGenius 克隆分区和系统迁移问题,以及如何解决缺少系统引导、双硬盘双系统引导问题,多个启动项
  10. git 码云上传本地项目
  11. 原创科幻短篇《Bug》
  12. C语言求最大公约数的方法,辗转相除法,质因数分解法、短除法、更相减损法。
  13. 百度正式开放大数据引擎
  14. cesium城市建筑颜色渲染以及泛光渐变效果
  15. 解决线程安全问题的两种办法
  16. 单双号限行微信小程序源码
  17. 互联网数据分析的思路(一)
  18. 这10个安全测试工具,优秀且免费
  19. 使用lamp搭建个人博客
  20. 七步成诗-快速创建有效SLO

热门文章

  1. 高脂肪饮食肥胖动物模型 人类肥胖症及其共病特征的动物模型
  2. 朱俊丽开拓创新 配置独享的生活起居模式
  3. 嵌入式音频架构 - AudioWeaver模块库 Filter 滤波器
  4. 蜜罐HFish2.5部署与使用
  5. 【自动驾驶技术】优达学城无人驾驶工程师学习笔记(七)——计算机视觉基础
  6. PHP首期基础班郊游记:独乐乐不如众乐乐
  7. 求0到7组成奇数的个数c语言,c语言经典算法—求0—7 所能组成的奇数个数
  8. STC15F104W驱动WS2812
  9. 去做海外,无数深坑-第一次使用java调用javascript,第一次调用curl
  10. 战队口号霸气押韵8字_2020备战双十一口号