正则表达式按中文句号、逗号、感叹号对文本数据进行切分

利用正则表达式中的 re.split 进行切分
代码如下:

导入数据
将数据按中文句号、逗号、问号、感叹号进行切分
对包含服务的关键词进行匹配,并将结果按行输出为txt文件。

import re
import pandas as pd
data=pd.read_excel(r'./jingqu/data/jingqu.xlsx')  #导入评论数据
a=data['评论内容']
a=list(a)
def createtxt():   #定义函数,将输出按行输出为txt文件f1=open(r'./fuwu.txt','w')try:for i1 in range(len(a)):c1=a[i1]b1=re.split('。|!|?|,',c1)for index1 in b1:if len(re.findall('服务',index1)):print(index1,file=f1)            finally:f1.close()
createtxt()  

欢迎交流。。。

正则表达式按中文句号、逗号、感叹号对文本数据进行切分相关推荐

  1. lda 可以处理中文_用python处理文本数据

    用python处理文本数据 Q:这篇文章主要讲什么? A:这篇文章主要讨论如何用python来做一些简单的文本处理--文本相似度比较. 谈起python的自然语言处理,肯定会让人想起NLTK.不过上面 ...

  2. python正则去掉重复单词_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 | 学步园...

    在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下: input:我今天 赚了 10 个亿,老百姓very happ ...

  3. 【C语言】C语言实现中文字符(句号,感叹号,问号)的十进制数值

    文章目录 [C语言]C语言实现中文字符(句号,感叹号,问号)的十进制数值 一.前言 二.说明 三.代码实现 3.1 代码 3.2 文本文件内容 3.3 结果 四.说明 [C语言]C语言实现中文字符(句 ...

  4. python中文字符串多余空格_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解...

    python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入 ...

  5. java中使用句号问号和感叹号分割_逗号,句号,感叹号和问号

    2011年12月6日 星期二 天气:阴雨 逗号,句号,感叹号和问号 进入到12月份,成都的冬天也随之而来,学习任务不断加重,天气也日渐寒冷,这是对一年级孩子身心的考验.在这里再简要说一下这学期语文的教 ...

  6. js正则表达式将中文标点转为英文标点

    js正则表达式将中文标点转为英文标点 前言 最近写前端的项目,本以为需要将中文标点转为英文标点这一功能的,所以写了这个文件,但是最后用不上了,删掉了可惜,所以发表出来,做个记录.因为没有使用上,所以不 ...

  7. 【知识】正则表达式匹配中文标点符号

    正则表达式匹配中文标点符号 function checkText() {var text = ",";//匹配这些中文标点符号 . ? ! , . : : " " ...

  8. html 正则表达式 中文,正则表达式的中文搜索

    这几天在研究爬虫,想在抓回来的文本中找出中文来,就捎带着研究了一下正则.没想到一如侯门深似海. 关于正则,有个很出名的笑话:有个程序员遇到了问题,他决定要用正则表达式去解决.现在他有了两个问题.(实用 ...

  9. 正则表达式 匹配中文,英文字母和数字及_的写法!同时控制长度

    匹配中文:[\u4e00-\u9fa5] 英文字母:[a-zA-Z] 数字:[0-9] 匹配中文,英文字母和数字及_:  ^[\u4e00-\u9fa5_a-zA-Z0-9]+$ 同时判断输入长度: ...

最新文章

  1. python库缺少pkg_resource_ImportError: No module named pkg_resources解决方案
  2. Ubuntu远程控制详细步骤流程
  3. 二阶系统阶跃响应实验_自控原理二阶系统阶跃响应及性能分析实验报告
  4. 分享一个开源博客-Jackblog
  5. 零基础可以学python吗-python零基础能学吗
  6. halfstone 原理_HashMap的结构以及核心源码分析
  7. php html 文本域,html文本域标签属性有哪些?html文本域标签属性用法介绍
  8. VS2005 ASP.NET2.0安装项目的制作(包括数据库创建、站点创建、IIS属性修改、Web.Config文件修改)
  9. slf4j 和 log4j2 架构设计
  10. Mac使用技巧:清除 MacBook 上的浏览器缓存
  11. Fdfs环境搭建及整合Java
  12. 关于U盘被写保护无法格式化的解决方法
  13. 【实用】SAP成本组件分割价格取数逻辑
  14. 正则表达式与文本处理器
  15. Android 屏蔽Power键 Home键
  16. JetBrains Rider如何更改前进 后退 快捷键,并加到工具栏(图文详情)
  17. 培养学生数学核心素养,不能制造“数学小糊涂”!
  18. Zer0pts2020 easy strcmp
  19. Flutter中的依赖注入——get_it
  20. 前端开发面试问题及答案

热门文章

  1. CTFHUB-WEB--cooki注入wp
  2. 学生成绩系统用例图模型
  3. GO学习 ---转义字符
  4. matlab矩阵运算带变量,MATLAB矩阵及其数值运算
  5. 【隧道篇 / IPsec】(5.2) ❀ 02. IPsec - 固定IP宽带 to 固定IP宽带 (接口模式) ❀ FortiGate 防火墙
  6. c语言宽字符与wchar,浅谈c++ 字符类型总结区别wchar_t,char,WCHAR
  7. TDengine学习笔记:vnode
  8. HUAWEI 华为 MateBook X Pro 2020安装Ubuntu 18.04 LTS注意事项
  9. web无序列表去掉点_在HTML中怎样去除无序列表前的小圆点
  10. SpringCloud-alibaba-Nacos 从理论到落地使用