正则表达式按中文句号、逗号、感叹号对文本数据进行切分
正则表达式按中文句号、逗号、感叹号对文本数据进行切分
利用正则表达式中的 re.split 进行切分
代码如下:
导入数据
将数据按中文句号、逗号、问号、感叹号进行切分
对包含服务的关键词进行匹配,并将结果按行输出为txt文件。
import re
import pandas as pd
data=pd.read_excel(r'./jingqu/data/jingqu.xlsx') #导入评论数据
a=data['评论内容']
a=list(a)
def createtxt(): #定义函数,将输出按行输出为txt文件f1=open(r'./fuwu.txt','w')try:for i1 in range(len(a)):c1=a[i1]b1=re.split('。|!|?|,',c1)for index1 in b1:if len(re.findall('服务',index1)):print(index1,file=f1) finally:f1.close()
createtxt()
欢迎交流。。。
正则表达式按中文句号、逗号、感叹号对文本数据进行切分相关推荐
- lda 可以处理中文_用python处理文本数据
用python处理文本数据 Q:这篇文章主要讲什么? A:这篇文章主要讨论如何用python来做一些简单的文本处理--文本相似度比较. 谈起python的自然语言处理,肯定会让人想起NLTK.不过上面 ...
- python正则去掉重复单词_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 | 学步园...
在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下: input:我今天 赚了 10 个亿,老百姓very happ ...
- 【C语言】C语言实现中文字符(句号,感叹号,问号)的十进制数值
文章目录 [C语言]C语言实现中文字符(句号,感叹号,问号)的十进制数值 一.前言 二.说明 三.代码实现 3.1 代码 3.2 文本文件内容 3.3 结果 四.说明 [C语言]C语言实现中文字符(句 ...
- python中文字符串多余空格_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解...
python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入 ...
- java中使用句号问号和感叹号分割_逗号,句号,感叹号和问号
2011年12月6日 星期二 天气:阴雨 逗号,句号,感叹号和问号 进入到12月份,成都的冬天也随之而来,学习任务不断加重,天气也日渐寒冷,这是对一年级孩子身心的考验.在这里再简要说一下这学期语文的教 ...
- js正则表达式将中文标点转为英文标点
js正则表达式将中文标点转为英文标点 前言 最近写前端的项目,本以为需要将中文标点转为英文标点这一功能的,所以写了这个文件,但是最后用不上了,删掉了可惜,所以发表出来,做个记录.因为没有使用上,所以不 ...
- 【知识】正则表达式匹配中文标点符号
正则表达式匹配中文标点符号 function checkText() {var text = ",";//匹配这些中文标点符号 . ? ! , . : : " " ...
- html 正则表达式 中文,正则表达式的中文搜索
这几天在研究爬虫,想在抓回来的文本中找出中文来,就捎带着研究了一下正则.没想到一如侯门深似海. 关于正则,有个很出名的笑话:有个程序员遇到了问题,他决定要用正则表达式去解决.现在他有了两个问题.(实用 ...
- 正则表达式 匹配中文,英文字母和数字及_的写法!同时控制长度
匹配中文:[\u4e00-\u9fa5] 英文字母:[a-zA-Z] 数字:[0-9] 匹配中文,英文字母和数字及_: ^[\u4e00-\u9fa5_a-zA-Z0-9]+$ 同时判断输入长度: ...
最新文章
- python库缺少pkg_resource_ImportError: No module named pkg_resources解决方案
- Ubuntu远程控制详细步骤流程
- 二阶系统阶跃响应实验_自控原理二阶系统阶跃响应及性能分析实验报告
- 分享一个开源博客-Jackblog
- 零基础可以学python吗-python零基础能学吗
- halfstone 原理_HashMap的结构以及核心源码分析
- php html 文本域,html文本域标签属性有哪些?html文本域标签属性用法介绍
- VS2005 ASP.NET2.0安装项目的制作(包括数据库创建、站点创建、IIS属性修改、Web.Config文件修改)
- slf4j 和 log4j2 架构设计
- Mac使用技巧:清除 MacBook 上的浏览器缓存
- Fdfs环境搭建及整合Java
- 关于U盘被写保护无法格式化的解决方法
- 【实用】SAP成本组件分割价格取数逻辑
- 正则表达式与文本处理器
- Android 屏蔽Power键 Home键
- JetBrains Rider如何更改前进 后退 快捷键,并加到工具栏(图文详情)
- 培养学生数学核心素养,不能制造“数学小糊涂”!
- Zer0pts2020 easy strcmp
- Flutter中的依赖注入——get_it
- 前端开发面试问题及答案
热门文章
- CTFHUB-WEB--cooki注入wp
- 学生成绩系统用例图模型
- GO学习 ---转义字符
- matlab矩阵运算带变量,MATLAB矩阵及其数值运算
- 【隧道篇 / IPsec】(5.2) ❀ 02. IPsec - 固定IP宽带 to 固定IP宽带 (接口模式) ❀ FortiGate 防火墙
- c语言宽字符与wchar,浅谈c++ 字符类型总结区别wchar_t,char,WCHAR
- TDengine学习笔记:vnode
- HUAWEI 华为 MateBook X Pro 2020安装Ubuntu 18.04 LTS注意事项
- web无序列表去掉点_在HTML中怎样去除无序列表前的小圆点
- SpringCloud-alibaba-Nacos 从理论到落地使用