目录

1.过滤中文标点符号

2.过滤英文标点符号

3.过滤大小写字母

4.过滤数字

5.过滤中英文标点符号、字母及数字

6.过滤表情


1.过滤中文标点符号

import re
import zhon
from zhon.hanzi import punctuation#过滤中文标点符号
def filter_punc(desstr,restr=''):pattern = re.compile("|[%s]+" % zhon.hanzi.punctuation)#匹配中英文符号及字母数字return pattern.sub(restr,desstr)

2.过滤英文标点符号

import re
import string#过滤英文标点符号
def filter_punc(desstr,restr=''):pattern = re.compile("[%s]+" % string.punctuation)#匹配中英文符号及字母数字return pattern.sub(restr,desstr)

3.过滤大小写字母

import re#过滤大小写字母
def filter_punc(desstr,restr=''):pattern = re.compile("|[%s]+" % 'a-zA-Z')#匹配中英文符号及字母数字return pattern.sub(restr,desstr)

4.过滤数字

import re#过滤数字
def filter_punc(desstr,restr=''):pattern = re.compile("|[%s]+" % '0-9')#匹配中英文符号及字母数字return pattern.sub(restr,desstr)

5.过滤中英文标点符号、字母及数字

import re
import string
import zhon
from zhon.hanzi import punctuation#过滤中英文标点符号、字母、数字
def filter_punc(desstr,restr=''):pattern = re.compile("[%s]+" % string.punctuation + "|[%s]+" % zhon.hanzi.punctuation + "|[%s]+" % 'a-zA-Z0-9')#匹配中英文符号及字母数字return pattern.sub(restr,desstr)

6.过滤表情

import redef filter_emoji(desstr,restr=''): try: co = re.compile(u'[\U00010000-\U0010ffff]') except re.error:co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]') return co.sub(restr, desstr)

过滤文本中的中英文标点符号、字母、数字、表情相关推荐

  1. hive 中文字符过滤_Hive UDF 过滤字符串中的中英文标点符号

    使用Hive 过程中 需要做一些UDF的开发,简单贴一个UDF 是用来去除字符串中的所有中英文符号 本人Java菜鸟 代码可能不好看勿喷啊.仅供参考 package com.fccs.utils; i ...

  2. Python去除文本中所有中英文标点符号

    from tqdm import tqdm import string from zhon.hanzi import punctuation as punallPun = string.punctua ...

  3. python统计中英文字符_如何统计文本中的中英文字符数?Python帮你解决

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于小蚊子数据分析 ,作者小蚊子数据分析 代码 1import stri ...

  4. java 区分中英文,Java 区分文本中的中英文字符函数

    Java 区分文本中的中英文字符函数 复制代码 代码如下: public class EnCnTest { public static void main(String args[]) { byte ...

  5. SQLServer中区分中英文标点符号

    SQLServer中区分中英文标点符号 问题出现背景 解决方法 方法一:修改表结构 方法二:自定义排序规则(COLLATE) COLLATE使用简述 问题出现背景 最近在一个SQLServer的存储过 ...

  6. Python练习题——统计字符串中分别有多少个字母数字空格及特殊字符

    # 统计字符串中分别有多少个字母数字空格及特殊字符 # 如: # 输入 # str='123as###fcef87e4%&*jb s wqed 41 24 你好1234v3' # 输出 # 字 ...

  7. 在PHP中生成随机的字母数字字符串

    首先,让我说几乎没有事件是真正随机的. 如果我们知道所涉及的每个因素(例如空气摩擦,重力和初始力)的影响,那么即使从理论上讲,经典的抛硬币的结果也可以预测. 同样的情况适用于随机数和字母数字字符串的生 ...

  8. python过滤文本中的emoji表情

    python过滤文本中的emoji表情 最近在处理文本内容的时候发现很多文本会有特色表情,由于占位较多,想着能过滤掉就好,也不影响文本内容含义,并且对后续做语义分析也有帮助. 网上搜了下,总体还是通过 ...

  9. 如何在Mac电脑中输入多种标点符号和文字表情

    特殊的标点符号和表情怎么输入?MAC电脑有自己自带的输入法,但是对于一些表情符号很多人都不知道在哪里使用,现在就来介绍一下MAC如何输入多种标点符号和文字表情. 1.首先我们打开备忘录,在新建备忘录中 ...

  10. python 过滤文本中的标点符号(转)

    网上搜到的大都太复杂,最后找到一个用正则表达式实现的: import re s = "string. With. Punctuation?" # 如果空白符也需要过滤,使用 r'[ ...

最新文章

  1. [Tips]:SQL server 2005 Create Assembly Failed
  2. Angular实现虚拟滚动多选下拉框笔记
  3. Nginx之location 匹配规则详解
  4. 一个简易实用的web权限管理模块的应用与实现
  5. [学习笔记]51单片机
  6. 显示长日期格式的系统时间
  7. mousedown(function(){ return false; })作用
  8. CodeForces - 820D Mister B and PR Shifts(思维+模拟)
  9. Supplier 点participate时候用USB KEY的身份验证
  10. 不愧是Alibaba技术官,java数组实现单向链表
  11. django的models常用字段、属性
  12. 收藏 | 计算机视觉四大基本任务(分类、定位、检测、分割)
  13. oracle数据块一致性检查的4种方法
  14. scrapy-redis爬虫如何发送POST请求
  15. axure中备注线_1分钟K线、日K线、月K线……不同周期的K线图到底有啥用?
  16. python notebook右侧网页_Python Notebook介绍
  17. 广东女子职业技术学院计算机应用技术,广东女子学院虚拟校园系统的构建与技术实现...
  18. 超星PDG格式转换成PDF格式及其它格式
  19. 幼儿园计算机课件制作,幼儿园课件制作工具
  20. 计算机网络技术动态路由配置,计算机网络实验六动态路由的配置

热门文章

  1. 桌面IE图标删不掉解决方案
  2. 乘法鉴相器的matlab仿真,种用MATLAB仿真锁相环方法.PDF
  3. GitHub怎么搜索项目
  4. 日志级别的选择:Debug、Info、Warn、Error还是Fatal
  5. 2019网易校招(1星) 俄罗斯方块
  6. UltraCompare破解流程
  7. ppt 形状 文字不居中 怎么办
  8. “荣耀10X”更名背后的现实逻辑与未来风暴
  9. [从头读历史] 第253节 孔子和他的《春秋》 [BC722至BC658]
  10. CSP小中大python