python的其中一个强大之处就是它可以方便的集成很多的非标准库,今天在GitHub上溜达又发现了一个脏话处理神器,导入better_profanity库后,只需要几行代码就能搞定了,相当nice!

使用pip的方式将better_profanity非标准库安装好,这个库好像在清华大学的镜像站中没有,其他镜像站不知道有没有,于是下载时没有使用镜像站,默认到官方去下载即可。

pip install better_profanity# 将处理模块直接导入到代码块中from better_profanity import profanity

1、默认脏话库/敏感词库处理

默认情况下就只能处理英文的脏话。

censored_text = profanity.censor("you are bitch")print(censored_text)# you are ****

可以看到其中bitch字符被认为是脏话已经处理成****字符了。

当然,还可以将处理后的脏话字符换成别的字符代替,比如下面这样处理。

censored_text = profanity.censor("you are bitch",'-')print(censored_text)# you are ----

这样****就被替换成了----。

2、自定义过滤信息处理

bad_words = ['Python', 'Java', 'Scala']  # 自定义过滤词汇profanity.load_censor_words(bad_words)  # 加载自定义过滤词汇censored_text = profanity.censor("Python is very Good !")  # 执行过滤print(censored_text)# **** is very Good !

可以发现,想要过滤的python字符已经成功过滤掉了。

3、contains_profanity函数

contains_profanity函数用来查看我们的语句中是否包含需要过滤的词汇,如果包含则会返回True,否则返回False。

bad_words = ['bitch', 'Java', 'Scala']  # 自定义过滤词汇profanity.load_censor_words(bad_words)  # 加载自定义过滤词汇censored_text = profanity.contains_profanity("you are bitch")print(censored_text)# True

结果为True,表示包含需要过滤的词汇信息。

4、load_censor_words_from_file函数

load_censor_words_from_file函数用于加载需要过滤词汇的文件。

profanity.load_censor_words_from_file('/usr/load/bad_words.txt')

加载完词汇文件之后,按照之前的逻辑处理即可。

词汇文件的定义格式,按照每个词汇独占一行的形式进行定义,文件格式使用.txt文本文档即可。

# bitch
# bitches
# bitchin
# bitching
# blowjob
# blowjobs
# blue waffle

python 脏话处理、特殊词汇过滤相关推荐

  1. 优秀博客 --敏感词汇过滤

    2019独角兽企业重金招聘Python工程师标准>>> 敏感词汇过滤 http://www.cnblogs.com/chenssy/p/3751221.html#2966041 树上 ...

  2. python 脏话处理、特殊词汇过滤!

    python的其中一个强大之处就是它可以方便的集成很多的非标准库,今天在GitHub上溜达又发现了一个脏话处理神器,导入better_profanity库后,只需要几行代码就能搞定了,相当nice! ...

  3. python与R行列数据过滤(row column filtering):dplyr、 isnull、isna、drop、select、iloc、loc、isin、filter

    python与R行列数据过滤(row column filtering):dplyr. isnull.isna.drop.select.iloc.loc.isin.filter 很多工程师可能刚开始的 ...

  4. 学python要有多少英语词汇量测试_“扫地僧”!自学Python编程、英语词汇量15000……北大保安再上热搜...

    原标题:"扫地僧"!自学Python编程.英语词汇量15000--北大保安再上热搜 近日, 北大保安再次冲上热搜, 让不少网友惊了! 在北京大学第一届 "争做数一数二的保 ...

  5. 【基于python+Django的物品协同过滤音乐推荐系统-哔哩哔哩】 https://b23.tv/V2zN54R

    [基于python+Django的物品协同过滤音乐推荐系统-哔哩哔哩] https://b23.tv/V2zN54R https://b23.tv/V2zN54R

  6. 动态代理的分析以及利用动态代理模式进行敏感词汇过滤

    动态代理 增强对象的功能: 设计模式:一些通用的解决固定问题的方式 代理模式 概念: (1). 真实对象:被代理的对象 (2). 代理对象: (3). 代理模式:代理对象代理真实对象,达到增强真实对象 ...

  7. 学python要有多少英语词汇量_“扫地僧”!自学Python编程、英语词汇量15000……北大保安再上热搜...

    原标题:"扫地僧"!自学Python编程.英语词汇量15000--北大保安再上热搜 近日, 北大保安再次冲上热搜, 让不少网友惊了! 在北京大学第一届 "争做数一数二的保 ...

  8. Java基于Socket实现聊天、群聊、敏感词汇过滤功能

    首先的话,这个代码主要是我很久以前写的,然后当时还有很多地方没有理解,现在再来看看这份代码,实在是觉得丑陋不堪,想改,但是是真的改都不好改了- 所以,写代码,规范真的很重要. 实现的功能: 用户私聊 ...

  9. python Django基于物品协同过滤旅游景点推荐论坛系统

    python Django基于物品协同过滤旅游景点推荐论坛系统 Python Django基于物品推荐协同过滤旅游景点推荐论坛系统 python Django旅游景点论坛 Python Django旅 ...

最新文章

  1. 在数据显示页面增加按姓名查询功能
  2. java 重定向到某个页面并弹出消息_Java开发面试宝典之网络通信篇
  3. java责任链设计模式_Java中的责任链设计模式
  4. 程序员|听说你们都很好说话?你做几件事,就知道了!
  5. NTA告警引发的dll劫持思考(溯源)
  6. java-常用开源库-apache commons
  7. Eclipse CDT 编译wxWidgets
  8. thinkphp框架知识点
  9. 软考信息安全工程师教程第二版
  10. 餐饮营销策划案例合集(共18份)
  11. 局域网计算机如何传输文件,强烈推荐电脑同一个局域网传输文件的图文教程
  12. TIA WinCC Professional入门经典(1) 组态第一个WinCC Professional项目
  13. 打开其他软件时,老是弹出Xftp7安装的问题(msi报错)
  14. 未知usb设备(设备描述请求失败)_USB 之传输事务
  15. c语言给图片打码,OpenCV (一):初相识:马赛克处理图片
  16. vim 录制宏,自动循环执行组合操作
  17. 竣达技术丨机房组态系统综合监控解决方案
  18. 【随机过程】作业 5 布朗Brown运动
  19. 动态规划——割绳子问题
  20. 【Stephen Boyd】应用线性代数导论课件

热门文章

  1. ios(iphone/ipad)开发每日一练【2011-11-2】
  2. java古典兔子问题c语言,Java递归算法经典实例(经典兔子问题)
  3. Springboot中数据库访问的两种方式之-JdbcTemplate
  4. @font-face 加载字体引用字体之后不起作用
  5. 【转】关于phpcms的学习
  6. VUE Element UI 父组件调用子组件方法变量,子组件使用父组件变量
  7. 中小企业容易面临哪些网络安全问题?
  8. 解决华为手机隐藏虚拟按键Activity被重启的问题
  9. Docker技巧之Entrypoint的使用
  10. 【系列更新】等级保护2.0标准正式实施