python tokenize_python – 滥用nltk的word_tokenize(已发送)的后果
nltk.tokenize.word_tokenize(text)只是一个瘦的
wrapper function,它调用
TreebankWordTokenizer类实例的tokenize方法,它显然使用简单的正则表达式来解析一个句子.
该类的文档声明:
This tokenizer assumes that the text has already been segmented into
sentences. Any periods — apart from those at the end of a string —
are assumed to be part of the word they are attached to (e.g. for
abbreviations,etc),and are not separately tokenized.
底层tokenize方法本身非常简单:
def tokenize(self,text):
for regexp in self.CONTRACTIONS2:
text = regexp.sub(r'\1 \2',text)
for regexp in self.CONTRACTIONS3:
text = regexp.sub(r'\1 \2 \3',text)
# Separate most punctuation
text = re.sub(r"([^\w\.\'\-\/,&])",r' \1 ',text)
# Separate commas if they're followed by space.
# (E.g.,don't separate 2,500)
text = re.sub(r"(,\s)",r' \1',text)
# Separate single quotes if they're followed by a space.
text = re.sub(r"('\s)",text)
# Separate periods that come before newline or end of string.
text = re.sub('\. *(\n|$)',' . ',text)
return text.split()
基本上,该方法通常做的是将句点标记为单独的标记,如果它落在字符串的末尾:
>>> nltk.tokenize.word_tokenize("Hello,world.")
['Hello',','world','.']
落在字符串中的任何句点都被标记为单词的一部分,假设它是缩写:
>>> nltk.tokenize.word_tokenize("Hello,world. How are you?")
['Hello','world.','How','are','you','?']
只要这种行为是可以接受的,你应该没事.
python tokenize_python – 滥用nltk的word_tokenize(已发送)的后果相关推荐
- 中文停用词文档_使用Python中的NLTK和spaCy删除停用词与文本标准化
译者 | VK 来源 | Analytics Vidhya [磐创AI 导读]:本文介绍了如何使用Python中的NLTK和spaCy删除停用词与文本标准化,欢迎大家转发.留言.想要更多电子杂志的机器 ...
- python自然语言处理案例-Python自然语言处理 NLTK 库用法入门教程【经典】
本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python 讨论自然语言处理(NLP).本教程将会使用 Python NLTK ...
- Python批量拆分Excel文件中已合并的单元格
中国大学MOOC"Python程序设计基础"第4次开课 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大 ...
- [转载] 使用Python中的NLTK和spaCy删除停用词与文本标准化
参考链接: Python | 用NLTK进行词干分析 概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化 ...
- 使用Python中的NLTK和spaCy删除停用词与文本标准化
概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatizatio ...
- Python自然语言处理 NLTK 库用法入门教程【经典】
@本文来源于公众号:csdn2299,喜欢可以关注公众号 程序员学府 本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python ...
- python基于条件、规则构建已有字典的子集
python基于条件.规则构建已有字典的子集 字典是另一种可变容器模型,且可存储任意类型对象. 字典的每个键值 key=>value 对用冒号 : 分割,每个对之间用逗号(,)分割,整个字典包括 ...
- .Net MVC Redirect出现:服务器无法在已发送 HTTP 标头之后设置状态解决方案
.Net MVC Redirect出现:服务器无法在已发送 HTTP 标头之后设置状态解决方案 参考文章: (1).Net MVC Redirect出现:服务器无法在已发送 HTTP 标头之后设置状态 ...
- python的工作方向-Python最有发展潜力的方向已出来,是否有你喜欢的职位?
原标题:Python最有发展潜力的方向已出来,是否有你喜欢的职位? Python是一门面向对象的编程语言,编译速度超快,从诞生到现在已经25个年头了.其特点在于灵活运用,因为其拥有大量第三方库,所以开 ...
- 对于窗口大小为n个滑动窗口,最多可以有( )帧已发送但没有确认。
对于窗口大小为n的滑动窗口,最多可以有( n-1 )帧已发送但没有确认. 在连续ARQ协议中,发送窗口大小<=窗口总数-1. 例如:窗口总数为8,编号为0 ~ 7,假设8个帧都已发出,下一轮又发 ...
最新文章
- 高可用Hadoop平台-Oozie工作流
- Python进阶8——字典与散列表,字符串编解码
- 软件工程--第三章--需求分析
- linux 查看led设备,Linux下LedButton设备驱动——详细设计
- 华为nova7se能云闪付吗_华为迎来转机!联发科“顶替”麒麟芯片,已售罄手机将重获新生...
- 【蓝桥杯单片机】DS1302时钟芯片+DS18B20单总线温度传感器(官方驱动源码改写)
- 汇编语言简明教程习题答案
- 【Android】关于Call requires API level **(current min is **)却没有错误提示及抛异常...
- Flink 1.12.2 源码浅析 : Transformation 浅析
- 运行npm install时会一直加载转圈
- python做房源饼状图_python使用matplotlib画饼状图
- Opencv convertScaleAbs函数 和灰度图上进行透明彩色绘制
- TextView显示省略号问题
- python中\t \r \s \n \f各种转移字符含义
- 明源云采购颁奖盛典|欧金盾铝业荣膺“2020房企供应商10强”
- LaTeX公式(对小白十分友好的线上公式生成神器)
- 怎么运行php格式的文件
- JAVA美食预定推荐系统
- CPU负载和CPU利用率浅析
- 爬虫能做什么有意思的事?
热门文章
- Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks
- L1-087 机工士姆斯塔迪奥 和 L1-048 矩阵A乘以B
- 改变linux 背景修改命令,Linux命令行下更改桌面背景(GNOME环境)
- SCADA系统资料整理-概论
- 苹果html 闪退,苹果打开软件闪退是怎么回事_苹果手机一打开软件就闪退如何解决-win7之家...
- 读取四则运算的字符串(Formula)返回计算结果 c#
- C#毕业设计——基于C#+asp.net+sqlserver的计算机等级考试系统设计与实现(毕业论文+程序源码)——计算机等级考试系统
- js vue 获取 (昨天、今天、明天) 时间
- 计算机应用基础制作新春贺卡图片,WORD制作新年贺卡和个人简历大学计算机基础课程设计报告书...
- 财务数字大小写转换函数代码