nltk.tokenize.word_tokenize(text)只是一个瘦的

wrapper function,它调用

TreebankWordTokenizer类实例的tokenize方法,它显然使用简单的正则表达式来解析一个句子.

该类的文档声明:

This tokenizer assumes that the text has already been segmented into

sentences. Any periods — apart from those at the end of a string —

are assumed to be part of the word they are attached to (e.g. for

abbreviations,etc),and are not separately tokenized.

底层tokenize方法本身非常简单:

def tokenize(self,text):

for regexp in self.CONTRACTIONS2:

text = regexp.sub(r'\1 \2',text)

for regexp in self.CONTRACTIONS3:

text = regexp.sub(r'\1 \2 \3',text)

# Separate most punctuation

text = re.sub(r"([^\w\.\'\-\/,&])",r' \1 ',text)

# Separate commas if they're followed by space.

# (E.g.,don't separate 2,500)

text = re.sub(r"(,\s)",r' \1',text)

# Separate single quotes if they're followed by a space.

text = re.sub(r"('\s)",text)

# Separate periods that come before newline or end of string.

text = re.sub('\. *(\n|$)',' . ',text)

return text.split()

基本上,该方法通常做的是将句点标记为单独的标记,如果它落在字符串的末尾:

>>> nltk.tokenize.word_tokenize("Hello,world.")

['Hello',','world','.']

落在字符串中的任何句点都被标记为单词的一部分,假设它是缩写:

>>> nltk.tokenize.word_tokenize("Hello,world. How are you?")

['Hello','world.','How','are','you','?']

只要这种行为是可以接受的,你应该没事.

python tokenize_python – 滥用nltk的word_tokenize(已发送)的后果相关推荐

  1. 中文停用词文档_使用Python中的NLTK和spaCy删除停用词与文本标准化

    译者 | VK 来源 | Analytics Vidhya [磐创AI 导读]:本文介绍了如何使用Python中的NLTK和spaCy删除停用词与文本标准化,欢迎大家转发.留言.想要更多电子杂志的机器 ...

  2. python自然语言处理案例-Python自然语言处理 NLTK 库用法入门教程【经典】

    本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python 讨论自然语言处理(NLP).本教程将会使用 Python NLTK ...

  3. Python批量拆分Excel文件中已合并的单元格

    中国大学MOOC"Python程序设计基础"第4次开课 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大 ...

  4. [转载] 使用Python中的NLTK和spaCy删除停用词与文本标准化

    参考链接: Python | 用NLTK进行词干分析 概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术  探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化 ...

  5. 使用Python中的NLTK和spaCy删除停用词与文本标准化

    概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatizatio ...

  6. Python自然语言处理 NLTK 库用法入门教程【经典】

    @本文来源于公众号:csdn2299,喜欢可以关注公众号 程序员学府 本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python ...

  7. python基于条件、规则构建已有字典的子集

    python基于条件.规则构建已有字典的子集 字典是另一种可变容器模型,且可存储任意类型对象. 字典的每个键值 key=>value 对用冒号 : 分割,每个对之间用逗号(,)分割,整个字典包括 ...

  8. .Net MVC Redirect出现:服务器无法在已发送 HTTP 标头之后设置状态解决方案

    .Net MVC Redirect出现:服务器无法在已发送 HTTP 标头之后设置状态解决方案 参考文章: (1).Net MVC Redirect出现:服务器无法在已发送 HTTP 标头之后设置状态 ...

  9. python的工作方向-Python最有发展潜力的方向已出来,是否有你喜欢的职位?

    原标题:Python最有发展潜力的方向已出来,是否有你喜欢的职位? Python是一门面向对象的编程语言,编译速度超快,从诞生到现在已经25个年头了.其特点在于灵活运用,因为其拥有大量第三方库,所以开 ...

  10. 对于窗口大小为n个滑动窗口,最多可以有( )帧已发送但没有确认。

    对于窗口大小为n的滑动窗口,最多可以有( n-1 )帧已发送但没有确认. 在连续ARQ协议中,发送窗口大小<=窗口总数-1. 例如:窗口总数为8,编号为0 ~ 7,假设8个帧都已发出,下一轮又发 ...

最新文章

  1. 高可用Hadoop平台-Oozie工作流
  2. Python进阶8——字典与散列表,字符串编解码
  3. 软件工程--第三章--需求分析
  4. linux 查看led设备,Linux下LedButton设备驱动——详细设计
  5. 华为nova7se能云闪付吗_华为迎来转机!联发科“顶替”麒麟芯片,已售罄手机将重获新生...
  6. 【蓝桥杯单片机】DS1302时钟芯片+DS18B20单总线温度传感器(官方驱动源码改写)
  7. 汇编语言简明教程习题答案
  8. 【Android】关于Call requires API level **(current min is **)却没有错误提示及抛异常...
  9. Flink 1.12.2 源码浅析 : Transformation 浅析
  10. 运行npm install时会一直加载转圈
  11. python做房源饼状图_python使用matplotlib画饼状图
  12. Opencv convertScaleAbs函数 和灰度图上进行透明彩色绘制
  13. TextView显示省略号问题
  14. python中\t \r \s \n \f各种转移字符含义
  15. 明源云采购颁奖盛典|欧金盾铝业荣膺“2020房企供应商10强”
  16. LaTeX公式(对小白十分友好的线上公式生成神器)
  17. 怎么运行php格式的文件
  18. JAVA美食预定推荐系统
  19. CPU负载和CPU利用率浅析
  20. 爬虫能做什么有意思的事?

热门文章

  1. Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks
  2. L1-087 机工士姆斯塔迪奥 和 L1-048 矩阵A乘以B
  3. 改变linux 背景修改命令,Linux命令行下更改桌面背景(GNOME环境)
  4. SCADA系统资料整理-概论
  5. 苹果html 闪退,苹果打开软件闪退是怎么回事_苹果手机一打开软件就闪退如何解决-win7之家...
  6. 读取四则运算的字符串(Formula)返回计算结果 c#
  7. C#毕业设计——基于C#+asp.net+sqlserver的计算机等级考试系统设计与实现(毕业论文+程序源码)——计算机等级考试系统
  8. js vue 获取 (昨天、今天、明天) 时间
  9. 计算机应用基础制作新春贺卡图片,WORD制作新年贺卡和个人简历大学计算机基础课程设计报告书...
  10. 财务数字大小写转换函数代码