查了许多资料,采用分词库与正则表达式都没有办法进行完美分句。

比如:名字有这样的Mr.A.W、Mr.等,采用正则可以分,但是有错误的。如果结尾只是一个字母A.,会与下一句的词分成一句中。

那么怎么解决呢?

对于句子中的名字,数据集中几乎没有连字的名字,因此只考虑数字,不要将小数点当成句号分开

思路:其实对于a.b这样的数字,考虑若句点的前面和后面都为数字的情况,会发生问题。

           比如:This is $3.0 is no good这样的话3.0不会分开,但实际上这是两句话

因此只考虑句点后接数字的情况,一般以数字开头的句子很少,如果有的话修改正则为

'\?|\!|(?<!\d)\.(?!\d)'即可。

代码及结果:

import re
sen='i likh 4.2 vvv.Him with tf?And he qweq nnmj.kkk jjuug.'
p = re.split('\?|\!|\.(?!\d)',sen)
print(p[:-1])#['i likh 4.2 vvv', 'Him with tf', 'And he qweq nnmj', 'kkk jjuug']这里去掉最后一个的原因是每次分句总会多出一个空的来

即:print(p)# ['i likh 4.2 vvv', 'Him with tf', 'And he qweq nnmj', 'kkk jjuug',[]]

对英文文章进行分句,要确保数字中的小数点不被分开最简便的方法-附代码相关推荐

  1. 分析一个文本(英文文章)(300k—500k)中的词出现的频率,并且把频率最高的10个词打印出来。...

    最近老师出一个题目:分析一个文本(英文文章)(300k-500k)中的词出现的频率,并且把频率最高的10个词打印出来. 要分析每个词的频率,肯定要先把每个单词读出来并存储起来,用数据库存肯定是没那个必 ...

  2. TensorFlow手写数字识别与一步一步实现卷积神经网络(附代码实战)

    编译 | fendouai 编辑 | 安可 [导读]:本篇文章将说明 TensorFlow 手写数字识别与一步一步实现卷积神经网络.欢迎大家点击上方蓝字关注我们的公众号:深度学习与计算机视觉. 手写数 ...

  3. 数字图像处理Matlab-图像的滤波处理与图像空间变换(附代码)

    目录 1.Objectives: 2.Experiment Content: 3.Experiment Principle: 4.Experiment Steps Result and Conlusi ...

  4. 一篇经典的TCP/IP基础知识英文文章

    一篇经典的TCP/IP基础知识英文文章 INTRODUCTION When you configure the TCP/IP protocol on a Microsoft Windows compu ...

  5. python统计单词个数算法_统计一篇英文文章单词个数,取出出现频次前10的单词(Python实现)...

    题目: 用python实现统计一篇英文文章内每个单词的出现频率,并返回出现频率最高的前10个单词及其出现次数. 常规解法 怎么判定单词? 1 不是字母的特殊字符作为分隔符分割字符串 (避免特殊字符的处 ...

  6. split函数python统计英文单词_统计一篇英文文章单词个数,取出出现频次前10的单词(Python实现)...

    题目: 用python实现统计一篇英文文章内每个单词的出现频率,并返回出现频率最高的前10个单词及其出现次数. 常规解法 怎么判定单词? 1 不是字母的特殊字符作为分隔符分割字符串 (避免特殊字符的处 ...

  7. 英文文章写作|文献管理|​​​​​​​阅读文献|引用文献|国内文章

    目录 英文文章写作 1.阅读10篇文献,总结100个常用句型和常用短语 2.找3-5篇技术路线和统计方法与你的课题接近的文章,精读 3.针对论文的每一部分,尤其是某种具体方法.要讨论的某一具体方面,各 ...

  8. C语言统计文章单词出现的次数,统计英文文章中单词出现频率

    /* 运行此程序之前要将写有单词的英文文章以.txt格式保存在d:\word.txt */ #include #include #include #include #include #include ...

  9. 【C语言】英文文章出现次数最多的单词

    问题描述: 在当前目录中存在文件名为"case14.in"的文本文件,其内容为一篇英文文章(以EOF作为结束标志).现要求读取该文本文件内容,统计文章中每个单词出现的次数,并输出出 ...

  10. 摄氏度符号英文计算机语言,英文文章里摄氏度符号打法

    最近写文章发现word插入符号时选择Times New Roman字体时没有°C这一符号,倒是中文字体一般都有℃这一符号,如果用搜狗输入法,还可以输入"sheshidu",第五个一 ...

最新文章

  1. 学 Python 必看书单汇总
  2. Metaspace 引起的 FullGC 问题排查过程及解决方案
  3. 查看Linux声卡基本信息[转载]
  4. under what circumstances, breakfast is essential
  5. PetShop4,错误提示:System.Web.Security.SqlMembershipProvider”要求一个与架构版本“1”兼容的数据...
  6. SAP Spartacus B2B页面的BodyContent position
  7. easyui(一) 初始easyui
  8. 2020年2月数据库流行度排行:冬日虽然寒冷,春光必定灿烂
  9. 计算机系英文简历技能skill,如何填英文简历中SKILL选项
  10. mybatis 增删改查测试
  11. java封装的注意事项_新手学习Java之对象---封装
  12. CSDN 网站查看自己发出的评论 自己被点赞过的评论
  13. 【181012】VC++ 中国象棋人机对弈程序源代码
  14. Xcode打包ipa
  15. 如何设计简单的网站Favicon图标?ICO图标制作
  16. matlab怎么表示分块矩阵,急求一个测量矩阵采用分块多项式矩阵时怎样引用的代码!!!...
  17. 从 “ 我爱你 ” 到 “ 我爱钱 ”
  18. js中TSC打印机在IE浏览器使用ActiveX控件实现打印
  19. windows7家庭普通版 添加 gpedit 组策略
  20. Navicat连接不上本地MySQL数据库

热门文章

  1. html 长图自动滚动条,h5页面背景图很长要有滚动条滑动效果的实现
  2. 算法提高 合并石子(区间dp,四边形不等式优化)
  3. 荔枝派Zero(全志V3S)驱动开发之RGB LCD屏幕显示bmp图片
  4. Windows提权:利用MSSQL数据库,Oracle数据库
  5. Corel VideoStudio 会声会影2023破解版新功能介绍及安装激活教程
  6. linux基础(二)----linux常用命令积累
  7. 笑屎人了!狗狗嘿咻太卖力当街猝死
  8. Elasticsearch小bug记录:term: XXX was completely eliminated by analyzer
  9. cd 命令 – 切换目录
  10. 7-16 哈利·波特的考试