【摘要】在处理文本时,会遇到需要将文本以句子为单位进行切分(分句)的场景,而文本又可以分为中文文本和英文文本,处理的方法会略有不同,那么你知道python分句的方法是什么?这些代码才是你需要的,所以你知道python分句的方法是什么?这些代码才是你需要的。

在处理文本时,会遇到需要将文本以 句子 为单位进行切分(分句)的场景,而文本又可以分为 中文文本 和 英文文本 ,处理的方法会略有不同。本文会介绍 Python 是如何处理 分句 的。

分句的关键是找到合适的结束符号,比如:中文里的 。,英文里的 . 等,而且,在这一点上中英也是有很大区分的。

python分句的方法是什么?这里介绍一种纯用 Python 实现的分句函数。

def cut_sentences(content):

# 结束符号,包含中文和英文的

end_flag = ['?', '!', '.', '?', '!', '。', '…']

content_len = len(content)

sentences = []

tmp_char = ''

for idx, char in enumerate(content):

# 拼接字符

tmp_char += char

# 判断是否已经到了最后一位

if (idx + 1) == content_len:

sentences.append(tmp_char)

break

# 判断此字符是否为结束符号

if char in end_flag:

# 再判断下一个字符是否为结束符号,如果不是结束符号,则切分句子

next_idx = idx + 1

if not content[next_idx] in end_flag:

sentences.append(tmp_char)

tmp_char = ''

return sentences

content = '在处理文本时,会遇到需要将文本以 句子 为单位进行切分(分句)的场景,而文本又可以分为 中文文本 和 英文文本 ,处理的方法会略有不同。本文会介绍 Python 是如何处理 分句 的。'

sentences = cut_sentences(content)

print('\n\n'.join(sentences))

python分句的方法是什么?在处理文本时,会遇到需要将文本以 句子 为单位进行切分(分句)的场景,而文本又可以分为 中文文本 和 英文文本 ,处理的方法会略有不同。

本文会介绍 Python 是如何处理 分句 的。

这个函数可以通过修改 end_flag (结束符号),来自定义特定的句子切分方式,比如加入 ; 等符号。

当然,也可以用正则表达式来完成分句,使用 re.split 的方法。

import re

def cut_sentences(content):

sentences = re.split(r'(\.|\!|\?|。|!|?|\.{6})', content)

return sentences

content = content = '在处理文本时,会遇到需要将文本以 句子 为单位进行切分(分句)的场景,而文本又可以分为 中文文本 和 英文文本 ,处理的方法会略有不同。本文会介绍 Python 是如何处理 分句 的。'

sentences = cut_sentences(content)

print('\n\n'.join(sentences))

python分句的方法是什么?在处理文本时,会遇到需要将文本以 句子 为单位进行切分(分句)的场景,而文本又可以分为 中文文本 和 英文文本 ,处理的方法会略有不同。

本文会介绍 Python 是如何处理 分句 的。

以上就是《python分句的方法是什么?这些代码才是你需要的》的全部内容,在处理文本时,会遇到需要将文本以句子为单位进行切分(分句)的场景,而文本又可以分为中文文本和英文文本,处理的方法会略有不同,如果你想知道更多的python的相关方法,可以点击下方资料下载链接。

python英文分句_【python分句的方法是什么?这些代码才是你需要的】- 环球网校...相关推荐

  1. python英文怎么读-python英文怎么读

    python的读音及注解如下:python英 [?pa?θ?n]美 [?pa?θɑ?n]n.蟒; 蟒蛇;[例句]On my system, it's at/ usr/ bin/ python.[其他] ...

  2. python keyboard模块_[python] PyMouse、PyKeyboard用python操作鼠标和键盘

    1.PyUserInput 简介 PyUserInput是一个使用python的跨平台的操作鼠标和键盘的模块,非常方便使用.支持的平台及依赖如下: Linux - Xlib Mac - Quartz, ...

  3. python串口编程_- python串口编程实例

    python读取串口信息#e# 4.python简单程序读取串口信息的方法 具体分析如下: 这段代码需要调用serial模块,通过while循环不断读取串口数据 5.Python简单串口收发GUI界面 ...

  4. python 病毒 基因_#Python#提取基因对应的蛋白质名

    提取基因对应的蛋白质官方名 最开始,是需要将基因跟其编码的蛋白质对应起来,找遍了各种数据库都没发现有相关的注释文件,Uniprot作为处理蛋白质的大佬,结果里都有,肯定有办法能够满足需求. 搜索TP5 ...

  5. python龙虎榜数据_[python]数据整理,将取得的众多的沪深龙虎榜数据整一整

    1 #coding=utf-8 2 3 importre4 importos5 importtime6 importdatetime7 8 defwriteFile(file,stocks,BS,da ...

  6. python英文词频统计-Python实现统计英文文章词频的方法分析

    本文实例讲述了Python实现统计英文文章词频的方法.分享给大家供大家参考,具体如下: 应用介绍: 统计英文文章词频是很常见的需求,本文利用python实现. 思路分析: 1.把英文文章的每个单词放到 ...

  7. python猿辅导_如何用数据分析方法剖析“猿辅导”K12课程

    前言 本次分析只是用猿辅导的案例来分享数据分析的思路和方法论.禁止将分析结果用于任何商业目的以及非法行为,若引起法律纠纷后果自负.同时声明数据来源与猿辅导官网关键指标数据未必真实. 概述 笔者将通过以 ...

  8. python决策树剪枝_决策树剪枝的方法与必要性

    1 决策树剪枝的必要性 本文讨论的决策树主要是基于ID3算法实现的离散决策树生成.ID3算法的基本思想是贪心算法,采用自上而下的分而治之的方法构造决策树.首先检测训练数据集的所有特征,选择信息增益最大 ...

  9. python结构方程模型_结构方程模型:方法与应用_结构方程模型公式

    讲解清晰,适合MPLus学习者!注意这是王济川的书! 第一章 绪论( Introduction) 11模型表述( Model formulation 1.11测量模型( Measurernent mo ...

  10. python 求离差_指标权重确定方法之标准离差法(均方差法)

    标准差(Standard Deviation) ,也称均方差(mean square error),是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示.标准差是方差的算术平方根. ...

最新文章

  1. codevs 1043 方格取数 2000年NOIP全国联赛提高组
  2. How does setModel and getModel work in Fiori
  3. Android之使用IDA Pro静态分析so文件
  4. Android Webservices 返回多行多列数据(Dataset)
  5. 用计算机听音乐和看电影教学反思,与计算机交朋友
  6. Eclipse 中 Could not find *.apk的解决方案
  7. MongoDb和LINQ:如何汇总和加入集合
  8. Java中可以声明一个类为Static吗?
  9. Go语言第一深坑 - interface 与 nil 的比较 (转)
  10. Selenium Automated test 's Installation environment
  11. github的使用 sourceTree
  12. qtableview 查询_QTableView 操作SQLite
  13. lol韩服游戏内设置_英雄联盟手游韩服怎么设置中文 英雄联盟手游韩服设置中文教程...
  14. Apache-Tomcat-Ajp文件读取漏洞(CVE-2020-1938、CNVD-2020-10487)
  15. fc安卓模拟器_【经典手机回顾】索尼爱立信Xperia Play:最早的安卓游戏手机
  16. Python 魔术方法指南
  17. Xsell中常用的Linux命令
  18. 超酷的javascript文字云/标签云效果 - D3 Cloud
  19. 有哪些不错的电子书管理软件?免费项目管理软件推荐
  20. 游戏同步方案——帧同步

热门文章

  1. 攻防世界 Web_php_include write up
  2. Linux 查看端口状态 netstat
  3. mysql常见的存储引擎
  4. 在线旅游网站发展趋势分析
  5. 内存交换空间(swap)
  6. [转载]MySQL数据库增长用户权限GRANT/INSERT INTO user VALUES/FLUSH
  7. 利用注册表修改桌面背景
  8. 前后端分离项目的session问题
  9. URL任何获取html form的提交值
  10. iOS黑魔法 - Method Swizzling