python英文分句_【python分句的方法是什么?这些代码才是你需要的】- 环球网校...
【摘要】在处理文本时,会遇到需要将文本以句子为单位进行切分(分句)的场景,而文本又可以分为中文文本和英文文本,处理的方法会略有不同,那么你知道python分句的方法是什么?这些代码才是你需要的,所以你知道python分句的方法是什么?这些代码才是你需要的。
在处理文本时,会遇到需要将文本以 句子 为单位进行切分(分句)的场景,而文本又可以分为 中文文本 和 英文文本 ,处理的方法会略有不同。本文会介绍 Python 是如何处理 分句 的。
分句的关键是找到合适的结束符号,比如:中文里的 。,英文里的 . 等,而且,在这一点上中英也是有很大区分的。
python分句的方法是什么?这里介绍一种纯用 Python 实现的分句函数。
def cut_sentences(content):
# 结束符号,包含中文和英文的
end_flag = ['?', '!', '.', '?', '!', '。', '…']
content_len = len(content)
sentences = []
tmp_char = ''
for idx, char in enumerate(content):
# 拼接字符
tmp_char += char
# 判断是否已经到了最后一位
if (idx + 1) == content_len:
sentences.append(tmp_char)
break
# 判断此字符是否为结束符号
if char in end_flag:
# 再判断下一个字符是否为结束符号,如果不是结束符号,则切分句子
next_idx = idx + 1
if not content[next_idx] in end_flag:
sentences.append(tmp_char)
tmp_char = ''
return sentences
content = '在处理文本时,会遇到需要将文本以 句子 为单位进行切分(分句)的场景,而文本又可以分为 中文文本 和 英文文本 ,处理的方法会略有不同。本文会介绍 Python 是如何处理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))
python分句的方法是什么?在处理文本时,会遇到需要将文本以 句子 为单位进行切分(分句)的场景,而文本又可以分为 中文文本 和 英文文本 ,处理的方法会略有不同。
本文会介绍 Python 是如何处理 分句 的。
这个函数可以通过修改 end_flag (结束符号),来自定义特定的句子切分方式,比如加入 ; 等符号。
当然,也可以用正则表达式来完成分句,使用 re.split 的方法。
import re
def cut_sentences(content):
sentences = re.split(r'(\.|\!|\?|。|!|?|\.{6})', content)
return sentences
content = content = '在处理文本时,会遇到需要将文本以 句子 为单位进行切分(分句)的场景,而文本又可以分为 中文文本 和 英文文本 ,处理的方法会略有不同。本文会介绍 Python 是如何处理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))
python分句的方法是什么?在处理文本时,会遇到需要将文本以 句子 为单位进行切分(分句)的场景,而文本又可以分为 中文文本 和 英文文本 ,处理的方法会略有不同。
本文会介绍 Python 是如何处理 分句 的。
以上就是《python分句的方法是什么?这些代码才是你需要的》的全部内容,在处理文本时,会遇到需要将文本以句子为单位进行切分(分句)的场景,而文本又可以分为中文文本和英文文本,处理的方法会略有不同,如果你想知道更多的python的相关方法,可以点击下方资料下载链接。
python英文分句_【python分句的方法是什么?这些代码才是你需要的】- 环球网校...相关推荐
- python英文怎么读-python英文怎么读
python的读音及注解如下:python英 [?pa?θ?n]美 [?pa?θɑ?n]n.蟒; 蟒蛇;[例句]On my system, it's at/ usr/ bin/ python.[其他] ...
- python keyboard模块_[python] PyMouse、PyKeyboard用python操作鼠标和键盘
1.PyUserInput 简介 PyUserInput是一个使用python的跨平台的操作鼠标和键盘的模块,非常方便使用.支持的平台及依赖如下: Linux - Xlib Mac - Quartz, ...
- python串口编程_- python串口编程实例
python读取串口信息#e# 4.python简单程序读取串口信息的方法 具体分析如下: 这段代码需要调用serial模块,通过while循环不断读取串口数据 5.Python简单串口收发GUI界面 ...
- python 病毒 基因_#Python#提取基因对应的蛋白质名
提取基因对应的蛋白质官方名 最开始,是需要将基因跟其编码的蛋白质对应起来,找遍了各种数据库都没发现有相关的注释文件,Uniprot作为处理蛋白质的大佬,结果里都有,肯定有办法能够满足需求. 搜索TP5 ...
- python龙虎榜数据_[python]数据整理,将取得的众多的沪深龙虎榜数据整一整
1 #coding=utf-8 2 3 importre4 importos5 importtime6 importdatetime7 8 defwriteFile(file,stocks,BS,da ...
- python英文词频统计-Python实现统计英文文章词频的方法分析
本文实例讲述了Python实现统计英文文章词频的方法.分享给大家供大家参考,具体如下: 应用介绍: 统计英文文章词频是很常见的需求,本文利用python实现. 思路分析: 1.把英文文章的每个单词放到 ...
- python猿辅导_如何用数据分析方法剖析“猿辅导”K12课程
前言 本次分析只是用猿辅导的案例来分享数据分析的思路和方法论.禁止将分析结果用于任何商业目的以及非法行为,若引起法律纠纷后果自负.同时声明数据来源与猿辅导官网关键指标数据未必真实. 概述 笔者将通过以 ...
- python决策树剪枝_决策树剪枝的方法与必要性
1 决策树剪枝的必要性 本文讨论的决策树主要是基于ID3算法实现的离散决策树生成.ID3算法的基本思想是贪心算法,采用自上而下的分而治之的方法构造决策树.首先检测训练数据集的所有特征,选择信息增益最大 ...
- python结构方程模型_结构方程模型:方法与应用_结构方程模型公式
讲解清晰,适合MPLus学习者!注意这是王济川的书! 第一章 绪论( Introduction) 11模型表述( Model formulation 1.11测量模型( Measurernent mo ...
- python 求离差_指标权重确定方法之标准离差法(均方差法)
标准差(Standard Deviation) ,也称均方差(mean square error),是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示.标准差是方差的算术平方根. ...
最新文章
- codevs 1043 方格取数 2000年NOIP全国联赛提高组
- How does setModel and getModel work in Fiori
- Android之使用IDA Pro静态分析so文件
- Android Webservices 返回多行多列数据(Dataset)
- 用计算机听音乐和看电影教学反思,与计算机交朋友
- Eclipse 中 Could not find *.apk的解决方案
- MongoDb和LINQ:如何汇总和加入集合
- Java中可以声明一个类为Static吗?
- Go语言第一深坑 - interface 与 nil 的比较 (转)
- Selenium Automated test 's Installation environment
- github的使用 sourceTree
- qtableview 查询_QTableView 操作SQLite
- lol韩服游戏内设置_英雄联盟手游韩服怎么设置中文 英雄联盟手游韩服设置中文教程...
- Apache-Tomcat-Ajp文件读取漏洞(CVE-2020-1938、CNVD-2020-10487)
- fc安卓模拟器_【经典手机回顾】索尼爱立信Xperia Play:最早的安卓游戏手机
- Python 魔术方法指南
- Xsell中常用的Linux命令
- 超酷的javascript文字云/标签云效果 - D3 Cloud
- 有哪些不错的电子书管理软件?免费项目管理软件推荐
- 游戏同步方案——帧同步