【python镜像分词】运用到文章
>>> import re
>>> t = open('E:/序言.txt','r')
>>> text = t.read()
>>> import jieba
>>> b = ','or '。'
>>> textCut = text.split(b)
>>> print(textCut)
['美国版序言\n\n-----------------------------------\n\n\u3000\u3000目前已经有不少部哲学史了', '我的目的并不是要仅仅在它 们之中再加上一部。我的目的是要揭示', '哲学乃是社会生活与政治生活的一个组成部分:它并不是卓越的个人所做出的孤立的思考', '而是曾经有各种体系盛行过的各种社会性格的产物与成因。这一目的就要求我们对于一般历史的叙述', '比通常哲学史家所做的为多。我还发觉这一点对于一般读者未必是很熟悉的那几段时期', '尤其必要。经院哲学的大时代乃是十一世纪改革的产物', '而这些改革又是对于前一个时期的颓废腐化的反作用。如果对于罗马灭亡与中古教权兴起之间的那几个世纪没有一些知识的话', '就会难于理解十二、三世纪知识界的气氛。在处理这段时期时', '正如处理其他时期一样', '我的目的仅仅在于提供——就造成哲学家们的时代而言', '以及哲学家们对于其形成也与有力焉的那些时代而言', '——我认为是若想对哲学家有同情的理解时', '有必要加以叙述的一般历史。\n 这种观点的后果之一就是:它给予一个哲学家的地位', '往往并不就是他的哲学的优异性所应得的地位。例如', '就我来说', '我认为斯宾诺莎是比洛克更伟大的哲学家', '但是他的影响却小得多;因此我处理他就要比处理洛克简略得多。有些人——例如卢梭和拜伦——虽然在学术的意义上完全不是什么哲学家', '但是他们却是如此深远地影响了哲学思潮的气质', '以致于如果忽略了他们', '便不可能理解哲学的发展。就这一方面而论', '甚至于纯粹的行动家们有时也具有很大的重要性;\n 很少哲学家对于哲学的影响之大是能比得上亚力山大大帝、查理曼或者拿破仑的。莱库格斯如果确有其人的话', '就更是一个显著的例子了。\n 企图包罗的时期既然是如此之广', '就必须要有大刀阔斧的选择原则。我读过一些标准的哲学史之后', '得到了这样一个结论:过分简短的叙述是不会给读者以什么有价值的东西的;因此我就把那些我以为似乎不值得详尽处理的人物(除了极少数的例外)完全略过不提。在我所讨论的人物中', '我只提到看来是与他们的生气以及他们的社会背景有关的东西;有时候', '我甚至于把某些本身无关重要的细节也记录下来', '只要我认为它们足以说明一个人或者他的时代。\n 最后', '对研究我的庞大题材中的任何一部分的专家们', '我还该说几句辩解的话。关于任何一个哲学家', '我的知识显然不可能和一个研究范围不太广泛的人所能知道的相比。我毫不怀疑', '很多人对于我所述及的任何一个哲学家', '——除了莱布尼兹之外——都比我知道得多。然而', '如果这就成为应该谨守缄默的充分理由', '那末结果就会没有人可以论述某一狭隘的历史片断范围以外的东西了。斯巴达对于卢梭的影响、柏拉图对于十三世纪以前基督教哲学的影响、奈斯脱流斯教派①对于阿拉伯人以及从而对于阿奎那的影响、自从伦巴底诸城的兴起直到今天为止圣安布洛斯对于自由主义的政治哲学的影响', '这都是一些只有在一部综合性的历史著作里才能处理的题材。根据这些理由', '我要求发现我对于自己题目中某些部分的知识显得不足的读者们鉴谅', '如果不需要记住“时间如飞车”的话', '我在这些方面的知识本来是会比较充分的。\n 本书得以问世要归功于巴恩斯(AlbertC.Barnes)博士', ' 原稿是为宾夕法尼亚大学的巴恩斯基金讲座而写的', '其中有一部分曾讲授过。\n 正如在最近十三年以来我的大部分工作一样', '我的妻子巴特雷西亚·罗素在研究方面以及在许多其他方面都曾大大地帮助过我。\n \n 伯特兰·罗素']
>>>
-------------------------------------------------------------------------------------
>>> for lines in textCut:
... line_seg = jieba.cut(lines.strip(),cut_all = False)
... line = '\t'.join(line_seg)
... print(type(line))
... line_one = line.split('\t')
... print(type(line_one))
... a = 0
... for i in line_one:
... a += 1
... print('\t'*(a-1),i)
... line.reverse()
... for i in line_one:
... a -= 1
... print('\t'*a,i)
------------------------------------------------
>>> for lines in textCut:
try:
... line_seg = jieba.cut(lines.strip(),cut_all = False)
... line = '\t'.join(line_seg)
... print(type(line))
... line_one = line.split('\t')
... print(type(line_one))
... a = 0
... for i in line_one:
... a += 1
... print('\t'*(a-1),i)
... line_one.reverse()
... for i in line_one:
... a -= 1
... print('\t'*a,i)
except:
print('pass')
-------------------------------------------
【python镜像分词】运用到文章相关推荐
- 【NLP】jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
- python求反余弦_余弦相似度计算公式:python代码找出相似文章
余弦相似度计算公式:python代码找出相似文章 用TF-IDF算法可以自动提取关键词.除了找到关键词,怎么找到与原文章相似的其他文章.比如,"百科TA说"在词条最下方,还提供多条 ...
- Python中文分词及词频统计
Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...
- 『开发技术』Python中文分词工具SnowNLP教程
介绍一个好用多功能的Python中文分词工具SnowNLP,全称Simplified Chinese Text Processing.在实现分词的同时,提供转换成拼音(Trie树实现的最大匹配)及繁体 ...
- 资源 | Python中文分词工具大合集
跟着博主的脚步,每天进步一点点 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...
- Python中文分词工具大合集:安装、使用和测试
转自:AINLP 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具 ...
- python汉语分词,python汉语分词的简单示例
对python这个高级语言感兴趣的小伙伴,下面一起跟随编程之家 jb51.cc的小编两巴掌来看看吧! 目前我常常使用的分词有结巴分词.NLPIR分词等等 最近是在使用结巴分词,稍微做一下推荐,还是蛮好 ...
- python lcut精确分词_jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
- 3、Python 中文分词组件Jieba
在自然语言处理中,分词是一项最基本的技术.中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语以字为基本书写单位,词语之间没有明显的区分标记,需要人为切分.现在开源的中文分词工具有 ...
最新文章
- OPENWRT中SSH免密钥登陆(具体步骤)
- DotNetNuke: System.Security.Cryptography.CryptographicException: Bad Data
- element显示服务器的图片,Vue+ElementUI+SpringMVC实现图片上传和回显
- Swift 十进制二进制转换 (How to convert a decimal number to binary in Swift)
- http://www.cnblogs.com/Bear-Study-Hard/archive/2008/03/26/1123267.html
- pycharm 取消连按两下shift出现的全局搜索
- 怎样解决外键约束_《设计心理学》|找寻“设计师”所遇的真正问题与解决之道...
- 我从机器人先生那里了解到了有关InfoSec的全部信息
- Educational Codeforces Round 58
- java中bitconverter_【Java】BitConverter(数字转字节数组工具类)
- JSTL-格式标签库
- html gbk正确 utf-8乱码,GBK与UTF-8互转乱码详解
- GPS测量定位的类型
- 女生叫你哥和大哥区别_大哥正望着你
- 计算机主机闪烁显示器黑屏,显示器黑屏一闪一闪的怎么回事_显示器黑屏一闪一闪解决教程 - 系统家园...
- mfc改计算机名称,VC获取并修改计算机屏幕分辨率(MFC)
- 为什么冠状病毒从湖北出发传播这么快?
- adb工具使用(Android Debug Bridge)
- MindMaster-----培训计划
- 海康威视-可视对讲第二课:单元门口机如何设置密码开门?