因为想把一段文字分词,所以,需要明确一定的词语关系。

在网上随便下载了一篇中文小说。随便的txt小说,就1mb多。要数数这1mb多的中文到底有多少字,多少分词,这些分词的词性是什么样的。

这里是思路

1)先把小说读到内存里面去。

2)再把小说根据正则表达法开始分词,获得小说中汉字总数

3)将内存中的小说每段POST到提供分词服务的API里面去,获取分词结果

4)按照API说明,取词

素材:

1、linux/GNU => debian/ubuntu 12.04/Linuxmint 13Preferred2、python3、中文分词API, 这里我们使用的是 http://www.vapsec.com/fenci/

4、分词属性的说明文件下载 http://vdisk.weibo.com/s/qR7KSFDa9ON

这里已经写好了一个测试脚本。只是单个进程访问。还没有加入并发的测试。

在以后的测试中,我会加入并发的概念的。

下面是测试脚本 test.py

#!/usr/bin/env python#coding: utf-8

importsysimporturllibimporturllib2importosimportrefrom datetime importdatetime, timedeltadef url_post(word=‘My name is Jake Anderson‘, geshi="json"):

url= "http://open.vapsec.com/segment/get_word"postDict={"word":word,"format":geshi

}

postData=urllib.urlencode(postDict)

request=urllib2.Request(url, postData)

request.get_method= lambda : ‘POST‘

#request.add_header(‘Authorization‘, basic)

response =urllib2.urlopen(request)

r=response.readlines()printrif __name__ == "__main__":

f= open(‘novel2.txt‘, ‘r‘)#get Chinese characters quantity

regex=re.compile(r"(?x) (?: [\w-]+ | [\x80-\xff]{3} )")

count=0for line inf:

line= line.decode(‘gbk‘)

line= line.encode(‘utf8‘)

word= [w for w inregex.split(line)]

count+=len(word)#print count

f = open(‘novel2.txt‘, ‘r‘)

start_time=datetime.now()for line inf:

line= line.decode(‘gbk‘)

line= line.encode(‘utf8‘)

word2= [w for w inregex.split(line)]printline

url_post(line)

end_time=datetime.now()

tdelta= start_time -end_timeprint "It takes" + str(tdelta.total_seconds()) + "seconds to segment" + str(count) + "Chinese words!"

print "This means it can segment" + str(count/tdelta.total_seconds()) + "Chinese characters per second!"

novel2.txt 是下载的小说。这个小说1.2MB大小。大约有580000字吧。

小说是GBK的格式,所以下载后,要转码成 utf-8的格式。

可以看到的终端效果大致是这样的。

把小说中所有的词,进行远程分词服务。

原文:http://www.cnblogs.com/spaceship9/p/3611317.html

python中文分词统计_python 中文字数统计/分词相关推荐

  1. python 小说词频统计_Python中文分词及词频统计

    中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...

  2. Python实现word文档的字数统计

    介绍:内子从宝宝出生写了好多宝宝的成长记录,想出本书,但不知道字数有多少,希望我把字数统计一下,但是文件夹下有近100个word文档,每个打开就相对麻烦,试着用python代码解决. 不多说,直接上代 ...

  3. python日志统计_python试用-日志统计

    最近两天尝试用python代替bash写Linux Shell脚本来统计日志.发现python写起来比bash更简单和容易阅读,发现不少惊喜.所以写了一个粗糙的脚本来统计日志. 目标 1.通过简单命令 ...

  4. python中文字符串编码_python中文乱码 字符串和编码

    Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了. Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节).现代操作系统和大 ...

  5. python中文词频排序_Python中文词频统计

    1. 下载一长篇中文小说. 2. 从文件读取待分析文本. 3. 安装并使用jieba进行中文分词. pip install jieba import jieba ljieba.lcut(text) i ...

  6. python结巴分词 换行_python中文分词,使用结巴分词对python进行分词

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  7. python情感分析语料库_python 中文情感分析 Snownlp库的使用

    不甘心的时候,就是在进步:痛苦的时候,就是在成长. 文章目录 一.Snownlp 简介 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于 ...

  8. python哈姆雷特词频统计_python—文本词频统计 哈姆雷特 txt 下载

    原博文 2020-05-13 15:49 − 文本词频统计 -- Hamlet Hamlet下载 链接:https://pan.baidu.com/s/1Is2mBAED57i6nI38lcnXAA ...

  9. python英文字符频率统计_Python中怎样统计英文文本中的字母频次?

    关于文本频次统计.先不要考虑如何用python实现的问题. 我捋一捋自己的思路. 频次统计有几种呢?有时我们关注个别字母和汉字的出现频率,也有时候我们更多会关注个别单词或词语的出现频率. 针对这两种常 ...

最新文章

  1. C语言 递归实现分解质因数
  2. ccf-csp #201903-4 消息传递接口
  3. Eclipse - CDT使用GDB调试C++的问题-无源文件命名(No source file named)
  4. Linux提升系统安全性:自动注销 TMOUT
  5. android 媒体的uri,安卓 - 从相对路径+显示名称中获取媒体的URI或ID
  6. python生产教程_python入门教程12-09 (python语法入门之生产者消费者模型)
  7. java c md5 疯_JAVA md5把我气到疯的代码,天哪,神呀,我的C# 啊。
  8. alsa内核文档翻译之——overview.txt
  9. 计算机常见故障英语,常见电脑黑屏(有英文字母)的解决办法
  10. 开源首发!Android入门“神器“——《Android编程入门教程》,理论与实战齐飞!
  11. arcmap叠置分析_ArcGIS常见的叠加操作分析情况汇总
  12. 2007年日历带农历表_2007年日历表,2007年农历表(阴历阳历节日对照表)
  13. sketch-矢量绘图应用软件
  14. Flask-SQLAlchemy relationship中的 lazy屬性
  15. [svn] TortoisSVN的Blam功能
  16. springboot 问题记录
  17. javaScript 美化上传文件框
  18. [读书笔记]捉虫日记[A Bug Hunter's Diary]
  19. appstore关键词优化:AppStore关键词优化的主要流程
  20. [安洵杯 2019]easy_web 1

热门文章

  1. vscode+arm-gcc编译STM32标准外设库工程教程(小白亲历填坑版)
  2. 页面卡顿的原因及排查
  3. delphi 取屏幕分辨率_使用Delphi更改Windows屏幕分辨率的更新
  4. [Python]... 和pass
  5. 正午太阳高度的计算机应用,正午太阳高度角计算机应用ppt课件.ppt
  6. Android三步显示gif动态图片
  7. C语言汇编查看笔记(一)
  8. TCP/IP详解第一卷第一章重点摘要
  9. AD域账户登录mysql_java集成微软的ad域,实现单点登录
  10. php 计算函数 (加,比较用法,除,减,求余,乘)