统计拼音字母使用频率 python
样本来源:《人民日报》
工具:python 2.7.10
环境:windows
先贴上结果:
字母“i”使用频率最高,达到了13.5%;
“n”的使用频率次之,为12.9%;
最低的是“v”,即汉语拼音中的“yu”,使用频率为0.19%。
其中 q 与 t ,m 与 r 差别较小,分别差0.01%和0.04%
下面是详细步骤:
1.取样:
用python编了个爬虫,把《人民日报上》半年的新闻标题和正文抓取下来,共287w个汉字。
这是python爬虫的源码:
需要注意的是《人民日报》中每篇文章的链接由两部分组成,但在每篇新闻页面的源代码中只有后半部分,所以需要我们将它与前半部分合在一起,所以代码中有url_base和url_org。
得到的样本如下:
这个样本里有大量的数字和英文字母,我们稍微处理一下,把里面的中文找出来
正则表达式中 \x80-\xff 是UTF-8编码中,汉字和标点的集
得到的结果是这样的:
2.把汉字转化为拼音字母:
在这感谢 "超江_" 大家请移步到 http://blog.csdn.net/g19920917/article/details/42963659
安装他的 xpinyin库 后,运行如下代码
得到的结果:
提取字母:
结果:
3.统计拼音字母使用频数和频率
运行结果:
得到的数据在excel中稍微整理一下就能得到文章开头的结果。
以上是不严谨的统计分析,仅供参考
统计拼音字母使用频率 python相关推荐
- 《贝叶斯思维:统计建模的Python学习法》——1.8 讨论
本节书摘来异步社区<贝叶斯思维:统计建模的Python学习法>一书中的第1章,第1.8节,作者:[美]Allen B. Downey,更多章节内容可以访问云栖社区"异步社区&qu ...
- SCCM2007 R2统计软件使用频率,SCCM系列之七
用软件计数统计软件使用频率<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" ...
- python朴素贝叶斯分布对数据的要求_统计学习方法与Python实现(三)——朴素贝叶斯法...
统计学习方法与Python实现(三)--朴素贝叶斯法 1.定义 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布.然 ...
- 《贝叶斯思维:统计建模的Python学习法》——2.5 封装框架
本节书摘来异步社区<贝叶斯思维:统计建模的Python学习法>一书中的第2章,第2.5节,作者:[美]Allen B. Downey,更多章节内容可以访问云栖社区"异步社区&qu ...
- 用python统计字母个数_python统计字母个数 python 统计文本中字母个数
python 统计文本中字母个数 作业文件等有人回答小编再发,之前发文件被屏蔽了明明转身就有一个温馨的港湾,却偏偏还要去追逐那无望的孤船. l = 0with open('file.txt', 'r' ...
- 《贝叶斯思维:统计建模的Python学习法》——2.3 贝叶斯框架
本节书摘来异步社区<贝叶斯思维:统计建模的Python学习法>一书中的第2章,第2.3节,作者:[美]Allen B. Downey,更多章节内容可以访问云栖社区"异步社区&qu ...
- 缺失数据em算法python_重磅!李航《统计学习方法》Python 代码更新,适应第二版!...
重磅!李航<统计学习方法>Python 代码更新,适应第二版! 点击上方"AI有道",选择"星标"公众号 重磅干货,第一时间送达 李航的<统计 ...
- 字母使用频率统计c 语言编程,C语言统计字母使用频率
与<C语言统计字母使用频率>相关的范文 实验一 一.实验名称:替代密码和置换密码的实现 二.实验目的:通过编程实现替代密码算法和置换密码算法,加深对古典密码体系的了解,为以后深入学习密码学 ...
- 面向过程给出《贝叶斯思维:统计建模的Python学习法》——二维彩球问题学习代码
背景 给出读<艾伯特贝叶斯思维:统计建模的Python学习法.pdf>的时候,写的代码,以面向过程的方式给出. 本章彩弹问题,求似然度的时候,假设已知隐藏点时,射手等概率从各个角度射击. ...
最新文章
- linux运维 对比 网络_linux运维、架构之路-网络基础
- 别在 Java 代码里乱打日志了,这才是打印日志的正确姿势!
- 一个权限树的设计与实现
- oracle变量最大多少位,oracle – 是否有可能获得变量的最大可能长度
- 数学作图工具_科研论文作图系列-从PPT到AI (一)
- 如何自定义类加载器?
- python selenium 获取元素下的元素个数_Python + Selenium,分分钟搭建 Web 自动化框架!(送自动化测试书籍)...
- .NET Core控制台程序发布后没有exe解决方案
- python删除停用词_删除停用词
- java代码实现一个月内不再提醒,通用到期问题
- 外包被辞,太心酸了!
- 即使是昏暗的街道,也有每日照耀的月
- 非负数的正则表达式匹配
- uniapp处理tsconfig.json报错
- 用 Python 整理 Excel 表格
- windows 禁用中文输入法
- batch软件功能测试,Batch SMART 最强序列特征[结构域]预测软件
- IOS 公司开发者账号申请详细教程-13810208661
- 10Bootstrap5徽章
- 华为 H1B 2014办理详情
热门文章
- MySQL 8.0 mysqldump 详解
- Linux下的Backlight子系统(二)
- c语言怎么在doc运行,C语言位运行.doc
- LINUX centos下查看CPU、主板、硬盘、内存,网卡信息
- RiPro8.6美化包-huzao-child v3.0子主题简洁大气集成后台
- 应用程序“HMW035347”中的服务器错误
- 动态规划: dp+递推——确定动态矩阵dp含义,确定每个状态下面临的选择和对结果值影响,选择符合题意的作为结果存储在dp中
- 【网络间谍篇】SolarWinds供应链攻击事件的来龙去脉
- 商业级web阅读器项目(上)
- 【阿里云】秒懂云通信