样本来源:《人民日报》

工具:python 2.7.10

环境:windows

先贴上结果

字母“i”使用频率最高,达到了13.5%;

“n”的使用频率次之,为12.9%;

最低的是“v”,即汉语拼音中的“yu”,使用频率为0.19%。

其中 q 与 t ,m 与 r 差别较小,分别差0.01%和0.04%

下面是详细步骤:

1.取样

用python编了个爬虫,把《人民日报上》半年的新闻标题和正文抓取下来,共287w个汉字。

这是python爬虫的源码:

需要注意的是《人民日报》中每篇文章的链接由两部分组成,但在每篇新闻页面的源代码中只有后半部分,所以需要我们将它与前半部分合在一起,所以代码中有url_base和url_org。

得到的样本如下:

这个样本里有大量的数字和英文字母,我们稍微处理一下,把里面的中文找出来

正则表达式中 \x80-\xff 是UTF-8编码中,汉字和标点的集

得到的结果是这样的:


2.把汉字转化为拼音字母:

在这感谢 "超江_"   大家请移步到  http://blog.csdn.net/g19920917/article/details/42963659

安装他的 xpinyin库 后,运行如下代码

得到的结果:

提取字母:

结果:

3.统计拼音字母使用频数和频率

运行结果:

得到的数据在excel中稍微整理一下就能得到文章开头的结果。

以上是不严谨的统计分析,仅供参考

统计拼音字母使用频率 python相关推荐

  1. 《贝叶斯思维:统计建模的Python学习法》——1.8 讨论

    本节书摘来异步社区<贝叶斯思维:统计建模的Python学习法>一书中的第1章,第1.8节,作者:[美]Allen B. Downey,更多章节内容可以访问云栖社区"异步社区&qu ...

  2. SCCM2007 R2统计软件使用频率,SCCM系列之七

    用软件计数统计软件使用频率<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" ...

  3. python朴素贝叶斯分布对数据的要求_统计学习方法与Python实现(三)——朴素贝叶斯法...

    统计学习方法与Python实现(三)--朴素贝叶斯法 1.定义 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布.然 ...

  4. 《贝叶斯思维:统计建模的Python学习法》——2.5 封装框架

    本节书摘来异步社区<贝叶斯思维:统计建模的Python学习法>一书中的第2章,第2.5节,作者:[美]Allen B. Downey,更多章节内容可以访问云栖社区"异步社区&qu ...

  5. 用python统计字母个数_python统计字母个数 python 统计文本中字母个数

    python 统计文本中字母个数 作业文件等有人回答小编再发,之前发文件被屏蔽了明明转身就有一个温馨的港湾,却偏偏还要去追逐那无望的孤船. l = 0with open('file.txt', 'r' ...

  6. 《贝叶斯思维:统计建模的Python学习法》——2.3 贝叶斯框架

    本节书摘来异步社区<贝叶斯思维:统计建模的Python学习法>一书中的第2章,第2.3节,作者:[美]Allen B. Downey,更多章节内容可以访问云栖社区"异步社区&qu ...

  7. 缺失数据em算法python_重磅!李航《统计学习方法》Python 代码更新,适应第二版!...

    重磅!李航<统计学习方法>Python 代码更新,适应第二版! 点击上方"AI有道",选择"星标"公众号 重磅干货,第一时间送达 李航的<统计 ...

  8. 字母使用频率统计c 语言编程,C语言统计字母使用频率

    与<C语言统计字母使用频率>相关的范文 实验一 一.实验名称:替代密码和置换密码的实现 二.实验目的:通过编程实现替代密码算法和置换密码算法,加深对古典密码体系的了解,为以后深入学习密码学 ...

  9. 面向过程给出《贝叶斯思维:统计建模的Python学习法》——二维彩球问题学习代码

    背景 给出读<艾伯特贝叶斯思维:统计建模的Python学习法.pdf>的时候,写的代码,以面向过程的方式给出. 本章彩弹问题,求似然度的时候,假设已知隐藏点时,射手等概率从各个角度射击. ...

最新文章

  1. linux运维 对比 网络_linux运维、架构之路-网络基础
  2. 别在 Java 代码里乱打日志了,这才是打印日志的正确姿势!
  3. 一个权限树的设计与实现
  4. oracle变量最大多少位,oracle – 是否有可能获得变量的最大可能长度
  5. 数学作图工具_科研论文作图系列-从PPT到AI (一)
  6. 如何自定义类加载器?
  7. python selenium 获取元素下的元素个数_Python + Selenium,分分钟搭建 Web 自动化框架!(送自动化测试书籍)...
  8. .NET Core控制台程序发布后没有exe解决方案
  9. python删除停用词_删除停用词
  10. java代码实现一个月内不再提醒,通用到期问题
  11. 外包被辞,太心酸了!
  12. 即使是昏暗的街道,也有每日照耀的月
  13. 非负数的正则表达式匹配
  14. uniapp处理tsconfig.json报错
  15. 用 Python 整理 Excel 表格
  16. windows 禁用中文输入法
  17. batch软件功能测试,Batch SMART 最强序列特征[结构域]预测软件
  18. IOS 公司开发者账号申请详细教程-13810208661
  19. 10Bootstrap5徽章
  20. 华为 H1B 2014办理详情

热门文章

  1. MySQL 8.0 mysqldump 详解
  2. Linux下的Backlight子系统(二)
  3. c语言怎么在doc运行,C语言位运行.doc
  4. LINUX centos下查看CPU、主板、硬盘、内存,网卡信息
  5. RiPro8.6美化包-huzao-child v3.0子主题简洁大气集成后台
  6. 应用程序“HMW035347”中的服务器错误
  7. 动态规划: dp+递推——确定动态矩阵dp含义,确定每个状态下面临的选择和对结果值影响,选择符合题意的作为结果存储在dp中
  8. 【网络间谍篇】SolarWinds供应链攻击事件的来龙去脉
  9. 商业级web阅读器项目(上)
  10. 【阿里云】秒懂云通信