26个英文字母在平均出现时的信息熵是4.7BIT,而去掉冗余度后的英文字母的信息熵是4.03BIT。

公式: H(信息熵) = -∑ Pi log2(Pi); Pi:为每个字母在信息中出现的概率; 计算公式并不复杂. 取以2为底的对数的道理也很简单,因为如果: 2n = X 的话,那么logX = n; 所以可以看出所谓信息熵就二进制的字符集在去掉冗余度后的二进制编码位数.冗余度是通过统计每个字符出现概率获得的。

各个字母英语中出现的频率

字母
英语中出现的频率
a
8.167%
b
1.492%
c
2.782%
d
4.253%
e
12.702%
f
2.228%
g
2.015%
h
6.094%
i
6.966%
j
0.153%
k
0.772%
l
4.025%
m
2.406%
n
6.749%
o
7.507%
p
1.929%
q
0.095%
r
5.987%
s
6.327%
t
9.056%
u
2.758%
v
0.978%
w
2.360%
x
0.150%
y
1.974%
z
0.074%

python代码实现:

import mathdef calEntropy(string):h = 0.0sumt = 0letter = [0] * 26string = string.lower()for i in range(len(string)):if string[i].isalpha():letter[ord(string[i]) - ord('a')] += 1sumt += 1print('\n', letter)for i in range(26):p = 1.0 * letter[i] / sumtif p > 0:h += -(p * math.log(p, 2))return htest = input("输入一个英文句子:")
print('\n熵为:', calEntropy(test))'''
letter = [8167,1492,2782,4253,12702,2228,2015,6094,6966,153,772,4025,2406,6749,7507,1929,95,5987,6327,9056,2758,978,2360,150,1974,74]
h = 0
for i in range(26):h += -(letter[i]/sum(letter)*math.log(letter[i]/sum(letter),2))
print(h)
'''

结果请访问: 点击打开链接

英文字母信息熵与冗余度计算Python实现相关推荐

  1. 文本相似度计算python lda_如何识别“答非所问”?使用gensim进行文本相似度计算...

    在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性. 评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的属性和 ...

  2. python英文字母转特定数字_用python实现英文字母和相应序数转换的方法

    第一步:字母转数字 英文字母转对应数字相对简单,可以在命令行输入一行需要转换的英文字母,然后对每一个字母在整个字母表中匹配,并返回相应的位数,然后累加这些位数即可.过程中,为了使结果更有可读性,输出相 ...

  3. 文本相似度计算 python去停用词_python专业方向 | 文本相似度计算

    欢迎关注我们的微信公众号"人工智能LeadAI"(ID:atleadai)步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 ...

  4. 模块度计算python代码_LPA算法C++实现及模块度计算

    前言 这学期开始看社团检测的东西,了解了一些经典算法.比如GN算法,BGLL算法(又叫Louvain, 因为该算法是作者在Louvain大学时提出的),LPA算法,等等. 我先看的LPA(毕竟算法思想 ...

  5. 模块度计算python代码_转:模块度(Modularity)与Fast Newman算法讲解与代码实现

    一.背景介绍 Modularity(模块度), 这个概念是2003年一个叫Newman的人提出的.这个人先后发表了很多关于社区划分的论文,包括2002年发表的著名的Girvan-Newman(G-N) ...

  6. 信源剩余度的计算java_冗余度计算公式

    传播信道中新闻语言的冗余度分析_职业规划_求职/职场_实用文档.传播信道中新闻语言的冗余度分析 "冗余"是外来词"redundancy"的翻译,也有人译为&qu ...

  7. python 图像识别_python图像识别之图片相似度计算

    作者 | a1131825850疯子 来源 | Python爬虫scrapy 原文 | python图像识别---------图片相似度计算 1.背景 要识别两张图片是否相似,首先我们可能会区分这两张 ...

  8. 文本相似度计算——Simhash算法(python实现)

    互联网网页存在着大量重复内容,必须有一套高效的去重算法,否则爬虫将做非常多的无用功,工作时效性无法得到保证,更重要的是用户体验也不好.业界关于文本指纹去重的算法众多,如 k-shingle 算法.go ...

  9. 各种相似度计算的python实现

    来源:本文转载地址 (注:相对转载代码 做了一些改动) 前言 在数据挖掘中有很多地方要计算相似度,比如聚类分析和协同过滤.计算相似度的有许多方法,其中有欧几里德距离.曼哈顿距离.Jaccard系数和皮 ...

  10. python统计元音字母个数_计算Python中的元音(Counting vowels in python)

    计算Python中的元音(Counting vowels in python) def main(): print(count) def countVowels(string): vowel=(&qu ...

最新文章

  1. CSS flex 用法
  2. RESTful之路由Routers
  3. 华数软件测试岗位,重磅:字节跳动与华数共同研发的电视原创视频app已正式测试上线...
  4. 入选CVPR 2022!一举打败16个同类模型,视频超分比赛冠军算法!
  5. Nginx 为什么快到根本停不下来?
  6. XML —— DTD介绍
  7. Sqlite学习笔记(五)SQLite封锁机制
  8. html5标签属性大全_HTML/HTML5 知识点思维导图
  9. win11休眠选项在哪 Windows11没有休眠选项的解决方法
  10. Module build failed (from ./node_modules/postcss-loader/src/index.js):
  11. “理论上如何”其实是主观上如何
  12. “向日葵”远程控制软件,方舟Q2硬件付费/免费功能全面评测,拔草向
  13. 创业不是 闹着玩的,水很深,
  14. CDA备考学习笔记——基础知识篇(三)
  15. 华为笔试c语言,华为笔试算法题汇总
  16. 我为什么不愿意买衣服
  17. VMWare 克隆,合并父盘
  18. MAC-MAC-MAC-MAC
  19. js中如何截取小数点后两位数字
  20. 设计师如何摆脱设计思维的局限

热门文章

  1. python traceback报错_Python traceback.print_exc()返回’None’
  2. 楼盘管理系统_秦皇岛全新交通大动脉迎官宣 沉寂的潜力楼盘迎抄底窗口
  3. python flask_Python Flask框架详解
  4. mysql 5.1 开启慢查询_mysql开启慢查询
  5. android studio继承关系,Android Studio中查看类的继承关系
  6. 因为此网站使用了 hsts_HSTS原理及实践
  7. Python:学习笔记
  8. Oracle 11g ora 15018,OracleASM错误之--ORA-15031、ORA-15014
  9. php 图片水印删除,PHP图片水印
  10. java基础知识总结(经典)_Java基础知识总结(超级经典)(三)