Python库collections中的计数器(Counter)
一、模块概述
1、模块作用
官方说法:collections模块实现了特定目标的容器,以提供Python标准内建容器dict ,list , set , 和tuple的替代选择。
通俗说法:Python内置的数据类型和方法,collections模块在这些内置类型的基础提供了额外的高性能数据类型,比如基础的字典是不支持顺序的,collections模块的OrderedDict类构建的字典可以支持顺序,collections模块的这些扩展的类用处非常大,熟练掌握该模块,可以大大简化Python代码,提高Python代码逼格和效率,高手入门必备。
2、模块子类
用collections.__all__查看所有的子类,一共包含9个
import collections
print(collections.__all__)
这个模块实现了特定目标的容器,以提供Python标准内建容器dict , list , set , 和tuple 的替代选择。
namedtuple() | 创建命名元组子类的工厂函数,生成可以使用名字来访问元素内容的tuple子类 |
deque | 类似列表(list)的容器,实现了在两端快速添加(append)和弹出(pop) |
ChainMap | 类似字典(dict)的容器类,将多个映射集合到一个视图里面 |
Counter | 字典的子类,提供了可哈希对象的计数功能 |
OrderedDict | 字典的子类,保存了他们被添加的顺序,有序字典 |
defaultdict | 字典的子类,提供了一个工厂函数,为字典查询提供一个默认值 |
UserDict | 封装了字典对象,简化了字典子类化 |
UserList | 封装了列表对象,简化了列表子类化 |
UserString | 封装了字符串对象,简化了字符串子类化(中文版翻译有误) |
计数器-Counter
1、基础介绍
一个计数器工具提供快速和方便的计数,Counter是一个dict的子类,用于计数可哈希对象。它是一个集合,元素像字典键(key)一样存储,它们的计数存储为值。计数可以是任何整数值,包括0和负数,Counter类有点像其他语言中的bags或multisets。简单说,就是可以统计计数,来几个例子看看就清楚了,比如
#计算top5的单词
from collections import Counter
import re
text = 'remove an existing key one level down remove an existing key one level down'
words = re.findall(r'\w+', text)
Counter(words).most_common(5)
#计算列表中单词的个数
cnt = Counter()
for word in ['red', 'blue', 'red', 'green', 'blue', 'blue']:cnt[word] += 1
cnt
#上述这样计算有点嘛,下面的方法更简单,直接计算就行
L = ['red', 'blue', 'red', 'green', 'blue', 'blue']
Counter(L)
元素从一个iterable 被计数或从其他的mapping (or counter)初始化:
from collections import Counter#字符串计数
Counter('gallahad')
#字典计数
Counter({'red': 4, 'blue': 2})
#是个啥的计数
Counter(cats=4, dogs=8)
Counter(['red', 'blue', 'red', 'green', 'blue', 'blue'])
1、elements()
描述:返回一个迭代器,其中每个元素将重复出现计数值所指定次。 元素会按首次出现的顺序返回。 如果一个元素的计数值小于1,elements() 将会忽略它。
语法:elements( )
c = Counter(a=4, b=2, c=0, d=-2)
list(c.elements())
#['a', 'a', 'a', 'a', 'b', 'b']sorted(c.elements())
3['a', 'a', 'a', 'a', 'b', 'b']c = Counter(a=4, b=2, c=0, d=5)
list(c.elements())
#['a', 'a', 'a', 'a', 'b', 'b', 'd', 'd', 'd', 'd', 'd']
2、most_common()
返回一个列表,其中包含n个最常见的元素及出现次数,按常见程度由高到低排序。 如果 n 被省略或为None,most_common() 将返回计数器中的所有元素,计数值相等的元素按首次出现的顺序排序,经常用来计算top词频的词语。
Counter('abracadabra').most_common(3)
#[('a', 5), ('b', 2), ('r', 2)]Counter('abracadabra').most_common(5)
3[('a', 5), ('b', 2), ('r', 2), ('c', 1), ('d', 1)]
3、subtract()
从迭代对象或映射对象减去元素。像dict.update() 但是是减去,而不是替换。输入和输出都可以是0或者负数。
c = Counter(a=4, b=2, c=0, d=-2)
d = Counter(a=1, b=2, c=3, d=4)
c.subtract(d)
c
#Counter({'a': 3, 'b': 0, 'c': -3, 'd': -6})#减去一个abcd
str0 = Counter('aabbccdde')
str0
#Counter({'a': 2, 'b': 2, 'c': 2, 'd': 2, 'e': 1})str0.subtract('abcd')
str0
#Counter({'a': 1, 'b': 1, 'c': 1, 'd': 1, 'e': 1}
4、字典方法
通常字典方法都可用于Counter对象,除了有两个方法工作方式与字典并不相同。
fromkeys(iterable)
这个类方法没有在Counter中实现。
update([iterable-or-mapping])
从迭代对象计数元素或者从另一个映射对象 (或计数器) 添加。 像 dict.update() 但是是加上,而不是替换。另外,迭代对象应该是序列元素,而不是一个 (key, value) 对。
sum(c.values()) # total of all counts
c.clear() # reset all counts
list(c) # list unique elements
set(c) # convert to a set
dict(c) # convert to a regular dictionary
c.items() # convert to a list of (elem, cnt) pairs
Counter(dict(list_of_pairs)) # convert from a list of (elem, cnt) pairs
c.most_common()[:-n-1:-1] # n least common elements
+c # remove zero and negative counts
5、数学操作
这个功能非常强大,提供了几个数学操作,可以结合 Counter 对象,以生产 multisets (计数器中大于0的元素)。 加和减,结合计数器,通过加上或者减去元素的相应计数。交集和并集返回相应计数的最小或最大值。每种操作都可以接受带符号的计数,但是输出会忽略掉结果为零或者小于零的计数。
c = Counter(a=3, b=1)
d = Counter(a=1, b=2)
c + d # add two counters together: c[x] + d[x]
#Counter({'a': 4, 'b': 3})
c - d # subtract (keeping only positive counts)
#Counter({'a': 2})
c & d # intersection: min(c[x], d[x])
#Counter({'a': 1, 'b': 1})
c | d # union: max(c[x], d[x])
#Counter({'a': 3, 'b': 2})
单目加和减(一元操作符)意思是从空计数器加或者减去。
c = Counter(a=2, b=-4)
+c
#Counter({'a': 2})
-c
#Counter({'b': 4})
写一个计算文本相似的算法,加权相似
def str_sim(str_0,str_1,topn):topn = int(topn)collect0 = Counter(dict(Counter(str_0).most_common(topn)))collect1 = Counter(dict(Counter(str_1).most_common(topn))) jiao = collect0 & collect1bing = collect0 | collect1 sim = float(sum(jiao.values()))/float(sum(bing.values())) return(sim) str_0 = '定位手机定位汽车定位GPS定位人定位位置查询'
str_1 = '导航定位手机定位汽车定位GPS定位人定位位置查询' str_sim(str_0,str_1,5)
#0.75
Python库collections中的计数器(Counter)相关推荐
- 【万字长文详解】Python库collections,让你击败99%的Pythoner
Python的collections库实现了特定目标的容器,以提供Python标准内建容器 dict , list , set , 和 tuple 的替代选择. 为很多用其他方法很难实现的场景提供了解 ...
- Python标准库collections中与字典有关的类
Python标准库中提供了很多扩展功能,大幅度提高了开发效率.这里主要介绍OrderedDict类.defaultdict类和Counter类. (1)OrderedDict类 Python内置字典d ...
- python库-collections模块Counter类
Counter类主要是用来跟踪值出现的次数.它是一个无序的容器类型,以字典的键值对形式存储,其中元素作为key,其计数作为value. demo: all_words = [] # 列表里面是汉字(可 ...
- python dict根据value找对应的key_一个不得不了解的Python库——collections
基本介绍 Python拥有一些内置的数据类型,比如str, int, list, tuple, dict等, collections模块在这些内置数据类型的基础上,提供了几个额外的数据类型,如下.这些 ...
- python deque函数_一个不得不了解的Python库——collections
基本介绍 Python拥有一些内置的数据类型,比如str, int, list, tuple, dict等, collections模块在这些内置数据类型的基础上,提供了几个额外的数据类型,如下.这些 ...
- 怎么在cmd中安装python库_cmd中安装python库时出现的错误
Pycharm 中You are using pip version 10.0.1, however version 18.1 is available. You should consider up ...
- Python标准库collections库:超好用的counter计数器,不接受反驳!
collections是python的标准库,它提供了一些解决特定问题的容器,也就是说有些问题虽然可以用list,tuple,dict解决,但解决起来太麻烦,而这些问题又经常遇到,所以他们就把这些问题 ...
- Python标准库——collections模块的Counter类
更多16 最近在看一本名叫<Python Algorithm: Mastering Basic Algorithms in the Python Language>的书,刚好看到提到这个C ...
- 【Python基础】Python之collections库-Counter
一.模块概述 1.模块作用 官方说法:collections模块实现了特定目标的容器,以提供Python标准内建容器dict ,list , set , 和tuple的替代选择. 通俗说法:Pytho ...
- python中collections中的counter类_了解Python的collections.Counter类型
python视频教程栏目介绍Python的collections.Counter类型. collections.Counter 类型可以用来给可散列的对象计数,或者是当成多重集合来使用 -- 多重集合 ...
最新文章
- 紘康单片机_紘康HY11P14 - SOC芯片 - 产品展示 - SOC芯片_IC芯片pcba开发_深圳市联泰威电子有限公司...
- c 提取引号中间的字符串_Python | 一文看懂Python列表、元组和字符串操作
- php xorcrevasse,XorEncrypt
- this.$modal.confirm 自定义按钮关闭_自定义函数,让你玩转Excel得心应手
- oracle 用户创建日期,oracle限制一个用户空闲时间
- Java排序算法——冒泡排序(Bubble Sort)
- 算法竞赛入门经典—C++入门
- 三星手机服务器暂时不可用是怎么回事,三星手机用户注意了!三星云将于2017年1月20日起停止服务...
- linux基础-命令
- 树莓派实战:微信机器人(itchat实现)
- 欧姆龙OMRON PLC之HostLink通讯协议(五)- CP1H以太网FINS/TCP通讯实例
- linux系统ubuntu
- 路由 OSPF常见4种网络类型MA、P2P、NBMA、P2MP、OSPF报头字段信息简介。
- 在网络中 计算机输出的信号是,2019陕西国家电网校园招聘计算机类笔试:计算机网络自测四...
- 考研逻辑整理 - 类比推理和归纳推理
- 不用写代码的Android 2D RPG游戏引擎
- 中国电容器介质膜市场行业规模分析与十四五发展规划报告2022~2028年
- 停车场管理系统 php,C语言源码实现停车场管理系统
- 快学起这4类智能图形,玩转PPT!
- 建筑CAD基础设计【4】