作为一个最狂热的果粉,喜欢用苹果来播放自己最爱的音乐,随时让音乐充满自己的生活。想统计自己哪些音乐才是自己最爱吗?想知道哪些音乐是自己第一次听见就相伴终身吗?下面用Python来完成您的心愿。

解析iTunes播放列表

项目在iTunes播放列表文件中查找重复的乐曲音轨,并绘制各种统计数据,如音轨长度和评分。你可以从查看iTunes播放列表格式开始,然后学习如何用Python提取这些文件的信息。为了绘制这些数据,要用到matplotlib库。

在这个项目中,我们将学习以下主题:

XML和属性列表(p-list)文件;Python列表和字典;使用Python的set对象;使用numpy数组;直方图和散点图;用matplotlib库绘制简单的图;创建和保存数据文件。iTunes播放列表文件剖析

iTunes资料库中的信息可以导出为播放列表文件(在iTunes中选择FileLibraryExport Playlist)。播放列表文件以可扩展标记语言(XML)写成,这是一种基于文本的语言,旨在分层表示基于文本的信息。它包括一些用户定义的标签所构成的树状集合,标签形如,每个标签可以有一些属性和子标签,其中包含附加的信息。

如果在文本编辑器中打开一个播放列表文件,你会看到类似这样的简化版本:

<?xml version="1.0" encoding="UTF-8"?>① ② ③ ④ Major Version1  Minor Version1  --snip--⑤ Tracks    2438    Track ID2438  NameYesterday  ArtistThe Beatles  ComposerLennon [John], McCartney [Paul]  AlbumHelp!    --snip--  ⑥ Playlists      NameNow  Playlist ID21348  --snip--      Track ID6382    --snip--         

属性列表(P-list)文件将对象表示为字典, 和 标签与这种方式有关。字典是把键和值关联起来的数据结构,让查找值变得容易。属性列表文件使用字典的字典,其中和键关联的值往往自身又是另一个词典(甚至一个字典列表)。

标签确定文件为XML文件。在这个开始标签之后,文档类型定义(DTD)定义了XML文档的结构①。如你所见,苹果在该标签中的统一资源定位符(URL)中定义了这种结构。

在②行,文件声明了顶层标签,其唯一子元素是字典 ③。该字典包含了各种键,在④行,包括Major Version、Minor Version,等等,但我们的兴趣在⑤行的Tracks键。注意,该键对应的值也是一个字典,它将整数的音轨ID映射到另一个字典,其中包含Name、Artist等元素。音乐收藏中的每个音轨都有唯一的音轨ID键。

播放列表顺序在⑥行由Playlists定义,它是顶层字典的一个子节点。

1.2 所需模块

在这个项目中,我们用内置模块plistlib来读取播放列表文件。我们还用matplotlib库来绘图,用numpy的数组来存储数据。

代码

该项目的目标是找到你的音乐收藏中的重复乐曲,确定播放列表之间共同的音轨,绘制音轨时长的分布图,以及歌曲评分和时长之间的关系图。

随着音乐收藏不断增加,你总会遇到重复的乐曲。为了确定重复的乐曲,查找与Tracks键关联的字典中的名称(前面讨论过),找到重复的乐曲,并用音轨长度作为附加准则来检测重复的乐曲,因为名称相同、但长度不同的音轨,可能是不一样的。

要找到两个或多个播放列表之间共同的音轨,你需要将音乐收藏导出为播放列表文件,收集每个播放列表的音轨名称,作为集合进行比较,通过发现集合的交集来找到共同的音轨。

在收集音乐收藏数据的同时,我们将使用强大的matplotlib绘图软件包来创建一些图,该软件包由已故的John Hunter开发。我们可以绘制直方图来显示音轨时长的分布,绘制散点图来比较乐曲评分与长度。

要查看完整的项目代码,请直接跳到1.4节。

查找重复

首先可以用findDuplicates()方法来查找重复的曲目,如下所示:

def findDuplicates(fileName):  print('Finding duplicate tracks in %s...' % fileName)  # read in a playlist① plist = plistlib.readPlist(fileName)  # get the tracks from the Tracks dictionary② tracks = plist['Tracks']  # create a track name dictionary③ trackNames = {}  # iterate through the tracks④ for trackId, track in tracks.items():  try:⑤ name = track['Name']  duration = track['Total Time']  # look for existing entries⑥ if name in trackNames:  # if a name and duration match, increment the count  # round the track length to the nearest second⑦ if duration//1000 == trackNames[name][0]//1000:  count = trackNames[name][1]⑧ trackNames[name] = (duration, count+1)  else:  # add dictionary entry as tuple (duration, count)⑨ trackNames[name] = (duration, 1)  except:  # ignore  pass

在①行,readPlist()方法接受一个p-list文件作为输入,并返回顶层字典。在②行,访问Tracks字典,在③行,创建一个空的字典,用来保存重复的乐曲。在④行,开始用items()方法迭代Tracks字典,这是Python在迭代字典时取得键和值的常用方法。

在⑤行,取得字典中每个音轨的名称和时长。用in关键字,检查当前乐曲的名称是否已在被构建的字典中⑥。如果是这样的,程序检查现有的音轨和新发现的音轨长度是否相同⑦,用//操作符,将每个音轨长度除以1000,由毫秒转换为秒,并四舍五入到最接近的秒,以进行检查(当然,这意味着,只有毫秒差异的两个音轨被认为是相同的)。如果确定这两个音轨长度相等,就取得与name关联的值,这是(duration,count)元组,并在⑧行增加计数。如果这是程序第一次遇到的音轨名称,就创建一个新条目,count为1⑨。

将代码的主for循环放在try语句块中,这是因为一些乐曲音轨可能没有定义乐曲名称。在这种情况下,跳过该音轨,在except部分只包含pass(什么也不做)。

提取重复

利用以下代码,提取重复的音轨:

# store duplicates as (name, count) tuples① dups = []  for k, v in trackNames.items():② if v[1] > 1:  dups.append((v[1], k))  # save duplicates to a file③ if len(dups) > 0:  print("Found %d duplicates. Track names saved to dup.txt" % len(dups))  else:  print("No duplicate tracks found!")④ f = open("dups.txt", "w")  for val in dups:⑤ f.write("[%d] %s\n" % (val[0], val[1]))  f.close()

在①行,创建一个空列表,保存重复乐曲。接下来,迭代遍历trackNames字典,如果count(用v[1]访问,因为它是元组的第二个元素)大于1②,则将元组(name,count)添加到列表中。在③行,程序打印它找到的信息,然后用open()方法将信息存入文件④。在⑤行,迭代遍历dups列表,写下重复的条目。

1.3.3 查找多个播放列表中共同的音轨

现在,让我们来看看如何找到多个播放列表中共同的乐曲音轨:

def findCommonTracks(fileNames):  # a list of sets of track names① trackNameSets = []  for fileName in fileNames:  # create a new set② trackNames = set()  # read in playlist③ plist = plistlib.readPlist(fileName)  # get the tracks  tracks = plist['Tracks']  # iterate through the tracks  for trackId, track in tracks.items():  try:  # add the track name to a set④ trackNames.add(track['Name'])  except:  # ignore  pass  # add to list⑤ trackNameSets.append(trackNames)  # get the set of common tracks⑥ commonTracks = set.intersection(*trackNameSets)  # write to file  if len(commonTracks) > 0:⑦ f = open("common.txt", "w")  for val in commonTracks:  s = "%s\n" % val⑧ f.write(s.encode("UTF-8"))  f.close()  print("%d common tracks found. "  "Track names written to common.txt." % len(commonTracks))  else:  print("No common tracks!")首先,将播放列表的文件名列表传入findCommonTracks(),它创建一个空列表①,保存从每个播放列表创建的一组对象。然后程序迭代遍历列表中的每个文件。对每个文件,创建一个名为trackNames的Python set对象②,然后像在findDuplicates()中一样,用plistlib读入文件③,取得Tracks字典。接下来,迭代遍历该字典中的每个音轨,并添加trackNames对象④。程序读完一个文件中的所有音轨后,将这个集合加入trackNameSets⑤。

在⑥行,使用set.intersection()方法来获得集合之间共同音轨的集合(用Python*的运算符来展开参数列表)。如果程序发现集合之间的共同音轨,就将音轨名称写入一个文件。在⑦行,打开文件,接下来的两行代码完成写入。使用encode()来格式化输出,确保所有Unicode字符都正确处理⑧。

1.3.4 收集统计信息

接下来,用plotStats()方法,针对这些音轨名称收集统计信息:

def plotStats(fileName):  # read in a playlist① plist = plistlib.readPlist(fileName)  # get the tracks from the playlist  tracks = plist['Tracks']  # create lists of song ratings and track durations② ratings = []  durations = []  # iterate through the tracks  for trackId, track in tracks.items():  try:③ ratings.append(track['Album Rating'])  durations.append(track['Total Time'])  except:  # ignore  pass  # ensure that valid data was collected④ if ratings == [] or durations == []:  print("No valid Album Rating/Total Time data in %s." % fileName)  return

这里的目标是收集评分和音轨时长,然后画一些图。在①行和接下来的代码行中,读取了播放列表文件,并访问Tracks字典。接下来,创建两个空列表,保存评分和时长②(在iTunes播放列表中,评分是一个整数,范围是[0,100])。迭代遍历音轨,在③行,将评分和时长添加到相应的列表中。最后,在④行检查完整性,确保从播放列表文件收集了有效数据。

绘制数据

我们已准备好绘制一些数据了。

# scatter plot① x = np.array(durations, np.int32)  # convert to minutes② x = x/60000.0③ y = np.array(ratings, np.int32)④ pyplot.subplot(2, 1, 1)⑤ pyplot.plot(x, y, 'o')⑥ pyplot.axis([0, 1.05*np.max(x), -1, 110])⑦ pyplot.xlabel('Track duration')⑧ pyplot.ylabel('Track rating')  # plot histogram  pyplot.subplot(2, 1, 2)⑨ pyplot.hist(x, bins=20)  pyplot.xlabel('Track duration')  pyplot.ylabel('Count')  # show plot⑩ pyplot.show()

在①行,利用numpy.array()(在代码中作为np导入),将音轨时长数据放到32位整数数组中。然后在②行,利用numpy,将一个操作应用于数组中的每个元素。在这个例子中,将每个以毫秒为单位的时长值除以值60×1000。在③行,将乐曲评分保存另一个numpy数组y中。

用matplotlib在同一图像上绘制两张图。在④行,提供给subplot()的参数(即,(2, 1, 1))告诉matplotlib,该图应该有两行(2)一列(1),且下一个点应在第一行(1)。在⑤行,通过调用plot()创建一个点,并且o告诉matplotlib用圆圈来表示数据。

在⑥行,为 x轴和 y轴设置略微大一点儿的范围,以便在图和轴之间留一些空间。在⑦和⑧行,为 x轴和 y轴设置说明文字。

现在用matplotlib的方法hist(),在同一张图中的第二行中,绘制时长直方图⑨。bins参数设置了数据分区的个数,其中每分区用于添加在这个范围内的计数。最后,调用show()⑩,matplotlib在新窗口中显示出漂亮的图。

命令行选项

现在,我们来看看该程序的main()方法如何处理命令行参数:

def main():  # create parser  descStr = """  This program analyzes playlist files (.xml) exported from iTunes.  """① parser = argparse.ArgumentParser(description=descStr)  # add a mutually exclusive group of arguments② group = parser.add_mutually_exclusive_group()  # add expected arguments③ group.add_argument('--common', nargs='*', dest='plFiles', required=False)④ group.add_argument('--stats', dest='plFile', required=False)⑤ group.add_argument('--dup', dest='plFileD', required=False)  # parse args⑥ args = parser.parse_args()  if args.plFiles:  # find common tracks  findCommonTracks(args.plFiles)  elif args.plFile:  # plot stats  plotStats(args.plFile)  elif args.plFileD:  # find duplicate tracks  findDuplicates(args.plFileD)  else:⑦ print("These are not the tracks you are looking for.")

本书的大多数项目都有命令行参数。不要尝试手工分析它们并搞得一团糟,要将这个日常的任务委派给Python的argparse模块。在①行,为此创建了一个ArgumentParser对象。该程序可以做三件不同的事情,如发现播放列表之间的共同音轨,绘制统计数据,或发现播放列表中重复的曲目。但是,一个时间程序只能做其中一件事,如果用户决定同时指定两个或多个选项,我们不希望它崩溃。argparse模块为这个问题提供了一个解决方案,即相互排斥的参数分组。在②行,用parser.add_mutually_exclusive_group()方法来创建这样一个分组。

在③、④和⑤行,指定了前面提到的命令行选项,并输入应该将解析值存入的变量名(args.plFiles、args.plFile和args.plFileD),实际解析在⑥行完成。参数解析后,就将它们传递给相应的函数,findCommonTracks()、plotStats()和findDuplicates(),本章前面讨论过这些函数。

要查看参数是否被解析,就测试args中相应的变量名。例如,如果用户没有使用--common选项(该选项找出播放列表之间的共同音轨),解析后args.plFiles应该设置为None。

在⑦行,处理用户未输入任何参数的情况。

完整代码

下面是完整的程序。你也可以找到本项目的代码和一些测试数据。

import re, argparseimport sysfrom matplotlib import pyplotimport plistlibimport numpy as npdef findCommonTracks(fileNames): """ Find common tracks in given playlist files, and save them to common.txt. """ # a list of sets of track names trackNameSets = [] for fileName in fileNames: # create a new set trackNames = set() # read in playlist plist = plistlib.readPlist(fileName) # get the tracks tracks = plist['Tracks'] # iterate through the tracks for trackId, track in tracks.items(): try: # add the track name to a set trackNames.add(track['Name']) except: # ignore pass # add to list trackNameSets.append(trackNames) # get the set of common tracks commonTracks = set.intersection(*trackNameSets) # write to file if len(commonTracks) > 0: f = open("common.txt", 'w') for val in commonTracks: s = "%s\n" % val f.write(s.encode("UTF-8")) f.close() print("%d common tracks found. " "Track names written to common.txt." % len(commonTracks)) else: print("No common tracks!") def plotStats(fileName): """ Plot some statistics by reading track information from playlist. """ # read in a playlist plist = plistlib.readPlist(fileName) # get the tracks from the playlist tracks = plist['Tracks'] # create lists of song ratings and track durations ratings = [] durations = [] # iterate through the tracks for trackId, track in tracks.items(): try: ratings.append(track['Album Rating']) durations.append(track['Total Time']) except: # ignore pass # ensure that valid data was collected if ratings == [] or durations == []: print("No valid Album Rating/Total Time data in %s." % fileName) return # scatter plot x= np.array(durations, np.int32) # convert to minutes x = x/60000.0 y = np.array(ratings, np.int32) pyplot.subplot(2, 1, 1) pyplot.plot(x, y, 'o') pyplot.axis([0, 1.05*np.max(x), -1, 110]) pyplot.xlabel('Track duration') pyplot.ylabel('Track rating') # plot histogram pyplot.subplot(2, 1, 2) pyplot.hist(x, bins=20) pyplot.xlabel('Track duration') pyplot.ylabel('Count') # show plot pyplot.show() def findDuplicates(fileName): """ Find duplicate tracks in given playlist. """ print('Finding duplicate tracks in %s...' % fileName) # read in playlist plist = plistlib.readPlist(fileName) # get the tracks from the Tracks dictionary tracks = plist['Tracks'] # create a track name dictionary trackNames = {} # iterate through tracks for trackId, track in tracks.items(): try: name = track['Name'] duration = track['Total Time'] # look for existing entries if name in trackNames: # if a name and duration match, increment the count # round the track length to the nearest second if duration//1000 == trackNames[name][0]//1000: count = trackNames[name][1] trackNames[name] = (duration, count+1) else: # add dictionary entry as tuple (duration, count) trackNames[name] = (duration, 1) except: # ignore pass # store duplicates as (name, count) tuples dups = [] for k, v in trackNames.items(): if v[1] > 1: dups.append((v[1], k)) # save duplicates to a file if len(dups) > 0: print("Found %d duplicates. Track names saved to dup.txt" % len(dups)) else: print("No duplicate tracks found!") f = open("dups.txt", 'w') for val in dups: f.write("[%d] %s\n" % (val[0], val[1])) f.close() # gather our code in a main() function def main(): # create parser descStr = """ This program analyzes playlist files (.xml) exported from iTunes. """ parser = argparse.ArgumentParser(description=descStr) # add a mutually exclusive group of arguments group = parser.add_mutually_exclusive_group() # add expected arguments group.add_argument('--common', nargs='*', dest='plFiles', required=False) group.add_argument('--stats', dest='plFile', required=False) group.add_argument('--dup', dest='plFileD', required=False) # parse args args = parser.parse_args() if args.plFiles: # find common tracks findCommonTracks(args.plFiles) elif args.plFile: # plot stats plotStats(args.plFile) elif args.plFileD: # find duplicate tracks findDuplicates(args.plFileD) else: print("These are not the tracks you are looking for.")# main methodif __name__ == '__main__': main()

运行程序

下面是该程序的运行示例:

$ python playlist.py --common test-data/maya.xml test-data/rating.xml

下面是输出:

5 common tracks found. Track names written to common.txt.$ cat common.txtGod Shuffled His FeetRubricFloeStairway To HeavenPi's Lullabymoksha:playlist mahesh$现在,让我们绘制这些音轨的一些统计数据。

$ python playlist.py --stats test-data/rating.xml

图1-1展示了这次运行的输出。

图1-1 playlist.py运行示例

小结

在这个项目中,我们开发了一个程序,分析了iTunes播放列表。在这个过程中,我们学习了一些有用的Python结构。在接下来的项目中,你将基于这里介绍的一些基础知识,探索各种有趣的主题,深入地研究Python。

五分钟学会python_果粉有福了!5分钟学会用Python统计自己最爱听的音乐相关推荐

  1. python xml 创建多个同名子节点_果粉有福了!5分钟学会用Python统计自己最爱听的音乐...

    作为一个最狂热的果粉,喜欢用苹果来播放自己最爱的音乐,随时让音乐充满自己的生活.想统计自己哪些音乐才是自己最爱吗?想知道哪些音乐是自己第一次听见就相伴终身吗?下面用Python来完成您的心愿. 下面的 ...

  2. 1分钟学会python_快速入门:十分钟学会Python

    类 Python支持有限的多继承形式.私有变量和方法可以通过添加至少两个前导下划线和最多尾随一个下划线的形式进行声明(如"__spam",这只是惯例,而不是Python的强制要求) ...

  3. 怎样快速学会python_零基础怎样才能系统快速的学会Python?

    2).要学哪些东西? 3).怎样学? 1.选择好python学习方向 我要学习python的目的不是为了解这门语言,而是为了要学会运用这门语言来解决问题. 但python的应用方向,实在太广了.在py ...

  4. 初创公司要严控会议时长,日会5-15分钟,周会不超30分钟

    初创公司要严控会议时长,日会5-15分钟,周会不超30分钟,月会不超1小时,季会不超2小时   产品部门.市场部门和职能部门是必备的,职能部门可以招聘.行政.人事.财务以财务为优先   10人以下的团 ...

  5. IEEE 回应禁止华为系审稿人;WiFi联盟、蓝牙联盟已恢复华为成员资格;中国计算机学会:暂时中止与IEEE通信学会合作……...

    戳蓝字"CSDN云计算"关注我们哦! 嗨,大家好,重磅君带来的[云重磅]特别栏目,如期而至,每周五第一时间为大家带来重磅新闻.把握技术风向标,了解行业应用与实践,就交给我重磅君吧! ...

  6. 作者:杜圣东(1981-),男,西南交通大学信息科学与技术学院讲师,中国计算机学会(CCF)和国际计算机学会(ACM)会员。...

    杜圣东(1981-),男,西南交通大学信息科学与技术学院讲师,中国计算机学会(CCF)和国际计算机学会(ACM)会员,主要研究方向为数据挖掘.机器学习.交通大数据.医疗大数据等.

  7. AI火爆干货最全整理!五套深度学习和算法学习教程和三套Python学习视频!!!限时无套路免费领取!...

    点击蓝色"AI专栏"关注我哟 选择"星标",重磅干货,第一时间送达 这是站长第 31 期免费送丰富宝贵的干货资源与教程 本期绝对是满满的干货! 获取更多资源请关 ...

  8. 思考题:现在有4分钟的沙漏和7分钟的沙漏,如何计算出9分钟的时间

    思考题:现在有4分钟的沙漏和7分钟的沙漏,如何计算出9分钟的时间   4分钟沙漏,即里面的沙子需要4分钟才能漏完:同理,7分钟沙漏也是如此. 文字版思路: 第0分钟:4分钟沙漏和7分钟沙漏同时开始: ...

  9. 计算机音乐简单好听,电脑上好听的歌怎么录制,教你2分钟,截取你爱听的声音...

    原标题:电脑上好听的歌怎么录制,教你2分钟,截取你爱听的声音 我们日常生活中我们用电脑玩游戏,看短视频,总会有一些动人的歌曲或者旋律,你用音乐识别有时候还识别不出来,可能你会用手机把它录制下来,这样估 ...

最新文章

  1. 开源项目中成长:从实习小白到核心开发者
  2. java中单例设计模式
  3. [剑指offer]8.重建二叉树
  4. memcache运行机制(转)
  5. IL2CPP的优化 : Devirtualization 去虚拟化
  6. mysql通过集合查询_MySQL使用集合函数进行查询操作实例详解
  7. 巧用这些可视化分析工具,让你的工作效率提升50%!
  8. 草稿django添加自定义模板代码的用法
  9. redhad6.4 配置在线yum源
  10. dibbler-server安装配置
  11. 其实华为手机按下这个按钮,还能自动清理内存垃圾,真是厉害了
  12. 企业级数据服务总线规划
  13. Docker官方文档阅读笔记
  14. WIN7系统旗舰版安装
  15. 梦想在三十岁起航!__来自黑马程序员69期安卓班的学员
  16. 手机问题点整理和总结
  17. 目前微型计算机主要采用电子原件是,目前,个人计算机使用的电子元器件主要是()。...
  18. 信捷plc485通信上位机_三菱FX3U编程口通信上位机QT实现
  19. 从数据类型 varchar 转换为 numeric 时出错
  20. 虚拟主机怎么搭建网站(如何搭建自己虚拟主机)

热门文章

  1. Linux shell的输入输出
  2. eclipse打不开,提示出现“eclipse发生了错误,请参阅日志文件”
  3. 底物的分子描述符计算及 CYP450 酶-底物选择性技术研究
  4. C语言斐波那切数列数列求和
  5. 测试员入职新公司如何快速熟悉新业务?
  6. 基于多视角照片的3D人脸重建
  7. 跟着小马哥学习Spring(1)
  8. 奥马电器赵国栋转让股份兜底钱包金融展期项目,奥马获国资输血
  9. 炎颂科技管理系统软件——助力商协会“互联网+”之路
  10. Python第三课:列表,元组,集合