Google AudioSet-谷歌语音数据集如何解析
Google Audio Set是谷歌提供的语音数据集,对于语音相关的AI学习和研究有着至关重要的作用
因为身处长城之内,故从谷歌官网搬运该数据集的介绍、下载,及解析格式
数据集简介
AudioSet由632个音频事件类的扩展本体和从YouTube视频中提取的2084320个标记为10秒的声音片段组成,涵盖了人类和动物的各种声音、乐器和流派以及常见的日常环境声音。
二百一十万
annotated videos
5.8 k 小时音频
hours of audio
527 个类别
of annotated sounds
下载方式见https://blog.csdn.net/qq_39437746/article/details/80793476
下面是tfrecord文件的具体解析格式
Features dataset
Frame-level features are stored as tensorflow.SequenceExample protocol buffers. A tensorflow.SequenceExample proto is reproduced here in text format:context: {feature: {key : "video_id"value: {bytes_list: {value: [YouTube video id string]}}}feature: {key : "start_time_seconds"value: {float_list: {value: 6.0}}}feature: {key : "end_time_seconds"value: {float_list: {value: 16.0}}}feature: {key : "labels"value: {int64_list: {value: [1, 522, 11, 172] # The meaning of the labels can be found here.}}}
}
feature_lists: {feature_list: {key : "audio_embedding"value: {feature: {bytes_list: {value: [128 8bit quantized features]}}feature: {bytes_list: {value: [128 8bit quantized features]}}}... # Repeated for every second of the segment}}
tfRecord解析代码
def getParseData(filenames):# filenames = 'audioset_v1_embeddings/bal_train/5v.tfrecord'raw_dataset = tf.data.TFRecordDataset(filenames)# for raw_single in raw_dataset:# print(repr(raw_single))# #查看feature# for raw_record in raw_dataset.take(1):# example = tf.train.Example()# example.ParseFromString(raw_record.numpy())# print(example)context_feature = {"video_id": tf.io.FixedLenFeature([], tf.string),'labels': tf.io.VarLenFeature(tf.int64),'end_time_seconds': tf.io.FixedLenFeature([], tf.float32),'start_time_seconds': tf.io.FixedLenFeature([], tf.float32)}sequence_feature = {'audio_embedding': tf.io.FixedLenSequenceFeature(shape=[], dtype=tf.string, allow_missing=True)}def _parse_function(example_proto):return tf.io.parse_single_sequence_example(example_proto, context_feature, sequence_feature)
Google AudioSet-谷歌语音数据集如何解析相关推荐
- 谷歌语音转录背后的神经网络
谷歌语音转录背后的神经网络 谷歌神经网络深度学习语言识别 width="22" height="16" src="http://hits.sin ...
- 谷歌语音对接-GoogleAssistant-smart-home
谷歌语音对接-GoogleAssistant-smart-home 谷歌语音对接-GoogleAssistant-smart-home 官方文档 音响使用步骤 一 google home mini 入 ...
- 1400小时开源语音数据集,你想要都在这儿
整理 | 一一 出品 | AI科技大本营(ID:rgznai100) 3 月 1 日,由 Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名 ...
- 谷歌推出数据集搜索专用引擎Dataset Search
谷歌推出数据集搜索专用引擎Dataset Search 9 月 5 日,谷歌发布了一个帮助研究者查找在线数据的免费搜索引擎 Dataset Search.谷歌表示,该引擎面向「科学家.数据记者.数据极 ...
- Dataset之谷歌地图数据集:谷歌地图数据集的简介、安装、使用方法之详细攻略
Dataset之谷歌地图数据集:谷歌地图数据集的简介.安装.使用方法之详细攻略 目录 谷歌地图数据集的简介 谷歌地图数据集的安装 谷歌地图数据集的使用方法 谷歌地图数据集的简介 谷歌地图中的1000多 ...
- 嘘!你与谷歌语音助手的对话,可能已经泄露……
要闻聚焦 1.你与谷歌语音助手的对话,可能已经泄露-- 2.外媒看中关村:正在改变中国,谋求改变世界 3.网约车司机行车途中玩手机.剪指甲,滴滴:已暂停其服务账号 4.改名大法好:瑞安航空将波音737 ...
- 安卓调用系统语音识别功能全解(谷歌语音服务):获取识别结果,使用语音识别进行搜索。
全栈工程师开发手册 (作者:栾鹏) 安卓教程全解 安卓调用系统语音识别功能全解(谷歌语音服务):获取识别结果,使用语音识别进行搜索. 首先要添加权限 <uses-permission andro ...
- 关于Google翻译和语音朗读功能无法正常使用的说明
关于Google翻译和语音朗读功能无法正常使用的说明 2022年10月1日,Google突然停止了Google翻译在中国大陆的业务,不再向中国大陆区域提供翻译服务,官方给出的理由是"因为使用 ...
- SitePoint播客40:Google的谷歌
Episode 40 of The SitePoint Podcast is now available! This week your hosts are Patrick O'Keefe (@ifr ...
最新文章
- 使用MASM03 - Win32汇编语言011
- 关于数据取舍问题的一个实例
- 根据声音信号测量距离
- 线段树求区间最大值RMQ(单点更新)
- android布局DSL,android – 使用自定义Anko布局DSL解除警报对话框
- python离群点检测_如何从熊猫DataFrame中检测峰点(离群值)
- dual mysql 获取序列_MySQL获取周、月、天日期,生成排序号
- Eclipse Tips(2):代码颜色设置
- PHP Everywhere 插件中存在严重RCE,影响数千个 WordPress 站点
- 通过用户电脑ip获取用户当前所在城市以及天气
- zt mysql set enum类型介绍
- ACE程序员教程(下载地址)
- 网易企业邮箱登录服务器出错,网易企业邮箱登录出现故障,无法正常登录
- 【SEO工具】国内外网站速度测试工具都有哪些
- matlab中complex,complex_-complex在C语言中是什么意思呀!
- [GAMIT/GLOBK学习笔记]globk_comb.cmd/glorg_comb.cmd文件详解
- C语言,将1~9这9个数字分成三组,每组中的三个数排成一个三位的完全平方数,要求每个数字必须且只能用一次
- Windows CMD 访问UCN路径
- 计算机基础教学中存在的问题,任职教育院校中计算机基础课程教学中存在的问题及对策...
- CSS系列之浏览器私有前缀