做英语学习类产品经常会遇到读句子的时候针对单个单词的类卡拉ok的高亮效果。 这里记录一下音频进度和单词的一一对应关系(类似于歌词文件,粒度为单词级别)如何生成。纯人工来校对的话人工成本还是比较大的。 专业的词语是强制对齐(Forced Alignment)。这里介绍python库aeneas,可针对每句或每个单词的时间节点的json文件,还可以批量操作。准确率还不错。文档:
https://github.com/readbeyond/aeneas

http://www.readbeyond.it/aeneas/

使用方式:

1.安装软件
一键安装包(windows版本和mac版本)
https://github.com/sillsdev/aeneas-installer/releases

2.准备文档。一个文件夹。取名,如folder。
包含

config.txt   //配置文件  包含格式、输出路径等
audios/      //音频和句子信息-- Can_you_see_me.txt   //包含对应句子文本-- Can_you_see_me.m4a   //对应音频。 与文本文件名一致-- Yes_can.txt          //可批量操作-- Yes_can.m4a

3.打开命令行工具、终端。进入folder所在的目录下。创建一个output文件夹。
执行命令行: python -m aeneas.tools.execute_job folder/ output/

4.生成成功。到输出目录下找对应的文件生成文件。可自己写个简单的h5,上传生成的json和音频做准确率校验。

5.Windows下aeneas错误处理。the default input encoding is not UTF-8.You might want to set ‘PYTHONIOENCODING=UTF-8’ in your shell. 解决方案,终端进入python安装目录下,执行命令如:

cd C:\Python27\Scripts
set PYTHONIOENCODING=UTF-8

6.config.txt配置,包含路径、格式等信息。

is_hierarchy_type=flat
is_hierarchy_prefix=audios/
is_text_file_relative_path=.
is_text_file_name_regex=.*\.txt
is_text_type=mplain
is_audio_file_relative_path=.
is_audio_file_name_regex=.*\.m4a
is_audio_file_detect_head_max=10.000
is_audio_file_detect_tail_max=10.000os_job_file_name=output_example1
os_job_file_container=zip
os_job_file_hierarchy_type=flat
os_job_file_hierarchy_prefix=audios/
os_task_file_name=$PREFIX.json
os_task_file_format=json
os_task_file_smil_page_ref=$PREFIX.xhtml
os_task_file_smil_audio_ref=$PREFIX.m4a
os_task_file_levels=3job_language=en
job_description=Example 1 (flat hierarchy, parsed text files)

7.输出。

{"fragments": [{"begin": "1.560",  "end": "2.070",  "lines": ["Thanks"]}, {"begin": "2.070",  "end": "2.360",  "lines": ["for"]}, {"begin": "2.360",  "end": "2.950",  "lines": ["taking"]}, {"begin": "2.950",  "end": "3.405",  "lines": ["care"]}, {"begin": "3.405",  "end": "3.750",  "lines": ["of"]}, {"begin": "3.750",  "end": "4.140",  "lines": ["my"]}, {"begin": "4.140",  "end": "4.520",  "lines": ["dog!"]}]
}

github地址:https://github.com/liusaint/ls-blog/issues/36

aeneas 实现音频强制对齐相关推荐

  1. 语音识别中强制对齐_语音识别中的标注问题和嵌入式训练

    什么是嵌入式训练(Embedded Training)? 序列的标注问题 机器学习的问题主要分为三类:分类问题,标注问题和回归问题 标注问题的输入是一个观测序列,输出是一个标记序列或者状态序列.标注问 ...

  2. 宾西法尼亚大学强制对齐标注软件(P2FA)介绍以及使用说明

    一.综述 1. 介绍 宾夕法尼亚大学语音标签强制对齐(Penn Phonetics Lab Forced Aligner , P2FA) 是基于 HTK 的自动语音标注工具包.它包括美式英语的声学模型 ...

  3. montreal英文音素级别强制对齐

    之前测试了aeneas的强制对齐,现在再使用Montreal Force Align完成强制对齐任务 首先是Montreal Force Align的安装,直接下载即可 github.com/Mont ...

  4. 语音识别中强制对齐_一种在线语音文本对齐系统及方法

    专利名称:一种在线语音文本对齐系统及方法 技术领域: 本发明涉及电视字幕显示领域,特别涉及一种在线语音文本对齐系统及方法. 背景技术: 一个国家电视字幕节目的比例,反应了一个国家的人文水平,反应了社会 ...

  5. 汉语音频文本对齐(Forced Alignment)-MFA

    github:G-Meteor/Forced-Alignment-MFA (github.com) 里面有已下载好的模型与字典. 音素对齐在语音识别,语音合成等领域都可能会用的到.Montreal-F ...

  6. MFA强制对齐音频和音素的用法

    目录 环境 准备工作 音素对齐 环境 ubuntu 18.04.4 LTS 准备工作 下载Linux版本的MFA库montreal-forced-aligner_linux.tar.gz(这里下的版本 ...

  7. Centos7安装aeneas ffmpeg实现字幕音视频自动强制对齐

    前言 为啥写这个呢,因为发现除了Centos以外,其它系统安装都好方便啊.当然也可以把aeneas程序写好放到docker,然后部署到Centos7.Centos6啥的已经放弃了,完全不知道怎么玩. ...

  8. IAR中使用struct强制对齐时的一个问题及解决

    最近在用IAR开发MSP430程序过程中发现了一个问题,具体描述是这样的 首先定义了一个struct并强制1个字节对齐 #pragma pack(push) //保存对齐状态 #pragma pack ...

  9. 使用cakewalk将工程速度与音频速度对齐(扒带参考)

    题外话.cakewalk bandlab版免费 西贝柳斯打谱软件  fisrt版本 免费 (好像限制只能写4个声部) 1选中音频轨中的音频,按住alt+a调出audiosnap. 2点击    根据剪 ...

最新文章

  1. 排查Java线上服务故障的方法和实例分析
  2. oracle bi publisher 安装,Oracle BI Publisher 企业版安装后的配置(BI Publisher Enterprise Edition)...
  3. HTML5 本地存储
  4. ST3新建py2和py3的build system
  5. 阿里云AIoT全新工业和农业云端一体机深度产品,全链路数据化实现效率提升
  6. [Python从零到壹] 四十一.图像处理基础篇之图像采样处理
  7. python字符串使用技巧
  8. 安装包安装服务,点修复出现的错误”Error 1001:指定的服务已存在“ 解决办法...
  9. 汽车电子专业知识篇(十五)-整车电气系统设计——高压系统集成方案
  10. 在Mysql中count(*)、count(1)与count(字段/列名)的详解—聚合函数count
  11. 虚拟服务器实验,面向计算机硬件的远程虚拟实验服务
  12. 上班一个月,后悔当初着急入职的选择了
  13. 在Windows 2003环境下配置 PHP 5.2.5 + Apache HTTP Server 2.2.8 + MySQL 6.0
  14. ISO 标准是什么 RFID标准协议中 ISO18000-6B
  15. 仓库温度湿度控制措施_一般仓库的温湿度控制范围是多少合适?
  16. 教学管理文件信息检索系统设计与实现
  17. hive改表结构的两个坑
  18. GCF(4)----手机认证相关知识
  19. 重装Win7系统后,鼠标和键盘都无法使用
  20. PyQt5 教程 《日期和时间》

热门文章

  1. 关于 Chrome 谷歌浏览器 安装未封装插件的问题
  2. MATLAB小技巧(21)矩阵分析--偏最小二乘回归
  3. 基于MATLAB图像处理的恶劣天气自动车牌识别
  4. 清除浏览器cookie
  5. Linux内核nice、prio、static_prio、normal_prio、rt_priority范围归纳
  6. Bootstrap用法(实现注册页面)
  7. Redis:缓存(双写)一致性问题
  8. maven安装和配置阿里云镜像(各种详细配置)
  9. [Java 8 HashMap 详解系列]7.HashMap 中的红黑树原理
  10. 洛谷 2403 [SDOI2010] 所驼门王的宝藏