A survey on acoustic sensing

  • 前言
  • Abstract
  • 1.Introduction
  • 2.应用层
    • 2.1 情景应用
      • 2.1.1 测距
      • 2.1.2 声学雷达
      • 2.1.3 基于设备的跟踪
      • 2.1.4 定位
    • 2.2 人机交互
    • 2.3 空气声波通讯
  • 3.处理层
    • 3.1 预处理技术
      • 3.1.1 噪音过滤
      • 3.1.2 信道失真抑制
      • 3.1.3 鲁棒起始检测.
    • 3.2 计时估计
    • 3.3 模式识别
    • 3.4 声音信号的数字调制
  • 4.物理层
    • 4.1 支持硬件
    • 4.2
    • 4.3 波形设计
    • 4.4 带宽考虑
  • 5.挑战和未来方向
    • 5.1 挑战
      • 5.1.1 用户配置
      • 5.1.2 多径效应
      • 5.1.3 样本频率偏移
      • 5.1.4 异质性(heterogeneity)
      • 5.1.5 系统延迟
    • 5.2 未来方向
      • 5.2.1 声音混响
      • 5.2.2 深度学习
  • 6.总结

前言

最近要开题了,多看看和翻译下相关工作的综述.有助于拓宽视野也能顺带练习英语.
今天翻译的是<< A survey on acoustic sensing>>,关于声学传感技术的综述.
时间有限,尽量还原原文,但还是意译为主.
文献相关的句子省略了

Reference Signal:
参考信号:
是由发射端提供给接收端用于信道估计或信道探测的一种已知信号

Chirp信号:
是通信技术有关编码脉冲技术中的一种术语,是指对脉冲进行编码时,其载频在脉冲持续时间内线性地增加,当将脉冲变到音频地,会发出一种声音,听起来像鸟叫的啁啾声,故名“啁啾”

phase shift:
相移
模拟电路都有其频率特性,不同频率的正弦波通过电路之后,波形在时间上会与输入信号产生差异。输出的正弦波和输入的正弦波信号的相位差称为相移

Abstract

物联网(IoT)的发展带动了许多新兴的感知机制.在这些机制中,声学传感在这些年备受关注.声学传感技术利用声学传感器基本的基本用途:录音和播放,来实现有趣的应用和新的用户体验.在这篇论文中,我们总结出第一篇关于通过改动硬件的前沿的声传感研究的综述.我们提出了一个通用框架,对声学传感系统的主要构件分类.这个框架包括三层.物理层,处理层和应用层.我们强调了处理层的不同传感方法和物理层的基本设计思路.深入介绍了许多已有的和潜在的应用比如情境感知应用,人机交互界面和空气声学通信.文中还讨论了面临的挑战和今后的研究方向.

1.Introduction

2.应用层


在这章中,我们讨论了多种声学应用.我们基于应用场景将已有的研究化为3类:情景应用,人机交互和空气声学通信.不同的类型以不同的方式运用声音信号.情景应用利用情景信息比如距离,位置等,依赖空气传播时间的测量.人机交互系统通过检测外部物理活动如何改变声音信号来推断和相应用户的意图.空气声学通信利用声波在空气中传输数据.这些应用大多数采用主动传感,也就是产生调制声波.这些感知方法,占用带宽和部署的平台的应用的比较总结在了表1.

2.1 情景应用

基于情景信息比如距离和位置的情景应用,可以在健康,健身和娱乐等领域提供更好的用户体验.基于声音传播时间或特殊声学特征估计的情景应用,可以进一步划分为四类:测距,声学雷达,基于设备的跟踪和定位.

2.1.1 测距

范围是一个有用的情景信息,可以用于距离和尺寸测量.

2.1.2 声学雷达

2.1.3 基于设备的跟踪

2.1.4 定位

定位是基于位置服务(LBS)的关键.尽管有很多在室内定位的工作,但它们要么使用昂贵的专用基础设施,或依靠繁琐的依赖于设备的内核修改,使得实际部署受到禁止.经过了数十年的努力,然而室内定位服务依然没有广泛的普及.在已现有顶尖室内定位方法中,基于声音的定位系统以其相对较低的基础设施成本和部署工作量达到亚米级得定位精度在社区中受到更多关注.现有关于声音定位解决方案得工作可以分成两类,基于基础设施的和无基础设施的.
基于基础设施的方案通常在一些地方部署低成本和节能的分布式声音锚点.这些锚点的坐标被提前测量.除了声音传感器,每个锚点可能和一个远程服务器有无线连接.远程服务器在传输调制信号时同步或调度锚点.当这些信号被一个目标或其他锚点捕获时,相应的时间戳(到达时间或到达时间差)会传到服务器.最后,目标的位置可以获得.相对的,无基础设施系统不需要额外的硬件,但是通常会损失定位精度.声学室内定位系统的比较总结在了表2.
我们相信基于基础设备的声学定位系统具有商业应用前景,因为它可以在可接受的设备成本和支持商用手机设备下,能达到较高定位精度.无基础设施的解决方案,可以在锚点停止工作并且没有足够的区域覆盖时,作为基于基础设施系统的补充,

2.2 人机交互

2.3 空气声波通讯

3.处理层

处理层充当了物理层和应用层的中间媒介.它从物理层接收音频样本,采用推理模型来提取特定于应用程序的特征,并向应用层提供结果.如何通过推理模型挖掘有效信息是处理层的核心.在本章里,我们将现有的方法分为计时估计,模式识别和数字调制.每个类别背后的关键技术也会详细介绍.在计时估计中,介绍了估计时间传播时间的不同处理技术;模式识别中介绍了检验数据规则的规范数据流.还比较了数字调制中实现空气声学通信的常用技术.在探索每个类别的细节之前,我们先介绍这三种类别中的常用预处理技术.

3.1 预处理技术

预处理技术旨在实现高信噪比,因为声音传感器特别是麦克风对环境噪音,信道失真和多径效应非常敏感.在本章中,我们沿着-噪音过滤,信道干扰抑制,以及鲁棒起始检测.每个类别中的技术是相互正交的,并且可以组合.

3.1.1 噪音过滤

噪音通常来自带内(in-band)干扰和带外(out-of-band)干扰.带外干扰可以通过数字滤波器比如FIR(finite impulse response). 带内干扰通常比较难去除.但是可以通过采用匹配滤波器增强信噪比.
FIR滤波器是广泛应用的数字滤波器,因为它们本质稳定,具有线性相位,并且可以灵活地塑造其频率响应.然后,FIR滤波器易于实现,通常有很好性能.滤波过程通过有限先验样本地加权和来完成.一种更快地实现通过使用输入和滤波器系数的卷积.尽管FIR滤波器有很多优点,对于资源有限的物联网设备,它们是计算密集型的.因此,CIC(cascade integrator comb)出现了.此外,CIC滤波器的频率响应具有独特的特性.如图2(b)所描绘,在某些频率段出现显著的损耗,可以用来抑制特定的干扰.另一个流行的选择是匹配滤波器.一个匹配滤波器可以通过将测量值与已知参考信号相关联,在低信噪比的噪音污染信号中提取已知波形.
以上的噪音过滤技术都执行在接收端.在发送测,精心设计还可以减轻噪音,比如ISI(inter-symbol-interference).例如,一个减轻ISI的有效方法是在连续信号传输之间插入GI(Guard Interval),保持信道一段时间沉默.因为声音回响在空气信道中经过10ms后会降低25db,插入GI会有效地降低先前信号的多径混响影响,从而减轻ISI.

3.1.2 信道失真抑制

声音信号传播经过的信道并不理想,经常会引起失真.在声音系统中通常有两种信道失真的来源,即频率选择性和扬声器膜片惯性.
频率选择性,也称为非平坦频率响应,描述了声音信号在不同频率下经历不同通道增益的现象.这在现成的商用物联网设备上很常见,因为这些平台上的声音传感器仅对音频带宽进行了优化.然而,更高频带宽的信号在声传感中通常是非常有利的,因为它们受背景噪音的干扰较小.因此,如果不进行预处理,接收器将得到损坏的输入.频率选择性通常通过对接收到的信号应用补偿滤波器来解决,该信号对相应的信道具有相互的频率响应.
扬声器振膜惯性会引起振铃效应或频率泄露.振铃效应是指在时域上的失真,即传输开始时延迟,传输持续时间延长.相反,频率泄露(从这里起,我们将会用频率泄露指代扬声器振膜问题)指在频域的问题,其中带限信号的传输会引起带外噪音.从感知上讲,虽然发射的信号只占用不可听的频带,但扬声器振膜惯性会产生可听噪音.当传输具有突然的振幅或相位变化时,就会出现这种问题.为了解决这个问题,在文献中已经考虑了波形重构技术和信道估计技术.波形重构,如同它的名字,通过光滑的改变输入的波形来减轻信道失真.已有的解决方案包括利用升余弦窗来重塑波形,插入淡入淡出信号确保相位一致性,或只是缓慢的增加和降低前几个和最后几个样本振幅.图3演示了波形重构的效果.尽管波形重构可以减少或合格声音产物,它可能带来更多的失真.另一个技术,源于射频通信系统,通过直接测量通道相应解决失真.在获得信道响应后,一个互补过滤器可以设计和应用于输入.因为频率泄露得到了更精确的补偿,对原始信号的失真可以降到最小.然而,这是以更高的实现复杂性校准为代价的.

3.1.3 鲁棒起始检测.

起始检测决定了一个特定信号存在与否以及相应的时间点,是许多声传感系统,尤其是对于时间敏感的应用的基石.
起始检测可以通过简单FFT分析或匹配滤波器应用来完成.FFT分析通常用于音调检测.它通过检测频域中是否存在已知的频谱来实现初始检测,而匹配滤波器则在时域内完成检测任务.匹配滤波器通常用于检测具有良好压缩特性的信号,比如噪音信号.通过将捕获的样本与已知的参考信号进行交叉相关,可以从强峰值确定参考信号的存在和时机.无论如何,所有的方法都需要峰值检测的合适阈值.如果已知频谱的振幅或相关峰值高于某个阈值,则识别参考信号,反之亦然.如果出现了多个峰值,则选择最大的一个.由于系统特性导致的"近远"效应,强干扰和多径效应,使用固定阈值的峰值检测在动态和移动环境进行起始检测是不充分的.
"远近"效应,一个源于无线通信系统的术语,描述了在基站收到的信号功率由于信号在距离上的衰减而受距离较近的用户影响更大的现象.声传感系统也面临着同样问题.特别的,"远近"效应使得设定合适的阈值来同时检测远近距离地参考信号变得充满挑战.当阈值过高,远处的信号可能会错过,而如果阈值较低,则接收器附近的噪音或干扰可能被识别为参考信号.图4说明了这一困境.而且,当接收到的信号被宽带宽的强干扰饱和时(比如,图6描绘的尖锐噪音),基于阈值的检测方法是有问题的.强干扰很容易生成超过预设阈值的多个峰值导致起始检测的预判.最后,多径效应描述了接收端不仅捕获假定为主要信号的LOS(line of sight)信号,也接收了多个延迟和衰减的拷贝信号的现象.这些延迟和衰减的拷贝信号,叫做NLOS(not line of sight)信号,可以构造性的相加从而控制接收的信号.因此,基于阈值的起始检测系统中,对应NLOS信号的时间戳可能错认为LOS信号的时间戳.

对于鲁棒性检测,应该利用更复杂的特性.图5显示了用于使用chirp信号的起始检测的一些有用特性.例如,真实峰值大小与其旁瓣平均值的比值要远比干扰信号的高.另外,当参考信号出现时,真实峰值与峰值之前的W个样本平均值的比率急剧增加(如图5所示),而假峰值不具有次特性.利用比率(上述两个比率中的后一个)对相关结果进行归一化处理,可以有效地缓解"远近"问题.然而,在富含多路径的环境中,主要由于NLOS反射生成的多峰值可能也超出预定义地阈值,因此很难执行可靠的起始检测.为了减轻这个问题,一个可行方法是选择第一次出现的峰值,因为LOS信号传播路径比反射信号短.另一个可行方法首先计算剩余峰地一阶差分,然后选择最大值.在一些例子中,可以利用特定于应用的特征从多个反射中提取所需的信号.例如,要从一个移动的手指上获取主要的回声,上述所有方法都将失败.在这个特定的场景中,基于手指的回声展现出了动态特征比如多普勒频移和相位偏移,然而其他反射没有这些特质.

3.2 计时估计

计时估计是为了获得声信号的传播时间,如ToA(Time of Arrival)或TDoA(Time Different of Arrival)时间戳,这对测距和定位有重要意义.ToA估计通常涉及两个设备.它测量收发器间声信号的绝对传播时间(图7(a)).相反的,TDoA通常涉及多个收发器并计算时间差(图7(b)).为了执行ToA或TDoA估计,已有的解决方案可以划分为单向或双向传感方法.
单向传感通常指的是信号仅从一个或多个发射器单向传播到一个或多个接收器的传感范式.单向传感通常需要紧密的同步.对于ToA估计,这个方法通常利用另一个高速信号资源(例如,WiFi,蓝牙和Zigbee等无线电信号),其中同步的传播时间(与声波相比)可以忽略不计,如图7(a)所示.在这个方法中,发射器同时发射声学信号和同步信号.一个接收器通过计算两种信号之间的到达时间差来测定ToA时间戳.因此,无需任何协调就可以获得时间戳.对于TDoA估计,通常由多个发射器或接收器.在一些例子中,发射器或传播器物理上位于单个设备上.无论是发射器还是接收器都紧密同步.在同步传输系统中,声音传输同时被激活.TDoA通过交叉关联收到的样本和已知的参考信号获得.图7给出了说明.注意图中的手机设备可以替换成定制的硬件,其允许更灵活的涉及从而潜在的实现更好的性能.单项传感方法的主要缺点在于它们对紧密同步的需求,从而会轻易的被系统延迟和网络堵塞影响.
双向传感以免同步方式解析计时信息,因此与单项传感相比具有优势.在双向传感中,声音传输是双向的.因此一个设备需要同时装配扬声器和麦克风.图8(a)描绘了获取ToA时间戳的过程.在时间tsA,设备A启动声音发射(通常是一个chirp信号).设备B在时间trA捕捉到声音信号,并在一个任意的延迟后在时间 tsB激活另一次传输.设备A在时间trA捕捉第二次传输.然后ToA可以通过以下等式获得:

如果所有传输可以被第三个设备接收,则TDoA(如图8(b)所示)可以通过(2)获得


值得注意的是所有的时间戳,命名为tsA,trA,tsB,trB,tsC,trC,可以在一个声音缓存中记录为样本索引,而不是受到各种延迟的本地系统时间.因此ToA或TDoA信息可以有效地通过样本计数获得.此外,双向传感假设任意延迟(图8)在所有设备中都是相同的.这个假设由于不同的采样频率通常是不正确的.因此,任意的延迟应该最小.在一些实现中,双向传感需要一个协调器来调度传输,获得所有用于计算的时间戳然后计算目标设备的最终结果.
单向传输和双向传输都是基于起始检测,它通常通过CC(cross-correlation)实现.基于CC的方法受限于2-或3-样本误差,在采样率fs=45kHz和声速c=340m/s时,导致1-2cm的等效误差.这种精度对于高精度追踪比如手指追踪时不能容忍的.于是,文献中设计了两种高精度追踪方法.
第一种方法采用相位信息.例如,在基于纯音的系统中,音调信号以fc=20khz震荡,采样率为fs=48khz,显著的Π/4相位变化相当于分数采样,即
现然,利用相位信息可以获得更好的计时分辨率.并且,由于精确的相位估计可以在仅仅数百个样本中完成,它引入较小的延迟.高精度追踪依靠细粒度位移估计,计算公式为:

其中,θ表示累计相移,c是声速.对于更复杂的载波如OFDM,可以获得更准确的估计结果,因为它们循序过滤单滤波系统敏感的异常值.其他数字序列比如GSM和Zadoff-Chu序列推断位移变化.基于相位的方法在免设备收拾追踪系统中更为常见.
第二种方法,应用在基于设备的追踪,利用chirp信号混频打破CC的分辨率障碍.它通过将位移转换为频率变化实现.收发器首先进行一次性同步,然后进行跟踪.假设接收端的chirp是
位移 d = c∆t导致信号延迟∆t和衰减
其中fmin是初始频率,B是带宽,T是周期,α是衰减, ∆t是运行时间,通过将r和rd相乘来执行信号混合操作.取混合结果关于t的倒数然后滤除高频分量,延迟或唯位移由

获得,其中f是混合和滤波后剩余信号的频率分量.f可以通过FFT分析或高级分析模型比如多信号分类(MUSIC)估计.例如,若带宽B=4kHz,周期T=0.04s,1Hz的频率估计分辨率,等效分辨率是

在合适的设置下,信号混合可以轻易在精度上优于基于CC的方法.信号混合操作对于多径效应有额外鲁棒性优势.由于利用MUSIC和奇异值分解(SVD)等特征值分解方法,可以轻易解决由多重效应引起的多频分量

3.3 模式识别

模式识别旨在从原始测量中提取数据规律.基于模式识别的声音传感利用物理活动比如击键,压力和呼吸等物理活动可以生成特殊声音特征或影响声音信道属性的事实.一些活动本身不会生成可捕捉的声音音号但是会影响声音信道并产生不同的信道相应.这里的"信道"指的是声音信号传播经过的媒介,可以是空气空间,也可以是包围着传感系统的固体表面.信道响应可以由一个标量表示,即信号强度,或高维特征,如振幅谱密度和频谱.
主动传感系统中的模式识别通常包含三步.最初的,跨越宽带宽的声音信号受不同物理活动影响通过信道传输,并记录信道相应.通过这一过程,可以获得足够的标记训练数据.之后,通过映射信道响应和目标活动训练模型.最后,基于新样本的模型用于在线模式识别.图9给出了主动传感系统中模式识别的典型图示.

第一步,通常使用宽带信号比如chirps,因为它们能生成丰富的信道相应特性.然而纯音信号也是可行的.第二部中,统计建模或机器学习是构建模型的常用技术.
统计建模使用封闭的分析模型,将活动与可量化的指标相关联.例如,在ForcePhone中,将震动手机建模为一个弹簧阻尼系统,在该系统中可以解析的表示所施加的力与减少的振幅之间的关系.在SoundWave中,一个封闭推理模型用于验证是否存在任何多普勒频率用于手势识别.统计模型通常有效,但是对测量误差很敏感.这些模型中的参数通常需要校准或训练.统计模型具有一定复杂性,通常需要领域知识.因此,机器学习模型越来越受欢迎.
机器学习算法采用的模型通常不假设目标活动与声音相关的特征具有显式函数关系,而是为与不同声学剖面相关的活动分配不同的概率.然后,在最终预测阶段,模型通常预测不同活动的可能性.相关的机器学习方法包括神经网络,决策树,支持向量机(SVM),k近邻(KNN)等.由于声波信号的时间序列特性,它们首先被分成重叠或不重叠的部分.然后,在训练或推理过程中,从每部分中提取时域或频域特征作为机器学习模型的输入.最近在声音传感系统中出现了越来越多的深度模型比如卷积神经网络模型,循环神经网络模型来避免对复杂的手工特征的需求并实现更好的分类性能.
被动传感的模式时被也可以采用主动创安模式识别的三步法.然后,在被动传感中,声音信号不是有意产生的,而是由相应的物理活动造成的自然声音产生的.这些声音信号强度通读非常弱,嵌在其中的模式经常被噪音掩盖.因此,先进的信号处理技术,如滤波和信号变换通常在进一步加工前使用

3.4 声音信号的数字调制

数字调制是指将信息表示为给定介质上载波函数的技术.概念上,可以应用如图10所示的无线通讯系统中的技术,如信源编码,信道编码和调制技术.然而,由于受限于计算机资源和带宽,空气声音通讯需要更加简单的设计.例如,复杂的信源编码和信道编码方法很少被使用.低复杂度的信道编码方法比如CRC(循环冗余检查,Cyclic redundancy check),FEC(前向纠错,Forward Error Correction)更为常用.考虑到声音信号的统一属性(低传播速率和低振荡频率),只有一小部分调制技术可以应用到声音传感系统中.调制技术比如PSK(Phase Shift Keying)和QAM(Quadrature Amplitude Modulation)很少被使用因为它们的性能因多普勒频移而显著降低.于是,在本章中,我们专注于最常用的调制技术,分别是,FSK,OFDM,和CSS(chirp扩频,Chirp spread spectrum)
FSK是一种利用不同频率的纯音信号来传输数据的调制技术.解调FSK信号可以通过FFT分析,Hilbert变换或相干检测(coherent detection).FSK很简单但是不能实现高吞吐量.相反的,OFDM是更为有效的调制技术,它将数据符号部署在正交子载波上,以较少的带宽实现高吞吐量.然而,因为调制通常实现在声音传感平台的软件,声音OFDM结构比它的RF部分简单得多.由于有限的计算力,在标准基于RF的OFDM系统的中先进信号处理模块,比如CFO(载波频率偏移,Carrier frequency offsets)校正,SFO校正和载波感应在需要被移除.一个声音OFDM的简化函数块如图11所示.首先,比特流通过信道编码技术进行处理,比如前向纠错和循环冗余检查.这一步将冗余信息添加到原始数据流中,使它们更有抗噪音能力.然后对比特流进行并行化并进行IFFT(快速傅里叶逆变换).这个操作生成了准备传输时域信号.为了减轻ISI(符号间干扰,inter-symbol-interference)和ICI(信道间干扰,inter-channel interference),引入了CP/CS(循环前缀/后缀,cyclic prefix/suffix).CP/CS增加了生成信号的副本.此时,一个OFDM帧生成了.为了使OFDM帧易于捕捉,一个导码(通常是chirp信号)被插入包前.最终,信号经过声音信道传输.接收器反转上述过程.
FSK和OFDM都只适用于短距离通讯,在移动场景中性能下降.相比而言,CSS(chirp扩频)更可靠,可用于远程通信.
CSS是LoRaWAN的一种已知技术,旨在实现低功耗的远程通信.它分配宽带宽信号,即chirp信号来表示数据符号,使其对噪音干扰和多径衰落具有鲁棒性.它也适合移动场景,因为chirp信号抗多普勒效应.一个CSS帧通常由导码开头,后跟不同的数据符号.图12说明了一个CSS的例子.导码用于同步,数字符号用于编码信息.为了减弱ISI,通常在导码和数据符号之间插入防护间隔.CSS调制有不同的符号表示技术.一个好的表示技术通常利用正交chirps来表示不同数据符号.这样的设计可以减弱ISI,因此减少误码率.有两种众所周知的技术,即BOK(二进制正交键控,binary orthogonal keying)和QOK(四元正交键控,quaternary orthogonal keying).BOK利用正交的升chirp和姜chirp来表示不同数据符号,而QOK用四种正交chirps.在接收端,一个CSS帧由匹配滤波器解码.CSS调制的主要缺点是它有限的数据速率.

4.物理层

4.1 支持硬件

4.2

4.3 波形设计

4.4 带宽考虑

5.挑战和未来方向

研究社区目前为止在设计声音传感系统中取得很多进展,探索了很多应用,其中一些已成为商业产品.然而,这个领域依然有需要挑战性问题和未开发的潜力.在本章中,我们强调挑战,并分享我们对未来研究趋势的展望.

5.1 挑战

5.1.1 用户配置

终端用户同城更喜欢开箱即用的解决方案,无需任何冗长的系统设置,预训练或校准.然而,许多已有的解决方案不能满足这些需求.例如,定位系统需要校准锚点的坐标;touch force enabling系统需要预校准,这对非专业和终端用户来说可能很困难.因此,需要实际部署中需要消除或自动化完成设置过程.

5.1.2 多径效应

多径描述了声音信号通过不同的传播路径达到接收器的现象.它能影响很多声音传感系统的性能.例如,测距精度依赖于LOS信号的存在性检测.然而,在多路径丰富的换几个中,LOS信号的功率可能比NLOS回音还弱,因为后者可能叠加到一起或由于接收器的方向性.因此,可靠的捕获LOS信号变得具有挑战性.尽管提出了许多多径抑制技术,它们通常基于限制性假设,不抗干扰.例如,在周边设备跟踪系统中,最先进的工作假设被跟踪的目标是有一个主要的回音.显然,在实践中这个假设并不一定总是正确.因此,需要更多的鲁棒性和精确性的多径模型

5.1.3 样本频率偏移

由于一对收发器之间的SFO,一段特定信号的持续时间可能在两侧不同.显然这是有问题的,尤其对于时间精度是关键的同步来说.SFO问题主要是由于本地震荡器的不稳定性造成的,它具有不可预测性,容易受温度变化的影响.一些现有的解决方案假设SFO引入了线性效应,因此可以被补偿.然而,线性补偿只适用于短期内.因此,从长远来看如何应对SFO问题仍然值得探讨.

5.1.4 异质性(heterogeneity)

有许多类型的声学传感器具有不同的灵敏度和频率响应.设备多样性问题会阻碍依赖于特定传感器属性的解决方案的可拓展性.例如,BeepBeep中,一个用于确定ToA时间戳的阈值参数,高度依赖于使用的麦克风的灵敏度.然而,麦克风灵敏度的一致性需要不同传感平台的不同阈值.因此,在不同传感平台运行BeepBeep时需要进行校准.模式识别的预测模型是通过耗时的训练获得的,与采用的声学传感器的频率响应密切相关.设备异质性使得使用一个设备的数据训练的模型对另一台设备不适用.设备异质性通常通过费力地设备相关校准来解决,这在实际应用中是不可取的.将迁移学习与一些标记测量相结合可能是一种很有前途的方法.

5.1.5 系统延迟

系统延迟是指声学传感器对应用程序的请求没有相应的现象.例如,有报告称在安卓操作系统中,用户空间的音频播放命令与传输所需声音信号的真实时间之间的延迟可达到10ms.系统延迟对定时关键应用的响应能力和准确性是有害的.例如,过高的延迟会影响ALPS的同步性能,导致本地误差.在ARABIS中,获取位置修复的更新速率受限于系统延迟.这个问题主要由于在用户和内核空间中不确定的代码执行造成的,它表现出高方差,并且与系统负载高度相关.因此,对这种不确定性进行建模和补偿是很复杂的.在内核空间中直接实现系统可以回避这个问题.然而这种方法通常是不可拓展的,因为它需要繁琐的基于设备的内核修改.因此,需要有效的技术处理系统延迟,或者对这种延迟不可知性的解决方案.

5.2 未来方向

5.2.1 声音混响

最近一项关于声传感的研究发现,录音系统可以充当声学混频器,使得能够在采样率不超过48kHz的商用现成移动设备上检测24kHz以上的超声波信号.这种现象是由于声传感器的非线性引起的,在干扰和通信中得到了广泛应用.这个有趣地发现可能在不久的未来激励更多的创新应用.同时,这种技术也对音频输入功能的智能物联网设备构成安全威胁,如Google Home和Amazon Echo.它可以合成人类无法感知的音频信号来操纵智能物联网设备,从而为恶意攻击打开大门.因此,检测和防御此类攻击的技术值得研究.

5.2.2 深度学习

近几年,人们目睹了深度学习的浪潮.深度学习允许从端对端训练提取有用的特征.它甚至在包括图像分类,语音识别等任务超过了人类的表现.我们相信深度学习在声音传感中也能由很多应用.例如,卷积网络和循环神经网络可以用于识别时间序列声音信号的手势.去噪自动编码器,最初用于学习输入的损坏版本,可用于处理信道失真和多径效应.

6.总结

在本文中,我们介绍了关于声音传感的综合调查.基于已有工作的调查,我们提出了针对声音传感系统的层状架构.这个架构包含三层,即应用层,处理层和物理层.在应用层,我们讨论了3类应用,包括情景应用,人机交互界面和空气声音通信.在处理层,综合分析了不同的传感方法.在物理层,详细介绍了基础设计思路.
除了声传感的巨大发展,还有很多技术挑战需要进一步研究.比如,用户配置,多径效应,样本频率偏移,异质性和系统延迟.我们相信对这些挑战的解决方法不仅仅会提升系统性能,还会导致许多令人兴奋的应用的增加.在综述的最后,我们介绍了两个研究热点,即声音混响和深度学习.通过对现有工作及时和彻底的审查,这篇综述可能作为指导,激励更多研究者在声学传感中研究.

声学传感技术综述 (A survey on acoustic sensing)相关推荐

  1. 论文学习:Lip Reading-Based User Authentication Through Acoustic Sensing on Smartphones

    文章题目:Lip Reading-Based User Authentication Through Acoustic Sensing on Smartphones 来源:IEEE/ACM Trans ...

  2. 大模型 LLM 综述, A Survey of Large Language Models

    大模型 LLM 综述, A Survey of Large Language Models 一.概述 一般认为NLP领域的大模型>=10 Billion参数(也有人认为是6B.7B, 工业界用, ...

  3. 【综述】Transformers in Remote Sensing: A Survey

    论文 论文:Transformers in Remote Sensing: A Survey 论文地址:https://arxiv.org/abs/2209.01206 [2209.01206] Tr ...

  4. 转录组分析综述A survey of best practices for RNA-seq data analysis

    转录组分析综述 转录组 文献解读 Trinity cufflinks 转录组研究综述文章解读 今天介绍下小编最近阅读的关于RNA-seq分析的文章,文章发在Genome Biology 上的A sur ...

  5. 联邦学习安全与隐私保护综述 A survey on security and privacy of federated learning

    联邦学习安全与隐私保护综述 写在前面的话 联邦学习是什么 联邦学习工作流程 联邦学习的技术分类 安全问题和解答 隐私问题和解答 未来方向 写在前面的话 本篇博客参考<A survey on se ...

  6. ABR算法研究综述 | A Survey on Bitrate Adaptation Schemes for Streaming Media Over HTTP(IEEE COMST‘18)阅读笔记

    原文链接:A Survey on Bitrate Adaptation Schemes for Streaming Media Over HTTP | IEEE Journals & Maga ...

  7. 文档级机器翻译综述:A Survey on Document-level Machine Translation: Methods and Evaluation

    文档级机器翻译综述:A Survey on Document-level Machine Translation: Methods and Evaluation author:Sameen Maruf ...

  8. 群体智能动态优化算法及其应用综述(A survey of swarm intelligence for dynamic optimization: Algorithms and applicatio)

    群体智能动态优化算法及其应用综述[A survey of swarm intelligence for dynamic optimization: Algorithms and application ...

  9. 最近一篇关于深度学习在地图-定位应用的综述

    点击上方"视学算法",选择"星标" 干货第一时间送达 整理:公众号@智车科技 本文仅做学术分享,如有侵权,请联系删除. 这是一个arXiv上2020年6月底上传 ...

最新文章

  1. 5.1软件升级的小阳春
  2. LINUX_egrep及扩展正则表达式
  3. 【学亮IT手记】HashMap集合精讲
  4. 手把手带你领略双十一背后的核心技术Sentinel之服务的熔断降级
  5. 骚操作!Intellij IDEA居然藏着这些实用小技巧 !
  6. OpenCV使用G-API实现面部美化算法
  7. git for windows_手把手教会舍友玩 Git (包教包会,再也不用担心他的学习)
  8. Python获取类属性及其它(vim看源码常用、__dict__)
  9. Android图片特效处理之图片叠加
  10. 什么叫做形态学图像处理_Python图像处理膨胀与腐蚀
  11. 如何安装uclient_UClient官方版下载_UClient手机官方版下载v2.0.0.1580_3DM单机
  12. Excel表格撤销工作表保护
  13. 带您了解虚拟换衣系统
  14. 迅雷手机版苹果版_「9月22日」最新 苹果IOS手机迅雷Beta版证书修复版 安卓不限速...
  15. Unity Shader Alpha测试
  16. be [prove] a great boon to [for]
  17. 见山是山,见山不是山,见山只是山
  18. 常用 APP URL Scheme
  19. 16 tia 内容说明 安装包_博途v12|Tia Portal v12下载 附安装说明 - 121下载站
  20. 如何打造一个抗住千万级流量短信服务(续)

热门文章

  1. 测测你智商:《国际标准智力测验》
  2. python一百天:从小白到大师的进阶之路
  3. 适合入门hadoop 2.7.7的集群环境搭建高可用版本配置(保姆版)
  4. Ubuntu操作-09 快捷键
  5. 视频分享平台PeerTube的搭建
  6. wms与wmts的知识
  7. 在cmd中利用subl启动Sublime Text
  8. Keil uvision5安装——51单片机篇
  9. Ubuntu忘记密码的解决办法
  10. 亚阈值区和深三极管区讲解