基于某MATLAB地语音信号时域特征分析报告 联系客服

发布时间 : 星期六 文章基于某MATLAB地语音信号时域特征分析报告更新完毕开始阅读7dede17425284b73f242336c1eb91a37f111329c

实用文档

图1.5为某一语音在矩形窗条件下求得的短时能量和短时平均过零率。分析可知:清音的短时能量较低,过零率高,浊音的短时能量较高,过零率低。清音的过零率为0.5左右,浊音的过零率为0.1左右,两但者分布之间有相互交叠的区域,所以单纯依赖于平均过零率来准确判断清浊音是不可能的,在实际应用中往往是采用语音的多个特征参数进行综合判决。 短时平均过零率的应用:1)区别清音和浊音。例如,清音的过零率高,浊音的过零率低。此外,清音和浊音的两种过零分布都与高斯分布曲线比较吻合。2)从背景噪声中找出语音信号。语音处理领域中的一个基本问题是,如何将一串连续的语音信号进行适当的分割,以确定每个单词语音的信号,亦即找出每个单词的开始和终止位置。3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。 1采样幅度0.50-0.502000400060008000sample100001200014000160001800086短时能量42002000400060008000sample10000120001400016000180000.5短时平均过零率0.40.30.20.1002000400060008000sample1000012000140001600018000 图1.5 矩形窗条件下的短时平均过零率 4、短时自相关函数 自相关函数用于衡量信号自身时间波形的相似性。清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。因此,我们用短时自相关函数来测定语音的相似特性。短时自相关函数定义为:

实用文档

Rn(k)?m?????x(m)w(n?m)x(m?k)w(n?m?k) ''′令m?n?m,并且w(?m)?w(m),可以得到: ?N?1?km?0Rn(k)?m????[x(n?m)w(m)][x(n?m?k)w(m?k)]??[x(n?m)w(m)][x(n?m?k)w(m?k)]'''' 图6给出了清音的短时自相关函数波形,图7给出了不同矩形窗长条件下(窗长分别为N=70,N=140,N=210,N=280)浊音的短时自相关函数波形。由图1.6、图1.7短时自相关函数波形分析可知:清音接近于随机噪声,清音的短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时k的增大迅速减小;浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期,根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。浊音语音的周期可用自相关函数中第一个峰值的位置来估算。所以在语音信号处理中,自相关函数常用来作以下两种语音信号特征的估计: 1)区分语音是清音还是浊音; 2)估计浊音语音信号的基音周期。 0.080.060.040.020-0.02-0.04-0.06-0.08050100150200250300清音0.10.05R(k)0-0.05-0.1050100150延时k200250300图1.6 清音的短时自相关函数

实用文档

5N=70 R(k)0-5 0520406080100延时k120140160180200220 N=140R(k)0-5 01020406080100延时k120140160180200220 N=210R(k)0-10 01020406080100延时k120140160180200220 N=280R(k)0-10 020406080100延时k120140160180200220图1.7 不同矩形窗长条件下的浊音的短时自相关函数 5、时域分析方法的应用 1)基音频率的估计 首先可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音有效的清音和浊音段;其次,针对浊音段,可直接利用短时自相关函数估计基音频率,其方法是:估算浊音段第一最大峰的位置,再利用抽样率计算基音频率,举例来说,若某一语音浊音段的第一最大峰值约为35个抽样点,设抽样频率为11.025KHZ,则基音频率为11025/35=315 HZ。 但是,实际上第一最大峰值位置有时并不一定与基音周期吻合。一方面与窗长有关,另一方面还与声道特性有关。鉴于此,可采用三电平削波法先进行预处理。 2)语音端点的检测与估计 可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音信号的端点,尤其在有噪声干扰时,如何准确检测语音信号的端点,这在语音处理中是富有挑战性的一个课题。 6.短时傅立叶变换 由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: Xn(e)? jwm????x(m)w(n?m)e??jwm (2.1) 其中w(n-m)是实窗口函数序列,n表示某一语音信号帧。令n-m=k',则得到 Xn(e)? 于是可以得到 jwk'????w(k')x(n?k')e??jw(n?k') (2.2)

实用文档

Xn(e)?e 假定 jw?jwnk????w(k)x(n?k)e?jwk (2.3) Xn(e)? 则可以得到 jwk????w(k)x(n?k)e?jwk (4) Xn(ejw)?e?jwnXn(ejw) (5) 同样,不同的窗口函数,将得到不同的傅立叶变换式的结果。由上式可见,短时傅立叶变换有两个变量:n和ω,所以它既是时序n的离散函数,又是角频率ω的连续函数。与离散傅立叶变换逼近傅立叶变换一样,如令ω=2πk/N,则得离散的短时傅立叶吧如下: Xn(ej2?k/N)?Xn(k)? m??? 7.语谱图 水平方向是时间轴,垂直方向是频率轴,图上的灰度条纹代表各个时刻的语音短时谱。语谱图反映了语音信号的动态频率特性,在语音分析中具有重要的实用价值。被成为可视语言。 语谱图的时间分辨率和频率分辨率是由窗函数的特性决定的。时间分辨率高,可以看出时间波形的每个周期及共振峰随时间的变化,但频率分辨率低,不足以分辨由于激励所形成的细微结构,称为宽带语谱图;而窄带语谱图正好与之相反。 宽带语谱图可以获得较高的时间分辨率,反映频谱的快速时变过程;窄带语谱图可以获得较高的频率分辨率,反映频谱的精细结构。两者相结合,可以提供带两与语音特性相关的信息。语谱图上因其不同的灰度,形成不同的纹路,称之为“声纹”。声纹因人而异,因此可以在司法、安全等场合得到应用。 8.复倒谱和倒谱 复倒谱x(n)是x(n)的Z变换取对数后的逆Z变换,其表达式如下: ^?x(m)w(n?m)e??j2?km/N,(0?k?N?1) (6) x?Z^?1[lnZ[x(n)]] (7) 倒谱c(n)定义为x(n)取Z变换后的幅度对数的逆Z变换,即 c(n)?z?1[ln|X(z)|] (8)