基于matlab的语音识别系统的设计本科毕设毕业论文 联系客服

发布时间 : 星期五 文章基于matlab的语音识别系统的设计本科毕设毕业论文更新完毕开始阅读f8419990541810a6f524ccbff121dd36a32dc49b

河南理工大学毕业设计(论文)说明书

的位置上。为此,可定义短时平均幅度差函数:

Fn?k??N?1?km?0?x?m??x?m?k? (2-10)

nn显然,如果x(n)在窗口取值范围内具有周期性,则将出现极小值。如图2.8所示,对于周期性的x(n),Fn(k)也呈现周期性。与Rn(k)相反的是,在周期的各个整数倍点上Fn(k)具有谷值而不是峰值。

图2.8语音信号“0”的自相关函数

2.3.4语音端点检测

语音端点检测的准确性和可靠性,对系统识别率的提高起着重要的作用当系统收到一段包含语音的信号时,系统需要对语音的端点进行定位,丢弃语音前.后多余的噪音段。如果语音前后噪音保留过多,则会增加不同语音的共同成分,对识别产生干扰;而如果语音部分被切割掉,则会造成语音信息的丢失,若丢失的恰是区分语音的重要特征,则造成误识。正确确定语音端点也会减少系统的计算量和存储量。语音端点检测算法主要是根据语音的一些特征参数,短时能量、过零率等完成端点检测。

端点检测有双门限前端检测算法和多门限过零率前端检测算法。双门限前端检测算法用于有话、无话鉴别或词语前端检测,通常窗长(即帧长)取10~15ms,帧间隔(即采样间隔)取5~10ms,有一定的抗干扰能力,即使存在小的随机噪声,只要它不使信号越过正负门限所构成的带,就不会产生虚假的过零率。

多门限过零率前端检测算法是设多个高低不同的门限。与一股的单门限过零率法相

13

河南理工大学毕业设计(论文)说明书

比,可明显地减少前端误判,但是有时存在较大时延。因为首次找到高门限越过点,再往前推可能要搜索200ms左右才能找到清音的起点,这就不便于实现实时特征提取。

2.4语音信号的频域分析

语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此,对语音信号进行频谱分析,是认识语音信号和处理语音信号的的重要方法。

2.4.1滤波器组法

利用一组滤波器来分析语音信号的频谱,方法使用简单、实时性好、受外界环境的影响小。滤波器组法所用的滤波器可以是模拟滤波器,也可以是数字滤波器。滤波器可以用宽带带通滤波器,也可以用窄带带通滤波器。宽带带通滤波器具有平坦性,用它可以粗略地求取语音的频谱,其频率分辨率降低,相当于短时处理时窗宽较窄的那种情况。使用窄带带通滤波器,其频率分辨率提高,相当于短时处理时窗宽较宽的那种情况。

语音信号x(t)输入带通滤波器f1,f2,…… fn,滤波器输出为具有一定频带的中心频率为f1,f2,…… fn的信号。可以将滤波器组的输出经过自适应增量调制器变为二进制脉冲信号,再经过多路开关,变为一串二进制脉冲信号。这种信号可以输入计算机进行各种分析和处理。

2.4.2傅立叶频谱分析

傅立叶频谱分析是语音信号频域分析中广泛采用的一种方法。它是法国科学家J.Fourier在1807年为了得到热传导方程的简便解法而提出的。傅立叶频谱分析的基础是傅立叶变换,用傅立叶变换及其反变换可以求得傅立叶谱、自相关函数、功率谱、倒谱。由于语音信号的特性是随着时间缓慢变化的,由此引出语音信号的短时分析。

信号x(盯)的短时傅立叶变换为:

Xne????x?m?w?n?m?ejwm?????jwm (2-11)

式中,w(n)为窗口函数。图2.9是从带通滤波器作用理解短时傅立叶变换。

图2.9 从带通滤波器作用理解短时傅里叶变换

为了实现反变换,将Xnejw进行频率Xnejw可以看作是加窗后函数的傅立叶变换,

???? 14

河南理工大学毕业设计(论文)说明书

采样,即令wk?2?K/L则有

Xne?jwk????x?m?w?n?m?em?????jwkm? (2-12)

式中,L为频率采样点数。

短时功率谱实际上是短时傅立叶变换幅度的平方,它是信号x(n)的短时自相关函数的傅立叶变换,即

Pne???jwXne??jw2?k????R?k?en?jwk (2-13)

式中Rn(k)是自相关函数。图2.10是几种谱之间的关系。

图2.10 几种基于短时傅里叶变换谱之间的关系

2.5特征参数提取

2.5.1 LPCC倒谱系数

线性预测倒谱参数(Linear Prediction Cepstrum Coefficient,LPCC)是线性预测系数在倒谱域中的表示,该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。LPCC参数的优点是计算量小,易于实现,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。

语音信号的倒谱与LPC系数之间的递推关系:

??c?1??a1? (2-14) ?n?1k????c?n??an???1??akc?n?k?,1?n?pn?k?1???pk???c?n??1??akc?n?k?,n?p???n?k?1??或是由LPC得到

CLPCC?n??CLPC?n???k?1n?1n?kCLPCC?n?k?CLPC?k? (2-15) n根据同态处理的概念和语音信号产生的模型,语音信号的倒谱c(n)等于激励信号的倒

15

河南理工大学毕业设计(论文)说明书

??h?之和。通过分析激励信号的语音特点以及声道传输函数??n?与声道传输函数的倒谱h谱e??n?主要??n?的分布范围很宽,c(n)从低时域延伸到高时域,而h的零极点分布情况,可知e分布于低时域中。语音信号所携带的语音信息主要体现在声道传输函数上,因而在语音识

别中通常取语音信号倒谱的低时域构成LPC倒谱特征c,即

c??c?1?,c?2?,?,c?q??10?q?16 (2-16)

式中,q为LPC倒谱特征的阶数。

然而LPCC同时也继承了LPC的缺陷,其主要的一点就是LPC在所有的频率上都是线性逼近语音的,而这与人的听觉的特性是不一致的;而且LPC包含了语音高频部分的大部分噪声细节,这些都会影响系统的性能。

2.5.2 Mel频率倒谱系数

美尔频标倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)考虑了人耳的听觉特性,将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上。由于充分考虑了人耳的听觉特性,而且没有任何的前提假设,MFCC参数具有良好的识别性能和抗噪声能力,但其计算量和计算精度要求高。

MFCC不同于LPCC。在汉语数码语音识别中,MFCC参数的性能明显优于LPCC参数。MFCC是采用滤波器组的方法计算出来的,这组滤波器在频率的美尔坐标上是等宽的。这是因为人类在对约1000Hz以上的声音频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系。Mel频率可以用如下公式表示:

fMel?2596?log?1?f/700? (2-17)

对频率轴的不均匀划分是MFCC特征区别于普通倒谱特征的最重要的特点。将频率按照式(2-17)变换到Mel域后,Mel带通滤波器组的中心频率是按照Mel频率刻度均匀排列的。在实际应用中,MFCC倒谱系数计算过程如下:

(1)将信号进行分帧,预加重和加哈明窗处理,然后进行短时傅立叶变换并得到其频谱。

(2)求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中分量的作用在入耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱X(k)。

(3)将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个左右。MFCC系数为

Cn??log??k?cos???k?0.5?n/M?,n?1,2,?,L (2-18)

(4)将这种直接得到的MFCC特征作为静态特征,再将这种静态特征傲一阶和二阶差

16