语音识别基于matlab GUI HMM 0~9数字和汉字语音识别(带面板)含Matlab源码 1716期

Posted 紫极神光

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了语音识别基于matlab GUI HMM 0~9数字和汉字语音识别(带面板)含Matlab源码 1716期相关的知识,希望对你有一定的参考价值。

一、隐马尔可夫模型简介

隐马尔可夫模型(Hidden Markov model, HMM)是一种结构最简单的动态贝叶斯网的生成模型,它也是一种著名的有向图模型。它是典型的自然语言中处理标注问题的统计机器学模型,本文将重点介绍这种经典的机器学习模型。
1 引言
假设有三个不同的骰子(6面、4面、8面),每次先从三个骰子里面选择一个,每个骰子选中的概率为1/3,如下图所示,重复上述过程,得到一串数值[1,6,3,5,2,7]。这些可观测变量组成可观测状态链。同时,在隐马尔可夫模型中还有一条由隐变量组成的隐含状态链,在本例中即骰子的序列。比如得到这串数字骰子的序列可能为[D6, D8, D8, D6, D4, D8]。

隐马尔可夫型示意图如下所示:

图中,箭头表示变量之间的依赖关系。图中各箭头的说明如下:

在任意时刻,观测变量(骰子)仅依赖于状态变量(哪类骰子),同时t时刻的状态qt仅依赖于t-1时刻的状态qt-1。这就是马尔科夫链,即系统的下一时刻仅由当前状态(无记忆),即“齐次马尔可夫性假设”

2 隐马尔可夫模型的定义
根据上面的例子,这里给出隐马尔可夫的定义。隐马尔科夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个可观测的随机序列的过程,隐藏的马尔可夫链随机生成的状态序列,称为状态序列(也就上面例子中的D6,D8等);每个状态生成一个观测,而由此产生的观测随机序列,称为观测序列(也就上面例子中的1,6等)。序列的每个位置又可以看作是一个时刻。
隐马尔可夫模型由初始的概率分布、状态转移概率分布以及观测概率分布确定。具体的形式如下,这里设Q是所有可能的状态的集合,V是所有可能的观测的集合,即有:



3 前向算法


对于步骤一的初始,是初始时刻的状态i1 = q1和观测o1的联合概率。步骤(2) 是前向概率的递推公式,计算到时刻t+1部分观测序列为o1,o2,…,ot,ot+1 且在时刻t+1处于状态qi的前向概率。如上图所示,既然at(j)是得到时刻t观测到o1,o2,…,ot并在时刻t处于状态的qj前向概率,那么at(j)aji就是到时刻t观测到o1,o2,…,ot并在是时刻t处于qj状态而在时刻t+1到达qi状态的联合概率。对于这个乘积在时刻t的所有可能的N个状态求和,其结果就是到时刻t观测为o1,o2,…,ot,并在时刻t+1处于状态qi的联合概率。最后第三步,计算出P(O|lamda)的结果。

当然这里只是介绍了诸多算法中的一种,类似的还有后向算法(大家可以看相关的书籍进行了解)。对于动态规划的解决隐马尔科夫模型预测问题,应用最多的是维特比算法。

二、部分源代码

clear;
x1=wavread('c1.wav');
%soundview('traffic69.wav');
x2=wavread('c2.wav');
%x3=wavread('s1.wav');
%x4=wavread('s2.wav');
x5=wavread('p1.wav');
x6=wavread('p2.wav');

x = x1 x2;
%y = x3 x4;
z = x5 x6;

samples=x z;

for i =1:length(samples)
    sample=[];
    for k=1:length(samplesi)
        sample(k).wave = samplesik;
        sample(k).data=[];
    end
    hmmi=train(sample,[3 3 3]);
end
function varargout = learntosay(varargin)
gui_Singleton = 1;
gui_State = struct('gui_Name',       mfilename, ...
                   'gui_Singleton',  gui_Singleton, ...
                   'gui_OpeningFcn', @learntosay_OpeningFcn, ...
                   'gui_OutputFcn',  @learntosay_OutputFcn, ...
                   'gui_LayoutFcn',  [] , ...
                   'gui_Callback',   []);
if nargin && ischar(varargin1)
    gui_State.gui_Callback = str2func(varargin1);
end

if nargout
    [varargout1:nargout] = gui_mainfcn(gui_State, varargin:);
else
    gui_mainfcn(gui_State, varargin:);
end




function learntosay_OpeningFcn(hObject, eventdata, handles, varargin)

handles.output = hObject;

guidata(hObject, handles);

figFrame = get(gcf,'JavaFrame'); %取得Figure的JavaFrame。
set(gcf,'Position',[30,20,80,19]);%图形窗口大小
global samples;global fs;
fs=8000;
% I=imread('华大2.jpg');
% axes(handles.axes_background);
% imshow(I);
set(handles.text_tishi,'string','大家好!我是语音识别小工具!! ');




function varargout = learntosay_OutputFcn(hObject, eventdata, handles) 

varargout1 = handles.output;


%训练部分
function pushbutton_train_Callback(hObject, eventdata, handles)

global samples;global fs;
sample=[];
set(handles.text_tishi,'string','输入要训练的字符,并按回车!!');
set(handles.edit_out,'string','');
pause;
fstr=get(handles.edit_out,'string');%input('输入要训练的字符,“0~9华侨大学”其中一个字符:','s');
while length(fstr) == 0
       fstr=get(handles.edit_out,'string');
       pause(1);
end
set(handles.text_tishi,'string','亲,请耐心等候!!');
  pause(1);
for rr=1:10
  ss=num2str(rr-1);
  fn=[cd '\\yuanyin4\\' fstr '_' ss  '.wav']
  samples = wavread(fn);
%   samples=xiaobo(samples);
  sample(rr).wave=samples;
  [x1 x2] = vad(sample(rr).wave);  
  m = mfcc(sample(rr).wave);
  if x1<3 
     x1=3;
  end
  if x2>length(m)
     x2=length(m);
  end
  m = m(x1-2:x2-2,:);
  sample(rr).data= m;
end
filepath=[cd,'\\hmmmat0.mat'];
fprintf('%s',filepath);
if exist(filepath,'file')==0
   n=1;
   hmmn=train(sample,[3 3 3 3]);
   word(n)=fstr;
else
   load(filepath,'hmm','n','word');
   for rr=1:n
       if word(rr)==fstr
          hmmrr=train(sample,[3 3 3 3]);
          break;
       elseif rr==n
          n=n+1;
          fprintf('%s\\n','open');
          hmmn=train(sample,[3 3 3 3]);
          word(n)=fstr;
       end
    end
end


三、运行结果








四、matlab版本及参考文献

1 matlab版本
2014a

2 参考文献
[1]韩纪庆,张磊,郑铁然.语音信号处理(第3版)[M].清华大学出版社,2019.
[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社,2019.

以上是关于语音识别基于matlab GUI HMM 0~9数字和汉字语音识别(带面板)含Matlab源码 1716期的主要内容,如果未能解决你的问题,请参考以下文章

语音识别基于matlab GUI HMM 0~9数字和汉字语音识别(带面板)含Matlab源码 1716期

语音识别基于matlab GUI HMM中文语音识别含Matlab源码 1385期

语音识别基于BP神经网络实现0到9语音识别matlab源码含 GUI

语音识别基于BP神经网络实现0到9语音识别matlab源码含 GUI

语音识别基于DTW的0-9数字语音识别matlab源码含 GUI

语音识别基于隐马尔可夫模型(HMM)的孤立字语音识别matlab源码