利发国际-业界公认的最权威网站,欢迎光临!

利发国际_利发国际娱乐_利发国际平台

当前位置: 利发国际 > 语音识别原理 >

语音识别原理1952年贝尔实验室和1962年IBM实现的都

时间:2018-03-24 10:19来源:北影 作者:若水1970 点击:
语音判别,是薪金智能的要紧进口 分红两局限来分享对语音判别的原理以及流程的分解。 第一局限 语音判别编制 1.语音判别编制的一般架构如左图,分熬炼和解码两阶段。熬炼,单片

语音判别,是薪金智能的要紧进口

分红两局限来分享对语音判别的原理以及流程的分解。

第一局限 语音判别编制



1.语音判别编制的一般架构如左图,分熬炼和解码两阶段。熬炼,单片机语音识别。即经历大宗标注的语音数据熬炼声学模型,包括GMM-HMM、DNN-HMM和RNN+CTC等;解码,即经历声学模型和言语模型将熬炼集外的语音数据判别成文字。语音识别算法。目前常用的开源工具有HTK Speech Recognition Toolkit,Kingdi ASR以及基于Tensorflow(speech-to-text-wudio-videoenet)告竣端到端编制。我以陈腐而又典范的HTK为例,来阐扬语音判别范围触及到的概念及其原理。HTK提供了富厚的语音数据解决,事实上语音识别芯片价格。以及熬炼和解码的工具。原理。

2.语音判别,分为孤立词和不断词语音判别编制。晚期,相比看语音识别技术原理。1952年贝尔实验室和1962年IBM告竣的都是孤立词(特定人的数字及个体英文单词)判别编制。不断词判别,由于不同人在不同的场景下会有不同的语气和搁浅,很难断定词界限,切分的帧数也一定相似;而且判别终局,看看实验室。必要言语模型来举办打分后解决,听说语音识别算法有哪些。获得符合逻辑的终局。



3.以孤立词判别为例,对比一下语音识别原理1952年贝尔实验室和1962年IBM实现的都是孤立词(特。能够很好地阐扬语音判别的流程级相关概念。倘使对词举办建模,看着科大讯飞语音识别模块。在熬炼阶段研习每个模型的参数;在判别阶段,计算输出语音序列在每个模型的得分(概率值),最高分者获胜。但是,ibm。任何言语里的常用单词都以千计,研习数以千计的模型不光必要杂乱的语料库,还必要冗长的迭代期间。贝尔。此外,汉语还分有调无调,模型数量又成倍推广。

于是,语音识别原理1952年贝尔实验室和1962年IBM实现的都是孤立词(特。寻常对音素建模,都是。然后由音素组分解单词;将极大地消沉模型数量,进步熬炼和解码效率。对英语,相比看孤立。常用的音素集是卡内基梅隆大学提供的一套由39个音素组成的音素集(参见The CMU Pronouncing Dictionry)。语音识别算法有哪些。对汉语,一般用23个声母和24个韵母作为音素集。学会语音识别芯片价格。

4.采用隐马尔可夫模型(Hidden Mrkov Model,HMM)对音素建模。1970年,普林斯顿大学的Lenny Bum出现HMM模型,并于20世纪80年代引入到语音判别范围,科大讯飞语音识别芯片。取得里程碑性的打破。单片机语音识别程序。HMM的通俗诠释参见容易易懂的例子疏解隐马尔可夫模型。

如上左图,每个音素用一个包罗6个形态的HMM建模,每个形态用高斯混合模型GMM拟合对应的观测帧,观测帧按时序组分解观测序列。每个模型能够生发展短不一的观测序列,相比看语音。即一对多映照。熬炼,行将样本按音素分别到的确的模型,听说arduino 语音识别。再研习每个模型中HMM的转移矩阵和GMM的权重以及均值方差等参数。识别。



5.参数研习,经历Bum-Welch算法,ld3320对比讯飞。采用EM算法的思想。于是,每个模型必要初始化,GMM一般采用每个模型对应全豹样本的均值和方差。对于语音识别最新进展。硬分类形式,单片机语音识别程序。即计算每帧对应每个形态的GMM值,概率高者获胜;而软分类形式,即每帧都以对应概率值属于对应的形态,计算带权均匀。学会科大讯飞语音识别模块。

其中

表示t时刻的

属于形态j的概率。用静态规划前向后向算法计

。语音识别原理框图。



另外,转移矩阵参数的更新计谋:



值得一提,实现。CTC算法的焦点就是前向后向算法。

6.解码,采用Viterbisexul算法。模型在期间轴上展开的网络中贪心性物色最优途径题目,语音识别原理框图。而今途径的说合概率值即为模型得分,采用最优模型,判别出音素,再查找字典,安装成单词。取对数能够防止得分过小的题目。



THK基于Token Prer ending告竣Viterbisexul算法,用链表纪录判别途径消息:



7.HTK开源工具包告竣了搭建无缺语音判别编制各个环节:录制数据,标注文件,模型初始化与参数研习,以及解码判别,援助言语模型n-grfeel和RNNLM,告竣GPU加快,极大地进步了迭代效率。十全十美的是,目前仅援助前馈型神经网络模型,而且版本更新越来越慢。



8.HTK的历史一览,曾被微软公司收买,最终又回归剑桥大学。从版本更新可知语音判别技术的历史(深度 | 四十年的难题与荣誉--从历史视角看语音判别发展)发展进程。在引入深度研习以前(Hinton 2009),HTK紧跟技术潮流。




(责任编辑:admin)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
最新评论 进入详细评论页>>
推荐内容